論文の概要: USB: A Unified Summarization Benchmark Across Tasks and Domains
- arxiv url: http://arxiv.org/abs/2305.14296v1
- Date: Tue, 23 May 2023 17:39:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 13:55:44.143748
- Title: USB: A Unified Summarization Benchmark Across Tasks and Domains
- Title(参考訳): usb:タスクとドメインをまたいだ統一要約ベンチマーク
- Authors: Kundan Krishna, Prakhar Gupta, Sanjana Ramprasad, Byron C. Wallace,
Jeffrey P. Bigham, Zachary C. Lipton
- Abstract要約: 要約の多次元的理解を必要とする8つのタスクからなるベンチマークを導入する。
このベンチマークで様々な手法を比較し、複数のタスクにおいて、中程度の大きさの微調整されたモデルが、より大きな数発の言語モデルよりも一貫して優れていることを発見した。
- 参考スコア(独自算出の注目度): 57.49503148357634
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An abundance of datasets exist for training and evaluating models on the task
of summary generation.However, these datasets are often derived heuristically,
and lack sufficient annotations to support research into all aspects of
summarization, such as evidence extraction and controllable summarization. We
introduce a benchmark comprising 8 tasks that require multi-dimensional
understanding of summarization, e.g., surfacing evidence for a summary,
assessing its correctness, and gauging its relevance to different topics. We
compare various methods on this benchmark and discover that on multiple tasks,
moderately-sized fine-tuned models consistently outperform much larger few-shot
prompted language models. For factuality related tasks, we also evaluate
existing heuristics to create training data and find that training on them
performs worse than training on $20\times$ less human-labeled data. Our
benchmark consists of data from 6 different domains, allowing us to study
cross-domain performance of trained models. We find that for some tasks, the
amount of training data matters more than the domain where it comes from, while
for other tasks training specifically on data from the target domain, even if
limited, is more beneficial. Our work fulfills the need for a well-annotated
summarization benchmark with diverse tasks, and provides useful insights about
the impact of the quality, size and domain of training data.
- Abstract(参考訳): しかし、これらのデータセットはしばしばヒューリスティックに抽出され、エビデンス抽出や制御可能な要約など、要約のあらゆる側面の研究を支援する十分なアノテーションが欠如している。
本稿では,要約の多次元的理解を必要とする8つのタスクからなるベンチマークについて紹介する。
このベンチマークの様々な方法を比較し、複数のタスクにおいて、中程度の微調整されたモデルが、ずっと大きな数発の言語モデルを上回ることを発見します。
事実に関するタスクについては、既存のヒューリスティックスを評価してトレーニングデータを作成し、トレーニングが20ドル以上のトレーニングよりもパフォーマンスが悪いことを確認します。
ベンチマークは6つの異なるドメインのデータで構成されており、トレーニングされたモデルのクロスドメインパフォーマンスを研究できます。
いくつかのタスクでは、トレーニングデータの量は、それがもたらすドメインよりも重要であるのに対して、ターゲットドメインのデータに特化してトレーニングするタスクは、たとえ制限されたとしても、より有益であることに気付きます。
当社の作業は,多種多様なタスクによる注釈付き要約ベンチマークの必要性を満たすとともに,トレーニングデータの品質,サイズ,ドメインへの影響に関する有用な洞察を提供する。
関連論文リスト
- Boosting Short Text Classification with Multi-Source Information Exploration and Dual-Level Contrastive Learning [12.377363857246602]
短文分類のためのMI-DELIGHTという新しいモデルを提案する。
まず、スパーシリティの問題を軽減するために、マルチソース情報探索を行う。
次に,短いテキストの表現を学習するために,グラフ学習アプローチを採用する。
論文 参考訳(メタデータ) (2025-01-16T00:26:15Z) - Distribution Matching for Multi-Task Learning of Classification Tasks: a
Large-Scale Study on Faces & Beyond [62.406687088097605]
マルチタスク学習(MTL)は、複数の関連するタスクを共同で学習し、共有表現空間から恩恵を受けるフレームワークである。
MTLは、ほとんど重複しない、あるいは重複しないアノテーションで分類タスクで成功することを示す。
本稿では,分散マッチングによるタスク間の知識交換を可能にする新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-02T14:18:11Z) - Topic-Guided Sampling For Data-Efficient Multi-Domain Stance Detection [44.06173809190896]
スタンス検出は、著者が関心の対象に対して表現する姿勢を特定することに関わる。
このタスクは、ソーシャルメディアの意見の特定から法的主張の立場の検出まで、さまざまな領域にまたがる。
本稿では、トピック誘導型多様性サンプリング手法と、スタンスを微調整するために使用される対照的な目的について述べる。
論文 参考訳(メタデータ) (2023-06-01T15:00:39Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - UniSumm and SummZoo: Unified Model and Diverse Benchmark for Few-Shot
Summarization [54.59104881168188]
textscUniSummは、複数の要約タスクで事前訓練された、統合された数ショットの要約モデルである。
textscSummZooは、スクリーンショットの要約をよりよく評価するための新しいベンチマークである。
論文 参考訳(メタデータ) (2022-11-17T18:54:47Z) - Truth Discovery in Sequence Labels from Crowds [12.181422057560201]
Amazon Mechanical Turk (AMT)のようなクラウドソーシングプラットフォームは、この目的のためにデプロイされている。
アノテーションアグリゲーションにおける既存の文献は、アノテーションは独立しており、シーケンシャルなラベルアグリゲーションタスクを扱う際の課題に直面していると仮定している。
逐次ラベリングタスクにおいて,作業者が提供するアノテーションを用いて,真理ラベルを推測する最適化手法を提案する。
論文 参考訳(メタデータ) (2021-09-09T19:12:13Z) - How to distribute data across tasks for meta-learning? [59.608652082495624]
タスクごとのデータポイントの最適な数は予算に依存しますが、それは大きな予算のためのユニークな一定の値に収束します。
この結果から,データ収集の簡便かつ効率的な手順が示唆された。
論文 参考訳(メタデータ) (2021-03-15T15:38:47Z) - Low Resource Multi-Task Sequence Tagging -- Revisiting Dynamic
Conditional Random Fields [67.51177964010967]
異なるタスクに対するラベルシーケンス間の依存関係を利用する低リソースマルチタスクシーケンスタグの異なるモデルを比較した。
タスク予測間の相互依存性の明示的モデリングは、通常のマルチタスクモデルと同様にシングルタスクよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-05-01T07:11:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。