論文の概要: USB: A Unified Summarization Benchmark Across Tasks and Domains
- arxiv url: http://arxiv.org/abs/2305.14296v2
- Date: Mon, 4 Dec 2023 15:53:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 23:32:43.574787
- Title: USB: A Unified Summarization Benchmark Across Tasks and Domains
- Title(参考訳): usb:タスクとドメインをまたいだ統一要約ベンチマーク
- Authors: Kundan Krishna, Prakhar Gupta, Sanjana Ramprasad, Byron C. Wallace,
Jeffrey P. Bigham, Zachary C. Lipton
- Abstract要約: ウィキペディア由来のベンチマークを導入し、クラウドソースアノテーションの豊富なセットを補完し、8ドルの相互関連タスクをサポートする。
このベンチマークで様々な手法を比較し、複数のタスクにおいて、中程度の大きさの微調整されたモデルが、より大きな数発の言語モデルよりも一貫して優れていることを発見した。
- 参考スコア(独自算出の注目度): 68.82726887802856
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While the NLP community has produced numerous summarization benchmarks, none
provide the rich annotations required to simultaneously address many important
problems related to control and reliability. We introduce a Wikipedia-derived
benchmark, complemented by a rich set of crowd-sourced annotations, that
supports $8$ interrelated tasks: (i) extractive summarization; (ii) abstractive
summarization; (iii) topic-based summarization; (iv) compressing selected
sentences into a one-line summary; (v) surfacing evidence for a summary
sentence; (vi) predicting the factual accuracy of a summary sentence; (vii)
identifying unsubstantiated spans in a summary sentence; (viii) correcting
factual errors in summaries. We compare various methods on this benchmark and
discover that on multiple tasks, moderately-sized fine-tuned models
consistently outperform much larger few-shot prompted language models. For
factuality-related tasks, we also evaluate existing heuristics to create
training data and find that training on them results in worse performance than
training on $20\times$ less human-labeled data. Our articles draw from $6$
domains, facilitating cross-domain analysis. On some tasks, the amount of
training data matters more than the domain where it comes from, while for other
tasks training specifically on data from the target domain, even if limited, is
more beneficial.
- Abstract(参考訳): NLPコミュニティは多数の要約ベンチマークを作成しているが、制御と信頼性に関する多くの重要な問題に同時に対処するために必要なリッチなアノテーションは提供していない。
ウィキペディア由来のベンチマークは、クラウドソースアノテーションの豊富なセットで補完され、8ドルの相互関連タスクをサポートする。
(i)抽出要約
(ii)抽象要約
(iii)話題に基づく要約
(四)選択した文を一行要約に圧縮すること。
(v) 要約文の証拠を示すもの
(六 要約文の事実的正確性を予測すること。)
(vii)要約文で不確定なスパンを識別すること
(viii)要約の事実的誤りを訂正する。
このベンチマークの様々な方法を比較し、複数のタスクにおいて、中程度の微調整されたモデルが、ずっと大きな数発の言語モデルを上回ることを発見します。
事実に関するタスクについては、既存のヒューリスティックスを評価してトレーニングデータを作成し、トレーニング結果が20ドル以上のトレーニングよりもパフォーマンスが低いことを確認します。
本誌の記事は6ドルのドメインから出ており、ドメイン横断分析が容易だ。
一部のタスクでは、トレーニングデータの量は、それが由来するドメインよりも重要である一方で、ターゲットドメインのデータに特化してトレーニングするタスクは、たとえ制限されたとしても、より有益である。
関連論文リスト
- $\texttt{COSMIC}$: Mutual Information for Task-Agnostic Summarization Evaluation [39.287235598507294]
本稿では,タスク成果を保存しつつ,下流タスクに有用な要約を生成するために,その能力に基づいて要約者を評価する新しいタスク指向評価手法を提案する。
我々は,この指標の実践的実装として$textttCOSMIC$を導入し,人間の判断に基づく指標との強い相関と下流タスク性能の予測の有効性を実証した。
論文 参考訳(メタデータ) (2024-02-29T18:51:23Z) - Distribution Matching for Multi-Task Learning of Classification Tasks: a
Large-Scale Study on Faces & Beyond [62.406687088097605]
マルチタスク学習(MTL)は、複数の関連するタスクを共同で学習し、共有表現空間から恩恵を受けるフレームワークである。
MTLは、ほとんど重複しない、あるいは重複しないアノテーションで分類タスクで成功することを示す。
本稿では,分散マッチングによるタスク間の知識交換を可能にする新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-02T14:18:11Z) - Topic-Guided Sampling For Data-Efficient Multi-Domain Stance Detection [44.06173809190896]
スタンス検出は、著者が関心の対象に対して表現する姿勢を特定することに関わる。
このタスクは、ソーシャルメディアの意見の特定から法的主張の立場の検出まで、さまざまな領域にまたがる。
本稿では、トピック誘導型多様性サンプリング手法と、スタンスを微調整するために使用される対照的な目的について述べる。
論文 参考訳(メタデータ) (2023-06-01T15:00:39Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - UniSumm and SummZoo: Unified Model and Diverse Benchmark for Few-Shot
Summarization [54.59104881168188]
textscUniSummは、複数の要約タスクで事前訓練された、統合された数ショットの要約モデルである。
textscSummZooは、スクリーンショットの要約をよりよく評価するための新しいベンチマークである。
論文 参考訳(メタデータ) (2022-11-17T18:54:47Z) - Truth Discovery in Sequence Labels from Crowds [12.181422057560201]
Amazon Mechanical Turk (AMT)のようなクラウドソーシングプラットフォームは、この目的のためにデプロイされている。
アノテーションアグリゲーションにおける既存の文献は、アノテーションは独立しており、シーケンシャルなラベルアグリゲーションタスクを扱う際の課題に直面していると仮定している。
逐次ラベリングタスクにおいて,作業者が提供するアノテーションを用いて,真理ラベルを推測する最適化手法を提案する。
論文 参考訳(メタデータ) (2021-09-09T19:12:13Z) - How to distribute data across tasks for meta-learning? [59.608652082495624]
タスクごとのデータポイントの最適な数は予算に依存しますが、それは大きな予算のためのユニークな一定の値に収束します。
この結果から,データ収集の簡便かつ効率的な手順が示唆された。
論文 参考訳(メタデータ) (2021-03-15T15:38:47Z) - Low Resource Multi-Task Sequence Tagging -- Revisiting Dynamic
Conditional Random Fields [67.51177964010967]
異なるタスクに対するラベルシーケンス間の依存関係を利用する低リソースマルチタスクシーケンスタグの異なるモデルを比較した。
タスク予測間の相互依存性の明示的モデリングは、通常のマルチタスクモデルと同様にシングルタスクよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-05-01T07:11:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。