論文の概要: LongEval: Guidelines for Human Evaluation of Faithfulness in Long-form
Summarization
- arxiv url: http://arxiv.org/abs/2301.13298v1
- Date: Mon, 30 Jan 2023 21:31:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-01 18:28:48.325866
- Title: LongEval: Guidelines for Human Evaluation of Faithfulness in Long-form
Summarization
- Title(参考訳): LongEval:Long-form Summarizationにおける人間の信仰評価ガイドライン
- Authors: Kalpesh Krishna, Erin Bransom, Bailey Kuehl, Mohit Iyyer, Pradeep
Dasigi, Arman Cohan, Kyle Lo
- Abstract要約: LongEvalは、長文要約における人間の忠実性評価のためのガイドラインのセットである。
異なる領域における2つの長文要約データセットのアノテーション研究にLongEvalをデプロイする。
- 参考スコア(独自算出の注目度): 48.02158981582502
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While human evaluation remains best practice for accurately judging the
faithfulness of automatically-generated summaries, few solutions exist to
address the increased difficulty and workload when evaluating long-form
summaries. Through a survey of 162 papers on long-form summarization, we first
shed light on current human evaluation practices surrounding long-form
summaries. We find that 73% of these papers do not perform any human evaluation
on model-generated summaries, while other works face new difficulties that
manifest when dealing with long documents (e.g., low inter-annotator
agreement). Motivated by our survey, we present LongEval, a set of guidelines
for human evaluation of faithfulness in long-form summaries that addresses the
following challenges: (1) How can we achieve high inter-annotator agreement on
faithfulness scores? (2) How can we minimize annotator workload while
maintaining accurate faithfulness scores? and (3) Do humans benefit from
automated alignment between summary and source snippets? We deploy LongEval in
annotation studies on two long-form summarization datasets in different domains
(SQuALITY and PubMed), and we find that switching to a finer granularity of
judgment (e.g., clause-level) reduces inter-annotator variance in faithfulness
scores (e.g., std-dev from 18.5 to 6.8). We also show that scores from a
partial annotation of fine-grained units highly correlates with scores from a
full annotation workload (0.89 Kendall's tau using 50% judgments). We release
our human judgments, annotation templates, and our software as a Python library
for future research.
- Abstract(参考訳): 自動生成したサマリーの忠実性を正確に判断するためのヒューマン評価は最善の方法だが、長いサマリーを評価する際の難易度や作業負荷の増大に対処するソリューションは少ない。
長文要約に関する162の論文を調査した結果,我々はまず,長文要約を取り巻く人間評価の実践に光を当てた。
これらの論文の73%は、モデル生成サマリーに対する人間による評価を行なわず、他の研究は、長い文書を扱う際に現れる新たな困難に直面している。
本調査に動機づけられたlongevalは,長文要約における忠実性評価のためのガイドラインのセットであり,以下の課題に対処している。
2) 正確な忠実度を維持しながらアノテータの作業量を最小化する方法
(3)ヒトは、要約とソーススニペットの自動アライメントの恩恵を受けるか?
異なるドメイン内の2つの長文要約データセット(品質とパブメド)のアノテーション研究にlongevalを展開し、より細かい判断の粒度(例えば、節レベル)に切り替えることで、忠実度スコア(例えば、std-devは18.5から6.8まで)における注釈間ばらつきを低減できることを見出した。
また,細粒度単位の部分的アノテーションからのスコアは,全アノテーションのワークロード(50%の判定で0.89のKendall's tau)のスコアと相関することを示した。
人間の判断、アノテーションテンプレート、そして将来の研究のためのPythonライブラリとしてソフトウェアをリリースします。
関連論文リスト
- On Positional Bias of Faithfulness for Long-form Summarization [83.63283027830657]
LLM(Large Language Models)は、長いコンテキスト設定において、入力の途中で情報に過小評価される位置バイアスを示すことが多い。
長文要約におけるこのバイアスの存在、その忠実性への影響、およびこのバイアスを軽減するための様々な技術について検討する。
論文 参考訳(メタデータ) (2024-10-31T03:50:15Z) - STORYSUMM: Evaluating Faithfulness in Story Summarization [31.94902013480574]
本稿では,局所的な忠実度ラベルと誤り説明を含む短編を収録した新しいデータセットであるSTORYSUMMを紹介する。
このベンチマークは、あるメソッドが挑戦的な不整合を検出できるかどうかをテストする評価方法である。
論文 参考訳(メタデータ) (2024-07-09T02:06:30Z) - FABLES: Evaluating faithfulness and content selection in book-length summarization [55.50680057160788]
本稿では,本書の忠実度と内容選択の大規模評価を行う。
LLMが生成した26冊のサマリーで作成した3,158冊の注釈のデータセットであるFABLESを5.2KUSDで収集する。
注釈の分析によると、ほとんどの不誠実な主張は出来事や登場人物の状態に関係しており、物語を無効にするために間接的推論を必要とする。
論文 参考訳(メタデータ) (2024-04-01T17:33:38Z) - Evaluation of Faithfulness Using the Longest Supported Subsequence [52.27522262537075]
本稿では,文脈によって支持される請求項の最長不連続性を計算し,機械生成テキストの忠実さを評価する新しい手法を提案する。
新しい人間アノテーション付きデータセットを使用して、モデルを微調整してLongest Supported Subsequence(LSS)を生成する。
提案手法は,我々のデータセットの忠実度に対する最先端のメトリクスよりも18%向上していることを示す。
論文 参考訳(メタデータ) (2023-08-23T14:18:44Z) - Hybrid Long Document Summarization using C2F-FAR and ChatGPT: A
Practical Study [1.933681537640272]
ChatGPTは、大規模言語モデル(LLM)分野における最新のブレークスルーである。
本稿では,ビジネス記事や書籍などの長い文書のハイブリッド抽出と要約パイプラインを提案する。
以上の結果から,ChatGPTの使用は長文を要約するための非常に有望なアプローチであるが,まだ成熟していないことが示唆された。
論文 参考訳(メタデータ) (2023-06-01T21:58:33Z) - How Far are We from Robust Long Abstractive Summarization? [39.34743996451813]
我々は、信頼できる要約を生成するために、長い文書抽象要約システム(モデルとメトリクス)を実装して評価する。
長期の文書評価指標について,人間の評価結果から,ROUGEは要約の関連性を評価する上で最善であることが明らかとなった。
我々は、より広い範囲の要約設定でメトリクスの開発に貢献できることを願って、注釈付き長いドキュメントデータセットをリリースします。
論文 参考訳(メタデータ) (2022-10-30T03:19:50Z) - SNaC: Coherence Error Detection for Narrative Summarization [73.48220043216087]
SNaCは長文の微粒化アノテーションに根ざした物語コヒーレンス評価フレームワークである。
本稿では,生成した物語要約におけるコヒーレンスエラーの分類法を開発し,150冊の本や映画の脚本要約にまたがる6.6k文のスパンレベルアノテーションを収集する。
我々の研究は、最先端の要約モデルによって生成されるコヒーレンスエラーの最初の特徴と、群衆アノテータからコヒーレンス判断を引き出すためのプロトコルを提供する。
論文 参考訳(メタデータ) (2022-05-19T16:01:47Z) - SummEval: Re-evaluating Summarization Evaluation [169.622515287256]
総合的かつ一貫した方法で14の自動評価指標を再評価する。
上記の自動評価指標を用いて,最近の要約モデル23をベンチマークした。
我々は、CNN/DailyMailニュースデータセットでトレーニングされたモデルによって生成された最大の要約コレクションを組み立てる。
論文 参考訳(メタデータ) (2020-07-24T16:25:19Z) - FEQA: A Question Answering Evaluation Framework for Faithfulness
Assessment in Abstractive Summarization [34.2456005415483]
我々は,その資料から生成した要約の忠実さを評価する問題に取り組む。
現在のモデルでは、抽象性と忠実性のトレードオフが示されています。
本稿では,信頼度を基準とした質問応答(QA)尺度を提案する。
論文 参考訳(メタデータ) (2020-05-07T21:00:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。