論文の概要: On Positional Bias of Faithfulness for Long-form Summarization
- arxiv url: http://arxiv.org/abs/2410.23609v1
- Date: Thu, 31 Oct 2024 03:50:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 17:02:16.628558
- Title: On Positional Bias of Faithfulness for Long-form Summarization
- Title(参考訳): 長文要約における忠実度の位置バイアスについて
- Authors: David Wan, Jesse Vig, Mohit Bansal, Shafiq Joty,
- Abstract要約: LLM(Large Language Models)は、長いコンテキスト設定において、入力の途中で情報に過小評価される位置バイアスを示すことが多い。
長文要約におけるこのバイアスの存在、その忠実性への影響、およびこのバイアスを軽減するための様々な技術について検討する。
- 参考スコア(独自算出の注目度): 83.63283027830657
- License:
- Abstract: Large Language Models (LLMs) often exhibit positional bias in long-context settings, under-attending to information in the middle of inputs. We investigate the presence of this bias in long-form summarization, its impact on faithfulness, and various techniques to mitigate this bias. To consistently evaluate faithfulness, we first compile a benchmark of eight human-annotated long-form summarization datasets and perform a meta-evaluation of faithfulness metrics. We show that LLM-based faithfulness metrics, though effective with full-context inputs, remain sensitive to document order, indicating positional bias. Analyzing LLM-generated summaries across six datasets, we find a "U-shaped" trend in faithfulness, where LLMs faithfully summarize the beginning and end of documents but neglect middle content. Perturbing document order similarly reveals models are less faithful when important documents are placed in the middle of the input. We find that this behavior is partly due to shifting focus with context length: as context increases, summaries become less faithful, but beyond a certain length, faithfulness improves as the model focuses on the end. Finally, we experiment with different generation techniques to reduce positional bias and find that prompting techniques effectively direct model attention to specific positions, whereas more sophisticated approaches offer limited improvements. Our data and code are available in https://github.com/meetdavidwan/longformfact.
- Abstract(参考訳): LLM(Large Language Models)は、長いコンテキスト設定において、入力の途中で情報に過小評価される位置バイアスを示すことが多い。
長文要約におけるこのバイアスの存在、その忠実性への影響、およびこのバイアスを軽減するための様々な技術について検討する。
忠実度を継続的に評価するために、まず、人間に注釈を付けた8つの長文要約データセットのベンチマークをコンパイルし、忠実度指標のメタ評価を行う。
LLMに基づく忠実度測定は、フルコンテキスト入力では有効であるが、文書の順序に敏感であり、位置バイアスを示す。
LLMが生成した要約を6つのデータセットで分析すると、LLMは文書の開始と終了を忠実に要約するが、中間内容は無視する「U字型」の傾向が忠実に現れる。
ドキュメントの順序の摂動も同様に、重要なドキュメントが入力の中央に置かれると、モデルが忠実でないことを明らかにします。
文脈が大きくなるにつれて、要約はより忠実になるが、ある長さを超えると、モデルが最後にフォーカスするにつれて忠実さが向上する。
最後に、位置バイアスを低減するために異なる生成手法を実験し、より高度な手法は限定的な改善をもたらすのに対し、プロンプト技術は効果的に特定の位置への注意をモデル化することを発見した。
我々のデータとコードはhttps://github.com/meetdavidwan/longformfact.comで利用可能です。
関連論文リスト
- Distance between Relevant Information Pieces Causes Bias in Long-Context LLMs [50.40165119718928]
LongPiBenchは、複数の関連する情報を含む位置バイアスを評価するために設計されたベンチマークである。
これらの実験によると、現在のほとんどのモデルは「中間の失われた」問題に対して堅牢であるが、関連する情報片の間隔に関する重大なバイアスが存在する。
論文 参考訳(メタデータ) (2024-10-18T17:41:19Z) - Found in the Middle: Calibrating Positional Attention Bias Improves Long Context Utilization [97.84156490765457]
大規模言語モデル(LLM)は、入力の中央に位置する関連する情報を取得するのに苦労する。
この現象はミドル・イン・ザ・ミドル問題として知られている。
また,中級中級中級中級中級中級中級中級中級中級中級中級中級中級中級中級中級中級健常者を対象に,長期にわたる中級中級中級中級中級健常者を対象とした。
論文 参考訳(メタデータ) (2024-06-23T04:35:42Z) - FABLES: Evaluating faithfulness and content selection in book-length summarization [55.50680057160788]
本稿では,本書の忠実度と内容選択の大規模評価を行う。
LLMが生成した26冊のサマリーで作成した3,158冊の注釈のデータセットであるFABLESを5.2KUSDで収集する。
注釈の分析によると、ほとんどの不誠実な主張は出来事や登場人物の状態に関係しており、物語を無効にするために間接的推論を必要とする。
論文 参考訳(メタデータ) (2024-04-01T17:33:38Z) - On Context Utilization in Summarization with Large Language Models [83.84459732796302]
大きな言語モデル(LLM)は抽象的な要約タスクに優れ、流動的で関連する要約を提供する。
最近の進歩は、100kトークンを超える長期入力コンテキストを扱う能力を拡張している。
要約における文脈利用と位置バイアスに関する最初の総合的研究を行う。
論文 参考訳(メタデータ) (2023-10-16T16:45:12Z) - Bias in News Summarization: Measures, Pitfalls and Corpora [4.917075909999548]
本稿では,要約モデルにおけるバイアス付き行動の定義と実用運用について紹介する。
目的合成モデルと汎用チャットモデルの両方で生成された英語要約における性別バイアスを測定する。
単一文書要約におけるコンテンツ選択は、性バイアスの影響をほとんど受けていないが、幻覚は偏見の証拠である。
論文 参考訳(メタデータ) (2023-09-14T22:20:27Z) - Evaluation of Faithfulness Using the Longest Supported Subsequence [52.27522262537075]
本稿では,文脈によって支持される請求項の最長不連続性を計算し,機械生成テキストの忠実さを評価する新しい手法を提案する。
新しい人間アノテーション付きデータセットを使用して、モデルを微調整してLongest Supported Subsequence(LSS)を生成する。
提案手法は,我々のデータセットの忠実度に対する最先端のメトリクスよりも18%向上していることを示す。
論文 参考訳(メタデータ) (2023-08-23T14:18:44Z) - LongEval: Guidelines for Human Evaluation of Faithfulness in Long-form
Summarization [48.02158981582502]
LongEvalは、長文要約における人間の忠実性評価のためのガイドラインのセットである。
異なる領域における2つの長文要約データセットのアノテーション研究にLongEvalをデプロイする。
論文 参考訳(メタデータ) (2023-01-30T21:31:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。