論文の概要: Evaluating the Factual Consistency of Large Language Models Through News
Summarization
- arxiv url: http://arxiv.org/abs/2211.08412v2
- Date: Sat, 2 Dec 2023 18:10:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 01:51:47.472180
- Title: Evaluating the Factual Consistency of Large Language Models Through News
Summarization
- Title(参考訳): ニュース要約による大規模言語モデルの事実整合性の評価
- Authors: Derek Tam, Anisha Mascarenhas, Shiyue Zhang, Sarah Kwan, Mohit Bansal,
Colin Raffel
- Abstract要約: 本稿では,要約タスクに着目したFIB(Factual Inconsistency Benchmark)と呼ばれる新しいベンチマークを提案する。
現実的に一貫した要約では、手作業で事実的に一貫したものとして検証する、人書きの参照要約を使用します。
現実的に矛盾しない要約に対して、我々は、事実的に矛盾しているとして手動で注釈付けした一連の要約モデルから要約を生成する。
- 参考スコア(独自算出の注目度): 97.04685401448499
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While large language models (LLMs) have proven to be effective on a large
variety of tasks, they are also known to hallucinate information. To measure
whether an LLM prefers factually consistent continuations of its input, we
propose a new benchmark called FIB(Factual Inconsistency Benchmark) that
focuses on the task of summarization. Specifically, our benchmark involves
comparing the scores an LLM assigns to a factually consistent versus a
factually inconsistent summary for an input news article. For factually
consistent summaries, we use human-written reference summaries that we manually
verify as factually consistent. To generate summaries that are factually
inconsistent, we generate summaries from a suite of summarization models that
we have manually annotated as factually inconsistent. A model's factual
consistency is then measured according to its accuracy, i.e.\ the proportion of
documents where it assigns a higher score to the factually consistent summary.
To validate the usefulness of FIB, we evaluate 23 large language models ranging
from 1B to 176B parameters from six different model families including BLOOM
and OPT. We find that existing LLMs generally assign a higher score to
factually consistent summaries than to factually inconsistent summaries.
However, if the factually inconsistent summaries occur verbatim in the
document, then LLMs assign a higher score to these factually inconsistent
summaries than factually consistent summaries. We validate design choices in
our benchmark including the scoring method and source of distractor summaries.
Our code and benchmark data can be found at https://github.com/r-three/fib.
- Abstract(参考訳): 大規模言語モデル (LLM) は様々なタスクに有効であることが証明されているが、情報の幻覚としても知られている。
LLMが実際に一貫した入力継続を好むかどうかを測定するために,要約の課題に焦点を当てたFIB(Factual Inconsistency Benchmark)と呼ばれる新しいベンチマークを提案する。
具体的には、LLMが割り当てるスコアを事実整合性に比較し、入力ニュース記事の事実整合性に欠ける要約と比較する。
現実的に一貫した要約では、手動で事実的に一貫した検証を行う人間による参照要約を用いる。
現実的に矛盾しない要約を生成するために,手動で注釈付けした一連の要約モデルから要約を生成する。
モデルの事実整合性は、その正確さ、すなわち、事実に一貫性のある要約により高いスコアを割り当てる文書の割合に応じて測定される。
FIBの有用性を検証するため,BLOOM や OPT を含む6種類のモデルファミリから 1B から 176B までの大言語モデルを評価した。
既存のLCMは、現実的に一貫性のない要約よりも、現実的に一貫性のない要約に高いスコアを割り当てている。
しかし、事実的に一貫性のない要約が文書の中で冗長な場合、LCMは事実的に一貫性のない要約よりも高いスコアをこれらの事実的に一貫性のない要約に割り当てる。
我々は,スコアリング方法と邪魔者サマリーのソースを含むベンチマークで設計選択を検証する。
コードとベンチマークデータはhttps://github.com/r-three/fib.com/で確認できます。
関連論文リスト
- Using Similarity to Evaluate Factual Consistency in Summaries [2.7595794227140056]
抽象要約器は流動的な要約を生成するが、生成したテキストの事実性は保証されない。
本稿では,ゼロショット事実性評価尺度であるSBERTScoreを提案する。
実験の結果,SBERTScoreでは,各手法の強度が異なることが示唆された。
論文 参考訳(メタデータ) (2024-09-23T15:02:38Z) - AMRFact: Enhancing Summarization Factuality Evaluation with AMR-Driven Negative Samples Generation [57.8363998797433]
抽象的意味表現(AMR)を用いた摂動要約を生成するフレームワークであるAMRFactを提案する。
提案手法は,AMRグラフに一貫した要約を解析し,制御された事実不整合を注入して負の例を生成し,一貫性のない事実不整合要約を高い誤差型カバレッジで生成する。
論文 参考訳(メタデータ) (2023-11-16T02:56:29Z) - On Context Utilization in Summarization with Large Language Models [83.84459732796302]
大きな言語モデル(LLM)は抽象的な要約タスクに優れ、流動的で関連する要約を提供する。
最近の進歩は、100kトークンを超える長期入力コンテキストを扱う能力を拡張している。
要約における文脈利用と位置バイアスに関する最初の総合的研究を行う。
論文 参考訳(メタデータ) (2023-10-16T16:45:12Z) - BooookScore: A systematic exploration of book-length summarization in the era of LLMs [53.42917858142565]
我々は,識別されたエラータイプを一切含まない要約文の割合を計測する自動測度BooookScoreを開発した。
GPT-4 や 2 のようなクローズドソース LLM は,オープンソースモデルよりも BooookScore の高いサマリーを生成することがわかった。
論文 参考訳(メタデータ) (2023-10-01T20:46:44Z) - Element-aware Summarization with Large Language Models: Expert-aligned
Evaluation and Chain-of-Thought Method [35.181659789684545]
自動要約は、ソースドキュメントのキーアイデアを含む簡潔な要約を生成する。
CNN/DailyMailやBBC XSumからの引用は、主に幻覚と情報冗長性の点で騒々しい。
本稿では,LCMを段階的に生成するためにSumCoT(Slide Chain-of-Thought)手法を提案する。
実験結果から, ROUGE-L では, 最先端の微調整 PLM とゼロショット LLM を+4.33/+4.77 で上回った。
論文 参考訳(メタデータ) (2023-05-22T18:54:35Z) - BUMP: A Benchmark of Unfaithful Minimal Pairs for Meta-Evaluation of
Faithfulness Metrics [70.52570641514146]
不誠実な最小対 (BUMP) のベンチマークを示す。
BUMPは、889人の人間が書いた最小限のサマリーペアのデータセットである。
非ペアベースのデータセットとは異なり、BUMPはメトリクスの一貫性を測定するために使用することができる。
論文 参考訳(メタデータ) (2022-12-20T02:17:30Z) - Correcting Diverse Factual Errors in Abstractive Summarization via
Post-Editing and Language Model Infilling [56.70682379371534]
提案手法は, 誤要約の修正において, 従来手法よりもはるかに優れていることを示す。
我々のモデルであるFactEditは、CNN/DMで11点、XSumで31点以上のファクトリティスコアを改善する。
論文 参考訳(メタデータ) (2022-10-22T07:16:19Z) - Masked Summarization to Generate Factually Inconsistent Summaries for
Improved Factual Consistency Checking [28.66287193703365]
本稿では,キー情報を隠蔽したソーステキストと参照要約を用いて,現実的に一貫性のない要約を生成することを提案する。
7つのベンチマークデータセットを用いた実験により,提案手法を用いて生成した要約に基づいて訓練された実例整合性分類器が既存モデルを上回っていることが示された。
論文 参考訳(メタデータ) (2022-05-04T12:48:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。