論文の概要: Do Automatic Factuality Metrics Measure Factuality? A Critical Evaluation
- arxiv url: http://arxiv.org/abs/2411.16638v4
- Date: Wed, 05 Nov 2025 17:42:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 16:07:39.293878
- Title: Do Automatic Factuality Metrics Measure Factuality? A Critical Evaluation
- Title(参考訳): 自動ファクチュアリティ測定はファクチュアリティを測定するか? : 批判的評価
- Authors: Sanjana Ramprasad, Byron C. Wallace,
- Abstract要約: 私たちは、実際に取得したものを調査するために、さまざまな自動事実度メトリクスをテストすることを強調します。
すべてのメトリクスが、後者でかなりパフォーマンスが低下しているのが分かります。
一部のメトリクスは、事実の修正よりも、良心的で、事実を保存する編集に敏感である。
- 参考スコア(独自算出の注目度): 16.506990103937515
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern LLMs can now produce highly readable abstractive summaries, to the point that traditional automated metrics for evaluating summary quality, such as ROUGE, have saturated. However, LLMs still sometimes introduce inaccuracies into summaries, i.e., information inconsistent with or unsupported by the corresponding source. Measuring the occurrence of these often subtle factual inconsistencies automatically has proved challenging. This in turn has motivated development of metrics intended to measure the factual consistency of generated summaries against sources. But are these approaches measuring what they purport to? Or are they mostly exploiting artifacts? In this work, we stress test a range of automatic factuality metrics, including specialized models and LLM-based prompting methods, to probe what they actually capture. Using a shallow classifier to separate ``easy'' examples for factual evaluation where surface features suffice from ``hard'' cases requiring deeper reasoning, we find that all metrics show substantial performance drops on the latter. Furthermore, some metrics are more sensitive to benign, fact-preserving edits than to factual corrections. Building on this observation, we demonstrate that most automatic factuality metrics can be gamed, i.e., their scores can be artificially inflated by appending innocuous, content-free sentences to summaries. Among the metrics tested, the prompt based ChatGPT-DA approach is the most robust and reliable. However, this comes with a notable caveat: Prompting LLMs to assess factuality may overly rely on their parametric knowledge rather than the provided reference when making judgments. Taken together, our findings call into question the reliability of current factuality metrics and prompt a broader reflection on what these metrics are truly measuring.
- Abstract(参考訳): 現代のLLMでは、ROUGEのような要約品質を評価するための従来の自動メトリクスが飽和しているため、高度に読みやすい抽象的な要約を作成できるようになった。
しかし、LLMは時として、サマリーに不正確な情報、すなわち対応するソースがサポートしていない情報に不一致をもたらすことがある。
しばしば微妙な事実の不整合を自動で測定することは困難であることが判明した。
これは結果として、生成した要約のソースに対する現実的な一貫性を測定するためのメトリクスの開発を動機付けている。
しかし、これらのアプローチは彼らが求めるものを測定していますか?
それとも、主にアーティファクトを利用しているのか?
本研究では,特定モデルやLLMに基づくプロンプト手法など,さまざまな自動事実度測定値の検証に重点を置いて,実際に捉えたものを探索する。
より深い推論を必要とする ``hard'' ケースから表面的な特徴が十分である事実評価のために、浅い分類器を使って、すべてのメトリクスが後者にかなりのパフォーマンス低下を示すことに気付きました。
さらに、いくつかのメトリクスは、事実修正よりも、良心的かつ事実保存的な編集に敏感である。
この観察に基づいて、ほとんどの自動事実度指標をゲーム化できること、すなわち、無害で内容のない文を要約に付加することで、それらのスコアを人工的に膨らませることができることを実証する。
テストされたメトリクスの中で、プロンプトベースのChatGPT-DAアプローチが最も堅牢で信頼性が高い。
しかし、これは顕著な注意が必要である: 事実性を評価するためにLLMを実証することは、判断を行う際に提供される基準よりも、パラメトリック知識に過度に依存する可能性がある。
まとめると、現在の事実度指標の信頼性に疑問を呈し、これらの指標が真に測定しているものについてより広範な考察を促します。
関連論文リスト
- Position: All Current Generative Fidelity and Diversity Metrics are Flawed [58.815519650465774]
現在のジェネレーティブの忠実度と多様性の指標がすべて欠陥があることを示します。
私たちの目標は、モデルではなく、メトリクスの開発により多くの労力を費やすように研究コミュニティを説得することにあります。
論文 参考訳(メタデータ) (2025-05-28T15:10:33Z) - FENICE: Factuality Evaluation of summarization based on Natural language Inference and Claim Extraction [85.26780391682894]
自然言語推論とクレーム抽出(FENICE)に基づく要約のファクチュアリティ評価を提案する。
FENICEは、ソース文書内の情報と、要約から抽出されたクレームと呼ばれる一連の原子的事実との間のNLIベースのアライメントを利用する。
我々の測定基準は、事実性評価のためのデファクトベンチマークであるAGGREFACTに関する新しい技術状況を設定する。
論文 参考訳(メタデータ) (2024-03-04T17:57:18Z) - Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。
本稿では,基準自由度に欠陥があるかどうかを考察する。
GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文 参考訳(メタデータ) (2024-02-18T12:36:23Z) - Goodhart's Law Applies to NLP's Explanation Benchmarks [57.26445915212884]
ERASER(Comprehensiveness and sufficiency)メトリクスとEVAL-X(EVAL-X)メトリクスの2つのセットを批判的に検討する。
実験結果の予測や説明を変えることなく,モデル全体の包括性と充足率を劇的に向上させることができることを示す。
我々の結果は、現在のメトリクスが説明可能性の研究をガイドする能力に疑問を呈し、これらのメトリクスが正確に捉えるものを再評価する必要性を強調します。
論文 参考訳(メタデータ) (2023-08-28T03:03:03Z) - Evaluating the Factual Consistency of Large Language Models Through News
Summarization [97.04685401448499]
本稿では,要約タスクに着目したFIB(Factual Inconsistency Benchmark)と呼ばれる新しいベンチマークを提案する。
現実的に一貫した要約では、手作業で事実的に一貫したものとして検証する、人書きの参照要約を使用します。
現実的に矛盾しない要約に対して、我々は、事実的に矛盾しているとして手動で注釈付けした一連の要約モデルから要約を生成する。
論文 参考訳(メタデータ) (2022-11-15T18:50:34Z) - TRUE: Re-evaluating Factual Consistency Evaluation [29.888885917330327]
TRUE: 多様なタスクから既存のテキストの標準化されたコレクション上での、事実整合性メトリクスの総合的な研究である。
我々の標準化により、前述した相関よりも動作可能で解釈可能なサンプルレベルのメタ評価プロトコルが実現される。
さまざまな最先端のメトリクスと11のデータセットから、大規模NLIと質問生成と回答に基づくアプローチが、強力で相補的な結果をもたらすことが分かりました。
論文 参考訳(メタデータ) (2022-04-11T10:14:35Z) - Probing Factually Grounded Content Transfer with Factual Ablation [68.78413677690321]
グラウンドドジェネレーションは、事実情報の信頼性のある外部文書(グラウンドディング)に描画する。
事実を計測するのも簡単で、すべての事実ではなく、世代が根拠に同意するかどうかをテストする。
本稿では,現実的な根拠からの情報を用いて,世代がプロンプトを拡大するコンテンツ転送問題について検討する。
論文 参考訳(メタデータ) (2022-03-18T19:18:54Z) - On Quantitative Evaluations of Counterfactuals [88.42660013773647]
本稿では、分析と実験を通じて、視覚的対実例の評価に関する研究を集約する。
ほとんどのメトリクスは、十分な単純なデータセットを意図して振る舞うが、複雑さが増加すると、良い結果と悪い結果の違いを判断できないものもいる。
私たちはラベル変動スコアとOracleスコアという2つの新しい指標を提案しています。
論文 参考訳(メタデータ) (2021-10-30T05:00:36Z) - Improving Factual Consistency of Abstractive Summarization via Question
Answering [25.725873545789046]
要約における事実整合性に対処するアプローチを提案する。
まず,実体整合性を測定するための効率的な自動評価指標を提案する。
次に,モデル学習時に提案するメトリックを最大化する新しい学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-05-10T19:07:21Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。