論文の概要: Evaluating Evidence Attribution in Generated Fact Checking Explanations
- arxiv url: http://arxiv.org/abs/2406.12645v2
- Date: Wed, 16 Oct 2024 18:23:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:17:17.907560
- Title: Evaluating Evidence Attribution in Generated Fact Checking Explanations
- Title(参考訳): 生成ファクトチェック説明におけるエビデンス属性の評価
- Authors: Rui Xing, Timothy Baldwin, Jey Han Lau,
- Abstract要約: 生成した説明文の属性品質を評価するために,新しい評価プロトコル,引用マスキングとリカバリを導入する。
実験により、最高の性能を持つLSMは、不正確な属性を持つ説明を生成することが明らかとなった。
より良い説明を生み出すには人為的な証拠が不可欠である。
- 参考スコア(独自算出の注目度): 48.776087871960584
- License:
- Abstract: Automated fact-checking systems often struggle with trustworthiness, as their generated explanations can include hallucinations. In this work, we explore evidence attribution for fact-checking explanation generation. We introduce a novel evaluation protocol, citation masking and recovery, to assess attribution quality in generated explanations. We implement our protocol using both human annotators and automatic annotators, and find that LLM annotation correlates with human annotation, suggesting that attribution assessment can be automated. Finally, our experiments reveal that: (1) the best-performing LLMs still generate explanations with inaccurate attributions; and (2) human-curated evidence is essential for generating better explanations. Code and data are available here: https://github.com/ruixing76/Transparent-FCExp.
- Abstract(参考訳): 自動事実チェックシステムは、その生成した説明には幻覚が含まれるため、しばしば信頼性に苦しむ。
本研究では,事実チェックによる説明生成に寄与する証拠を探索する。
生成した説明文の属性品質を評価するために,新しい評価プロトコル,引用マスキングとリカバリを導入する。
我々は、人間のアノテーションと自動アノテーションの両方を用いてプロトコルを実装し、LLMアノテーションが人間のアノテーションと相関していることを発見し、属性評価を自動化できることを示唆した。
最後に, 実験の結果, 1) もっとも優れたLCMは, 不正確な属性を持つ説明を今でも生成し, 2) より良い説明を生成するためには, 人為的な証拠が不可欠であることが判明した。
コードとデータはここにある。 https://github.com/ruixing76/Transparent-FCExp。
関連論文リスト
- FactLens: Benchmarking Fine-Grained Fact Verification [6.814173254027381]
我々は、複雑なクレームを個別の検証のためにより小さなサブステートに分割する、きめ細かい検証へのシフトを提唱する。
我々は,ファクトレンス(FactLens)という,ファクトレンス(FactLens)という,詳細な事実検証のベンチマークを紹介した。
この結果から,FactLens自動評価器と人的判断との整合性を示し,評価性能に対する準定値特性の影響について考察した。
論文 参考訳(メタデータ) (2024-11-08T21:26:57Z) - Comparing zero-shot self-explanations with human rationales in multilingual text classification [5.32539007352208]
命令調整 LLM は計算や複雑な XAI 法の適用を必要としない自己説明を生成する。
入力論理の形で自己説明を評価することによって、この能力が良い説明をもたらすかどうかを解析する。
以上の結果から,自己説明はLRPよりも人間のアノテーションと密接に一致し,忠実度は同等であることがわかった。
論文 参考訳(メタデータ) (2024-10-04T10:14:12Z) - Evaluating the Reliability of Self-Explanations in Large Language Models [2.8894038270224867]
このような自己説明の2つのタイプ – 抽出的, 対実的 – を評価した。
以上の結果から,これらの自己説明は人間の判断と相関するが,モデルの決定過程を完全に的確に従わないことが明らかとなった。
このギャップを橋渡しできるのは, 反実的な説明をLCMに促すことによって, 忠実で, 情報的で, 容易に検証できる結果が得られるからである。
論文 参考訳(メタデータ) (2024-07-19T17:41:08Z) - Can LLMs Produce Faithful Explanations For Fact-checking? Towards
Faithful Explainable Fact-Checking via Multi-Agent Debate [75.10515686215177]
大規模言語モデル(LLM)はテキスト生成に優れるが、事実チェックにおいて忠実な説明を生成する能力は依然として過小評価されている。
多様な役割を持つエージェントとして複数のLSMを利用するマルチエージェント・デベート・リファインメント(MADR)フレームワークを提案する。
MADRは、最終的な説明が厳密な検証を行い、不誠実な要素の可能性を著しく低減し、提示された証拠と密接に一致させることを保証する。
論文 参考訳(メタデータ) (2024-02-12T04:32:33Z) - SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for
Generative Large Language Models [55.60306377044225]
「SelfCheckGPT」は、ブラックボックスモデルの応答をファクトチェックする単純なサンプリングベースアプローチである。
本稿では,GPT-3を用いてWikiBioデータセットから個人に関するパスを生成する手法について検討する。
論文 参考訳(メタデータ) (2023-03-15T19:31:21Z) - Re-Examining Human Annotations for Interpretable NLP [80.81532239566992]
我々は、Interpretable NLPで広く使われている2つのデータセット上で、クラウドソースのウェブサイトを用いて制御実験を行う。
我々は,異なる資格レベルを満たす人材の募集から得られた注釈結果を比較した。
以上の結果から,アノテーションの品質は労働者の資格に高い影響を受けており,労働者は指示によって特定のアノテーションを提供するように指導することができることがわかった。
論文 参考訳(メタデータ) (2022-04-10T02:27:30Z) - Generating Fluent Fact Checking Explanations with Unsupervised
Post-Editing [22.5444107755288]
本稿では,句レベルの編集のみを用いて,支配コメントの教師なし後編集を行う反復編集アルゴリズムを提案する。
本モデルでは, 流動性, 可読性, 非冗長性, 事実チェックのための重要な情報をカバーする説明文を生成する。
論文 参考訳(メタデータ) (2021-12-13T15:31:07Z) - Leakage-Adjusted Simulatability: Can Models Generate Non-Trivial
Explanations of Their Behavior in Natural Language? [86.60613602337246]
我々はNL説明を評価するためのリーク調整シミュラビリティ(LAS)指標を提案する。
LASは、どのように説明が直接アウトプットをリークするかを制御しながら、オブザーバがモデルのアウトプットを予測するのに役立つかを計測する。
マルチエージェントゲームとしての説明文生成を行い、ラベルリークをペナライズしながら、シミュラビリティの説明を最適化する。
論文 参考訳(メタデータ) (2020-10-08T16:59:07Z) - Generating Fact Checking Explanations [52.879658637466605]
まだ欠けているパズルの重要なピースは、プロセスの最も精巧な部分を自動化する方法を理解することです。
本稿では、これらの説明を利用可能なクレームコンテキストに基づいて自動生成する方法について、最初の研究を行う。
この結果から,個別に学習するのではなく,両目標を同時に最適化することで,事実確認システムの性能が向上することが示唆された。
論文 参考訳(メタデータ) (2020-04-13T05:23:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。