論文の概要: Recon, Answer, Verify: Agents in Search of Truth
- arxiv url: http://arxiv.org/abs/2507.03671v1
- Date: Fri, 04 Jul 2025 15:44:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.828809
- Title: Recon, Answer, Verify: Agents in Search of Truth
- Title(参考訳): Recon, Answer, Verify: 真実を探究するエージェント
- Authors: Satyam Shukla, Himanshu Dutta, Pushpak Bhattacharyya,
- Abstract要約: Politi Fact Only (PFO)は、politifact.comの2,982件の政治的主張のベンチマークデータセットである。
すべてのポストクレーム分析とアノテーションキューが手作業で削除された。
本稿では,質問生成,回答生成,ラベル生成という3つのエージェントからなるエージェントフレームワークであるRAVを提案する。
- 参考スコア(独自算出の注目度): 36.56689822791777
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated fact checking with large language models (LLMs) offers a scalable alternative to manual verification. Evaluating fact checking is challenging as existing benchmark datasets often include post claim analysis and annotator cues, which are absent in real world scenarios where claims are fact checked immediately after being made. This limits the realism of current evaluations. We present Politi Fact Only (PFO), a 5 class benchmark dataset of 2,982 political claims from politifact.com, where all post claim analysis and annotator cues have been removed manually. This ensures that models are evaluated using only the information that would have been available prior to the claim's verification. Evaluating LLMs on PFO, we see an average performance drop of 22% in terms of macro f1 compared to PFO's unfiltered version. Based on the identified challenges of the existing LLM based fact checking system, we propose RAV (Recon Answer Verify), an agentic framework with three agents: question generator, answer generator, and label generator. Our pipeline iteratively generates and answers sub questions to verify different aspects of the claim before finally generating the label. RAV generalizes across domains and label granularities, and it outperforms state of the art approaches on well known baselines RAWFC (fact checking, 3 class) by 25.28%, and on HOVER (encyclopedia, 2 class) by 1.54% on 2 hop, 4.94% on 3 hop, and 1.78% on 4 hop, sub categories respectively. RAV shows the least performance drop compared to baselines of 16.3% in macro f1 when we compare PFO with its unfiltered version.
- Abstract(参考訳): 大規模言語モデル(LLM)によるファクトチェックの自動化は,手動検証に代わるスケーラブルな代替手段を提供する。
既存のベンチマークデータセットには、ポストクレーム分析やアノテータキューが含まれており、クレームが作成直後に事実チェックされる現実のシナリオには存在しないため、ファクトチェックの評価は難しい。
これは現在の評価の現実性を制限する。
Politi Fact Only (PFO)はpolitifact.comの2,982件の政治的クレームの5クラスベンチマークデータセットで、すべてのポストクレーム分析とアノテーションが手作業で削除されている。
これにより、クレームの検証の前に利用可能な情報のみを使用してモデルが評価されることが保証される。
PFO 上で LLM を評価すると,PFO の未フィルタリング版に比べてマクロ f1 の平均性能は 22% 低下する。
既存のLCMベースの事実チェックシステムの課題に基づいて,質問生成,回答生成,ラベル生成という3つのエージェントからなるエージェントフレームワークであるRAV(Recon Answer Verify)を提案する。
我々のパイプラインは、最後にラベルを生成する前に、クレームのさまざまな側面を検証するために、サブ質問を反復的に生成し、回答します。
RAVはドメインやラベルの粒度を一般化し、よく知られたベースラインRAWFC(ファクトチェック、3クラス)を25.28%、HOVER(百科事典、2クラス)を1.54%、ホップを4.94%、サブカテゴリを1.78%上回る。
RAVは、PFOとフィルタされていないバージョンを比較すると、マクロ f1 の16.3% のベースラインと比較して、最小のパフォーマンス低下を示す。
関連論文リスト
- Verifying the Verifiers: Unveiling Pitfalls and Potentials in Fact Verifiers [59.168391398830515]
我々は,14のファクトチェックベンチマークのサンプルを用いて,12の事前学習LDMと1つの特殊ファクト検証器を評価した。
データセットにおけるアノテーションエラーとあいまいさに対処することの重要性を強調します。
最上位のパフォーマンスを実現するために、前作でしばしば見落とされがちな、数ショットのインコンテキストの例を持つフロンティアLSM。
論文 参考訳(メタデータ) (2025-06-16T10:32:10Z) - Ranking Free RAG: Replacing Re-ranking with Selection in RAG for Sensitive Domains [13.58151841630302]
本稿では,RAGにおける再ランク付けを合理的な選択手法で置き換える新しい方法であるMETEORAを提案する。
METEORAは、最先端の再評価手法よりも約50%少ないチャンクを使用しながら、生成精度を33.34%向上させる。
敵対的な設定では、METEORAはF1スコアを0.10から0.44に大幅に改善する。
論文 参考訳(メタデータ) (2025-05-21T20:57:16Z) - AIC CTU system at AVeriTeC: Re-framing automated fact-checking as a simple RAG task [0.0]
本稿では、簡易な検索・拡張生成法(RAG)を用いて、野生で回収された証拠を用いた事実確認の課題に対する解決法について述べる。
我々は、その2つのモジュール、Retriever と Evidence & Label ジェネレータを詳細に説明し、MMR-re rank や Likert-scale confidence estimation などの特徴を正当化します。
我々は、予測の欠陥がデータ内のノイズや曖昧な事実チェックとよく一致し、さらなる研究とデータの増大を引き起こすことを実証的エラー解析により確認する。
論文 参考訳(メタデータ) (2024-10-15T09:50:19Z) - Fact Checking Beyond Training Set [64.88575826304024]
本稿では,レトリバーリーダが,あるドメインのラベル付きデータに基づいてトレーニングし,別のドメインで使用する場合,性能劣化に悩まされることを示す。
本稿では,レトリバー成分を分散シフトに対して頑健にするための逆アルゴリズムを提案する。
次に、これらのデータセットから8つの事実チェックシナリオを構築し、モデルと強力なベースラインモデルのセットを比較します。
論文 参考訳(メタデータ) (2024-03-27T15:15:14Z) - AttributionBench: How Hard is Automatic Attribution Evaluation? [19.872081697282002]
AttributionBenchは、様々な既存の属性データセットからコンパイルされた包括的なベンチマークである。
実験の結果,微調整GPT-3.5でさえ,二項分類法で約80%のマクロF1しか達成できないことがわかった。
300以上のエラーケースの詳細な分析では、失敗の大部分は、ナンスされた情報を処理できないことに起因する。
論文 参考訳(メタデータ) (2024-02-23T04:23:33Z) - The Earth is Flat? Unveiling Factual Errors in Large Language Models [89.94270049334479]
ChatGPTのような大規模言語モデル(LLM)は、事前学習や微調整の知識が豊富にあるため、様々な応用がある。
それにもかかわらず、医療、ジャーナリズム、教育といった重要な分野に懸念を抱き、事実と常識の誤りを引き起こす傾向にある。
LLMにおける事実不正確な事実を明らかにすることを目的とした,新しい自動テストフレームワークであるFactCheckerを紹介する。
論文 参考訳(メタデータ) (2024-01-01T14:02:27Z) - Factcheck-Bench: Fine-Grained Evaluation Benchmark for Automatic Fact-checkers [121.53749383203792]
本稿では,大規模言語モデル (LLM) 生成応答の事実性に注釈を付けるための総合的なエンドツーエンドソリューションを提案する。
オープンドメインの文書レベルの事実性ベンチマークを,クレーム,文,文書の3段階の粒度で構築する。
予備実験によると、FacTool、FactScore、Perplexityは虚偽の主張を識別するのに苦労している。
論文 参考訳(メタデータ) (2023-11-15T14:41:57Z) - TACRED Revisited: A Thorough Evaluation of the TACRED Relation
Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つである
パフォーマンスの天井に到達したのか、改善の余地はあるのか?
ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文 参考訳(メタデータ) (2020-04-30T15:07:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。