論文の概要: Co-FactChecker: A Framework for Human-AI Collaborative Claim Verification Using Large Reasoning Models
- arxiv url: http://arxiv.org/abs/2604.13706v1
- Date: Wed, 15 Apr 2026 10:35:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.490309
- Title: Co-FactChecker: A Framework for Human-AI Collaborative Claim Verification Using Large Reasoning Models
- Title(参考訳): Co-FactChecker:大規模推論モデルを用いたAI協調クレーム検証フレームワーク
- Authors: Dhruv Sahnan, Subhabrata Dutta, Tanmoy Chakraborty, Preslav Nakov, Iryna Gurevych,
- Abstract要約: 我々は,人間とAIの協調的クレーム検証のためのフレームワークであるCo-FactCheckerを提案する。
Co-FactCheckerは専門家のフィードバックをトレース編集に変換する。
人間の評価は、マルチターン対話よりもCo-FactCheckerの方が好ましいことを示している。
- 参考スコア(独自算出の注目度): 99.26398772227684
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Professional fact-checkers rely on domain knowledge and deep contextual understanding to verify claims. Large language models (LLMs) and large reasoning models (LRMs) lack such grounding and primarily reason from available evidence alone, creating a mismatch between expert-led and fully automated claim verification. To mitigate this gap, we posit human-AI collaboration as a more promising path forward, where expert feedback, grounded in real-world knowledge and domain expertise, guides the model's reasoning. However, existing LRMs are hard to calibrate to natural language feedback, particularly in a multi-turn interaction setup. We propose Co-FactChecker, a framework for human-AI collaborative claim verification. We introduce a new interaction paradigm that treats the model's thinking trace as a shared scratchpad. Co-FactChecker translates expert feedback into trace-edits that introduce targeted modifications to the trace, sidestepping the shortcomings of dialogue-based interaction. We provide theoretical results showing that trace-editing offers advantages over multi-turn dialogue, and our automatic evaluations demonstrate that Co-FactChecker outperforms existing autonomous and human-AI collaboration approaches. Human evaluations further show that Co-FactChecker is preferred over multi-turn dialogue, producing higher quality reasoning and verdicts along with relatively easier to interpret and more useful thinking traces.
- Abstract(参考訳): プロのファクトチェッカーは、クレームを検証するためにドメイン知識と深いコンテキスト理解に依存します。
大規模言語モデル (LLM) と大規模推論モデル (LRM) にはそのような根拠がなく、主に利用可能な証拠だけでは不十分であり、専門家主導と完全自動化されたクレーム検証のミスマッチを生み出している。
このギャップを軽減するために、私たちは、専門家のフィードバックが現実世界の知識とドメインの専門知識に根ざし、モデルの推論を導く、より有望な道として、人間とAIのコラボレーションを推し進めています。
しかし、既存のLEMは、特にマルチターンインタラクション設定において、自然言語のフィードバックを校正するのが困難である。
我々は,人間とAIの協調的クレーム検証のためのフレームワークであるCo-FactCheckerを提案する。
我々は、モデルの思考トレースを共有スクラッチパッドとして扱う新しい相互作用パラダイムを導入する。
Co-FactCheckerは専門家のフィードバックをトレース編集に翻訳し、トレースのターゲット変更を導入し、対話ベースのインタラクションの欠点を補う。
我々は、トレース編集がマルチターン対話よりも有利であることを示し、自動評価により、Co-FactCheckerが既存の自律的および人間とAIのコラボレーションアプローチより優れていることを示す。
人間の評価は、Co-FactCheckerがマルチターン対話よりも好まれていることを示し、高い品質の推論と判断と、比較的容易に解釈でき、より有用な思考トレースを生み出している。
関連論文リスト
- Multimodal Fact-Level Attribution for Verifiable Reasoning [80.60864342985748]
マルチモーダル大言語モデル(MLLM)は、多段階推論と長文生成を含む実世界のタスクにますます利用されている。
既存のマルチモーダルグラウンドベンチマークと評価手法は、複雑なマルチモーダル推論における属性評価に失敗する。
我々は、直接観察以上の推論を必要とする設定において、ファクトレベルのマルチモーダル属性を評価するためのベンチマークであるMuRGAtを紹介する。
論文 参考訳(メタデータ) (2026-02-12T03:10:02Z) - Adversarial Yet Cooperative: Multi-Perspective Reasoning in Retrieved-Augmented Language Models [72.4149653187766]
本稿ではAdrialversa Reasoning RAG(ARR)というReasoner-Verifierフレームワークを提案する。
ReasonerとVerifierは、回収された証拠を推論し、プロセス認識の利点によってガイドされながら、互いの論理を批判する。
複数のベンチマーク実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2026-01-08T06:57:03Z) - Detect, Explain, Escalate: Low-Carbon Dialogue Breakdown Management for LLM-Powered Agents [30.13634341221476]
大規模言語モデル(LLM)は、多くのアプリケーションを変えつつありますが、会話のブレークダウンへの感受性は、ユーザ信頼を損なう重要な課題です。
本稿では,低炭素運転を重視したLDMエージェントの対話分解を管理するためのフレームワーク「Detect, Explain, Escalate」を提案する。
論文 参考訳(メタデータ) (2025-04-26T07:51:05Z) - Derailer-Rerailer: Adaptive Verification for Efficient and Reliable Language Model Reasoning [11.765298236504155]
Derailer-Rerailerは推論精度と計算効率のバランスをとる新しいフレームワークである。
提案手法は,従来の検証手法に比べて2~3倍の効率を維持しつつ,大幅な精度向上(8~11%)を実現している。
論文 参考訳(メタデータ) (2024-08-25T21:20:17Z) - ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate [57.71597869337909]
われわれはChatEvalと呼ばれるマルチエージェントの審判チームを構築し、異なるモデルから生成された応答の品質を自律的に議論し評価する。
分析の結果,ChatEvalは単なるテキストスコアリングを超越し,信頼性評価のための人間模倣評価プロセスを提供することがわかった。
論文 参考訳(メタデータ) (2023-08-14T15:13:04Z) - I like fish, especially dolphins: Addressing Contradictions in Dialogue
Modeling [104.09033240889106]
DialoguE Contradiction Detection Task(DECODE)と、人間とロボットの矛盾した対話の両方を含む新しい会話データセットを紹介します。
次に、事前学習したトランスフォーマーモデルを用いて、定型的非構造的アプローチと矛盾検出を行う構造的発話に基づくアプローチを比較する。
論文 参考訳(メタデータ) (2020-12-24T18:47:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。