論文の概要: Debating Truth: Debate-driven Claim Verification with Multiple Large Language Model Agents
- arxiv url: http://arxiv.org/abs/2507.19090v1
- Date: Fri, 25 Jul 2025 09:19:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 16:16:48.897337
- Title: Debating Truth: Debate-driven Claim Verification with Multiple Large Language Model Agents
- Title(参考訳): 議論の真実:多言語モデルエージェントを用いた議論駆動のクレーム検証
- Authors: Haorui He, Yupeng Li, Dacheng Wen, Reynold Cheng, Francis C. M. Lau,
- Abstract要約: 複数のLLMエージェントを用いた議論駆動手法を採用した最初のクレーム検証フレームワークであるDebateCVを提案する。
本フレームワークでは,2つのデバタがクレームに対して反対の立場をとり,複数ラウンドの議論を行う一方,モデレーターは議論を評価し,正当化とともに評決を行う。
実験の結果,提案手法は,証拠品質の異なる既存のクレーム検証方法よりも優れていることがわかった。
- 参考スコア(独自算出の注目度): 13.626715532559079
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Claim verification is critical for enhancing digital literacy. However, the state-of-the-art single-LLM methods struggle with complex claim verification that involves multi-faceted evidences. Inspired by real-world fact-checking practices, we propose DebateCV, the first claim verification framework that adopts a debate-driven methodology using multiple LLM agents. In our framework, two Debaters take opposing stances on a claim and engage in multi-round argumentation, while a Moderator evaluates the arguments and renders a verdict with justifications. To further improve the performance of the Moderator, we introduce a novel post-training strategy that leverages synthetic debate data generated by the zero-shot DebateCV, effectively addressing the scarcity of real-world debate-driven claim verification data. Experimental results show that our method outperforms existing claim verification methods under varying levels of evidence quality. Our code and dataset are publicly available at https://anonymous.4open.science/r/DebateCV-6781.
- Abstract(参考訳): クレーム検証はデジタルリテラシーの強化に不可欠である。
しかし、最先端の単一LLM法は、多面的証拠を含む複雑なクレーム検証に苦慮している。
実世界のファクトチェックの実践に触発されて,複数のLSMエージェントを用いた議論駆動手法を採用した最初のクレーム検証フレームワークであるDebateCVを提案する。
本フレームワークでは,2つのデバタがクレームに対して反対の立場をとり,複数ラウンドの議論を行う一方,モデレーターは議論を評価し,正当化とともに評決を行う。
モデレーターの性能をさらに向上するため,ゼロショットのDebateCVが生成した合成討論データを活用する新たなポストトレーニング戦略を導入し,実世界の議論駆動のクレーム検証データの不足を効果的に解決する。
実験の結果,提案手法は,証拠品質の異なる既存のクレーム検証方法よりも優れていることがわかった。
私たちのコードとデータセットはhttps://anonymous.4open.science/r/DebateCV-6781で公開されています。
関連論文リスト
- Debate-to-Detect: Reformulating Misinformation Detection as a Real-World Debate with Large Language Models [0.8302146576157498]
D2D(Dbate-to-Detect, D2D)は, 偽情報検出を構造化された敵対的議論として再構築する, 新規なマルチエージェント・ディベート(MAD)フレームワークである。
ファクトチェックにインスパイアされたD2Dは、各エージェントにドメイン固有のプロファイルを割り当て、Opening Statement、Rebuttal、Free Debate、Closing Statement、Judgmentを含む5段階の議論プロセスを編成する。
GPT-4oによる2つの偽ニュースデータセットの実験は、ベースライン法よりも大幅に改善された。
論文 参考訳(メタデータ) (2025-05-24T08:44:33Z) - CRAVE: A Conflicting Reasoning Approach for Explainable Claim Verification Using LLMs [15.170312674645535]
CRAVE は、説明可能なクレーム VErification に対する Conflicting Reasoning Approach である。
大規模な言語モデルによって推論される矛盾する理性に基づいて、複雑なクレームを検証することができる。
CRAVEは最先端の手法よりもはるかに優れた性能を実現している。
論文 参考訳(メタデータ) (2025-04-21T07:20:31Z) - Reasoning Court: Combining Reasoning, Action, and Judgment for Multi-Hop Reasoning [17.829990749622496]
Reasoning Court(RC)は、ReActのような反復的推論と検索の手法を拡張した新しいフレームワークである。
RCはタスク固有の微調整なしで、最先端のショットプロンプト手法を一貫して上回っている。
論文 参考訳(メタデータ) (2025-04-14T00:56:08Z) - Debate Only When Necessary: Adaptive Multiagent Collaboration for Efficient LLM Reasoning [8.800516398660069]
大規模言語モデル(LLM)の推論能力を高めるための,有望なフレームワークとして,マルチエージェントコラボレーションが登場した。
本稿では,エージェントの初期応答の信頼性スコアに基づいて,議論を選択的に活性化する適応型マルチエージェント討論フレームワークであるDebate Only When Necessary (DOWN)を提案する。
ダウンは最大6倍の効率向上を実現し、既存のメソッドのパフォーマンスを保留する。
論文 参考訳(メタデータ) (2025-04-07T13:17:52Z) - Breaking Event Rumor Detection via Stance-Separated Multi-Agent Debate [21.342632695285364]
噂検出のために大きな言語モデル(LLM)を活用することは、大きな約束である。
本稿では,S2MAD(Stance Separated Multi-Agent Debate)を提案する。
提案手法は性能の点で最先端の手法より優れている。
論文 参考訳(メタデータ) (2024-12-06T08:52:30Z) - Contrastive Learning to Improve Retrieval for Real-world Fact Checking [84.57583869042791]
ファクト・チェッキング・リランカ(Contrastive Fact-Checking Reranker, CFR)を提案する。
我々はAVeriTeCデータセットを活用し、証拠文書からの人間による回答とクレームのサブクエストを注釈付けする。
データセットの精度は6%向上した。
論文 参考訳(メタデータ) (2024-10-07T00:09:50Z) - Missci: Reconstructing Fallacies in Misrepresented Science [84.32990746227385]
ソーシャルネットワーク上の健康関連の誤報は、意思決定の貧弱さと現実世界の危険につながる可能性がある。
ミスシは、誤った推論のための新しい議論理論モデルである。
大規模言語モデルの批判的推論能力をテストするためのデータセットとしてMissciを提案する。
論文 参考訳(メタデータ) (2024-06-05T12:11:10Z) - Argue with Me Tersely: Towards Sentence-Level Counter-Argument
Generation [62.069374456021016]
本稿では,文レベル逆問題生成のためのArgTerselyベンチマークを提案する。
また,Arg-LlaMAによる高品質な逆問題生成手法を提案する。
論文 参考訳(メタデータ) (2023-12-21T06:51:34Z) - From Chaos to Clarity: Claim Normalization to Empower Fact-Checking [57.024192702939736]
Claim Normalization(別名 ClaimNorm)は、複雑でノイズの多いソーシャルメディア投稿を、より単純で分かりやすい形式に分解することを目的としている。
本稿では,チェーン・オブ・ソートとクレーム・チェック・バシネス推定を利用した先駆的アプローチであるCACNを提案する。
実験により, CACNは様々な評価尺度において, いくつかの基準値を上回る性能を示した。
論文 参考訳(メタデータ) (2023-10-22T16:07:06Z) - Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate [85.3444184685235]
複数のエージェントが"tit for tat"の状態で議論を表現するマルチエージェント議論(MAD)フレームワークを提案し、審査員が議論プロセスを管理して最終解を得る。
我々のフレームワークは、深い熟考を必要とするタスクに役立ちそうなLSMにおける散発的思考を奨励する。
論文 参考訳(メタデータ) (2023-05-30T15:25:45Z) - WiCE: Real-World Entailment for Claims in Wikipedia [63.234352061821625]
We propose WiCE, a new fine-fine textual entailment dataset built on natural claim and evidence pairs from Wikipedia。
標準クレームレベルのエンターメントに加えて、WiCEはクレームのサブ文単位に対するエンターメント判断を提供する。
我々のデータセットの真のクレームは、既存のモデルで対処できない検証と検索の問題に挑戦することを含んでいる。
論文 参考訳(メタデータ) (2023-03-02T17:45:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。