論文の概要: CRAwDAD: Causal Reasoning Augmentation with Dual-Agent Debate
- arxiv url: http://arxiv.org/abs/2511.22854v1
- Date: Fri, 28 Nov 2025 03:19:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.750872
- Title: CRAwDAD: Causal Reasoning Augmentation with Dual-Agent Debate
- Title(参考訳): CRAwDAD: Dual-Agent Debate を用いた因果推論
- Authors: Finn G. Vamosi, Nils D. Forkert,
- Abstract要約: 我々は因果推論のための二重エージェント議論フレームワークを開発する。
エージェントは互いに説得し合い、互いの論理に挑戦します。
我々は、強力なモデルが依然として弱いエージェントとの議論から大きな恩恵を受けることを示している。
- 参考スコア(独自算出の注目度): 3.2852123901391077
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When people reason about cause and effect, they often consider many competing "what if" scenarios before deciding which explanation fits best. Analogously, advanced language models capable of causal inference can consider multiple interventions and counterfactuals to judge the validity of causal claims. Crucially, this type of reasoning is less like a single calculation and more like an internal dialogue between alternative hypotheses. In this paper, we make this dialogue explicit through a dual-agent debate framework where one model provides a structured causal inference, and the other critically examines this reasoning for logical flaws. When disagreements arise, agents attempt to persuade each other, challenging each other's logic and revising their conclusions until they converge on a mutually agreed answer. To take advantage of this deliberative process, we specifically use reasoning language models, whose strengths in both causal inference and adversarial debate remain under-explored relative to standard large language models. We evaluate our approach on the CLadder dataset, a benchmark linking natural language questions to formally defined causal graphs across all three rungs of Pearl's ladder of causation. With Qwen3 and DeepSeek-R1 as debater agents, we demonstrate that multi-agent debate improves DeepSeek-R1's overall accuracy in causal inference from 78.03% to 87.45%, with the counterfactual category specifically improving from 67.94% to 80.04% accuracy. Similarly, Qwen3's overall accuracy improves from 84.16% to 89.41%, and counterfactual questions from 71.53% to 80.35%, showing that strong models can still benefit greatly from debate with weaker agents. Our results highlight the potential of reasoning models as building blocks for multi-agent systems in causal inference, and demonstrate the importance of diverse perspectives in causal problem-solving.
- Abstract(参考訳): 原因と効果について考えると、どの説明がベストかを決める前に、競合する"もし"のシナリオをたくさん考慮します。
アナロジー的に、因果推論が可能な先進言語モデルは、因果関係の妥当性を判断するために複数の介入や反事実を考慮できる。
重要なことに、この種の推論は単一の計算ではなく、代替仮説の内的対話のようだ。
本稿では,この対話を,1つのモデルが構造的因果推論を提供し,もう1つのモデルが論理的欠陥の理由を批判的に検証する,二重エージェントの議論フレームワークを通じて明示する。
意見の相違が生じたとき、エージェントは互いに説得し合い、互いの論理に挑戦し、相互に合意された答えに収束するまで結論を修正しようとする。
この議論的プロセスを活用するために、我々は特に推論言語モデルを使用し、因果推論と敵対的議論の長所は、標準の大規模言語モデルと比較して未探索のままである。
このベンチマークは、パールの因果関係のラグの3つの領域にまたがる因果関係のグラフに、自然言語の質問をリンクするものである。
Qwen3とDeepSeek-R1が議論のエージェントとなり、マルチエージェントの議論により、DeepSeek-R1の因果推論における全体的な精度は78.03%から87.45%に改善され、対物カテゴリーは67.94%から80.04%に改善された。
同様に、Qwen3の全体的な精度は84.16%から89.41%に改善され、反ファクト的な質問は71.53%から80.35%に改善された。
本研究では,因果推論におけるマルチエージェントシステム構築ブロックとしての推論モデルの可能性を強調し,因果問題解決における多様な視点の重要性を示す。
関連論文リスト
- Disagreements in Reasoning: How a Model's Thinking Process Dictates Persuasion in Multi-Agent Systems [49.69773210844221]
本稿では,説得力はモデルスケールの関数である,という一般的な仮説に挑戦する。
一連のマルチエージェントの説得実験を通じて、パーサーション・デュナリティ(Persuasion Duality)と呼ばれる基本的なトレードオフを明らかにする。
以上の結果から, LRMの推理過程は説得に対する抵抗性が大きく, 当初の信念をより堅固に維持していることが明らかとなった。
論文 参考訳(メタデータ) (2025-09-25T12:03:10Z) - Talk Isn't Always Cheap: Understanding Failure Modes in Multi-Agent Debate [2.3027211055417283]
議論は時間の経過とともに精度を低下させる可能性があることを示す。
分析の結果,ピア推論に応答して,モデルが正解から誤解へと頻繁にシフトしていることが判明した。
これらの結果は、マルチエージェントの議論における理由の交換において重要な障害モードを浮き彫りにする。
論文 参考訳(メタデータ) (2025-09-05T13:47:38Z) - Reasoning about Uncertainty: Do Reasoning Models Know When They Don't Know? [7.423494663010787]
推論言語モデルは、多くの挑戦的なベンチマークで最先端(SOTA)レコードを設定している。
従来の言語モデルと同様に、推論モデルは不正確で確実な応答を生成する傾向があります。
これらのモデルをいつ、どの程度信頼するかを知ることは、現実のアプリケーションにおける推論モデルの安全なデプロイに不可欠である。
論文 参考訳(メタデータ) (2025-06-22T21:46:42Z) - Think or Not? Exploring Thinking Efficiency in Large Reasoning Models via an Information-Theoretic Lens [51.90059610606049]
本稿では,情報理論レンズによる推論プロセスの効率を再考する。
本稿では,理想的な推論経路と段階的な情報提供から分岐を定量化するために,InfoBias と InfoGain という2つの指標を提案する。
これらの知見に触発されて,信頼度が十分に高ければ推論を動的に停止する,エントロピーに基づく適応的思考戦略を導入する。
論文 参考訳(メタデータ) (2025-05-23T13:38:56Z) - The First Impression Problem: Internal Bias Triggers Overthinking in Reasoning Models [38.11937119873932]
推論モデルは、冗長な推論ステップを特徴とする過度な思考を示すことが多い。
我々は、入力問題によって引き起こされる内部バイアスを、そのような行動の鍵となる引き金とみなす。
論文 参考訳(メタデータ) (2025-05-22T09:35:52Z) - Conceptual and Unbiased Reasoning in Language Models [98.90677711523645]
本稿では,抽象的質問に対する概念的推論をモデルに強制する,新しい概念化フレームワークを提案する。
既存の大規模言語モデルは概念的推論では不足しており、様々なベンチマークでは9%から28%に低下している。
ハイレベルな抽象的推論が不偏で一般化可能な意思決定の鍵となるので、モデルがどのように改善できるかについて議論する。
論文 参考訳(メタデータ) (2024-03-30T00:53:53Z) - Towards CausalGPT: A Multi-Agent Approach for Faithful Knowledge Reasoning via Promoting Causal Consistency in LLMs [55.66353783572259]
Causal-Consistency Chain-of-Thoughtは、基礎モデルの忠実さと因果性を強化するために、マルチエージェントコラボレーションを活用する。
我々のフレームワークは、広範囲かつ包括的な評価を通じて、最先端の手法よりも大きな優位性を示す。
論文 参考訳(メタデータ) (2023-08-23T04:59:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。