論文の概要: Social Reasoning in Machines: Investigating Collective Truth-Seeking Dynamics in Large Language Model Debate
- arxiv url: http://arxiv.org/abs/2605.30391v1
- Date: Thu, 28 May 2026 12:07:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-01 20:56:50.137452
- Title: Social Reasoning in Machines: Investigating Collective Truth-Seeking Dynamics in Large Language Model Debate
- Title(参考訳): 機械における社会的推論:大規模言語モデル議論における集合的真理探索ダイナミクスの検討
- Authors: Tom Pecher,
- Abstract要約: この論文は、大規模言語モデル(LLM)のマルチエージェント討論(MAD)をシミュレートすることで、新しい基盤を破る。
LLM-MADは,多種多様なモデルの正しい設計を行う場合,アンケートに基づくタスクにおける真理探索性能を大幅に向上させることができることを示す。
我々は、この利得が推論理論の中枢原理に機械的に根ざしているという強い実証的証拠を提示する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human reasoning has long been theorised to operate socially, not through isolated individual cognition, but through collective adversarial discourse, a framework known as the Argumentative Theory of Reasoning (ATR). Rather than relying on individual "intellectualist reasoners" as the primary vehicle for truth-seeking, ATR reconceptualises truth as an emergent property of social epistemology: the product of imperfect individual reasoning refined under the adversarial pressure of debate. This distributed method of collective intelligence has guided humanity to ever-greater epistemic heights and underpins the foundational principles of all democratic systems. This thesis breaks new ground by, for the first time, simulating ATR through the multi-agent debate (MAD) of large language models (LLMs). With rigorous empirical analysis, we demonstrate that, when correctly engineering an epistemically diverse set of models, LLM-MAD can significantly improve truth-seeking performance on questionnaire-based tasks, even when individual debate participants exhibit limited standalone performance. Furthermore, we present strong empirical evidence that this performance gain is mechanistically grounded in the central principles of ATR, suggesting that collective reasoning may be universally favourable over individualist reasoning, rather than a quirk in biology or evolution. Finally, drawing on our analysis of debate dynamics, we propose a novel benchmarking methodology that leverages LLM-MAD to measure intrinsic model properties (such as hallucination propensity) in order to compare models in ways that current static benchmarking approaches cannot support.
- Abstract(参考訳): 人間の推論は、孤立した個人の認知を通してではなく、集合的対人論(英語版)を通じて、社会的に作用する理論が長い間確立されてきた。
真理探究の主要な手段として個々の「知的な推論者」に頼るのではなく、ATRは真理を社会認識学の創発的な性質として再認識する。
この集団知能の分散的手法は、人類を永遠の疫病の高台へと導き、すべての民主主義体制の基礎原理を支えてきた。
この論文は、大規模な言語モデル(LLM)のマルチエージェント討論(MAD)を通じて、ATRを初めてシミュレートすることで、新しい基盤を破る。
厳密な経験的分析により,LLM-MADは,個々の議論参加者が限定的なスタンドアロンのパフォーマンスを示す場合でも,質問紙に基づくタスクにおける真理探索性能を著しく向上させることができることを示した。
さらに、この性能向上がATRの中枢原理に機械的に根ざしているという強い実証的証拠を提示し、生物や進化のキークよりも、集団的推論の方が個人主義的推論よりも普遍的に有利である可能性が示唆された。
最後に,従来の静的なベンチマーク手法ではサポートできないようなモデルを比較するために,LLM-MADを用いて本質的なモデル特性(幻覚の確率など)を測定する新しいベンチマーク手法を提案する。
関連論文リスト
- Multimodal Fact-Level Attribution for Verifiable Reasoning [80.60864342985748]
マルチモーダル大言語モデル(MLLM)は、多段階推論と長文生成を含む実世界のタスクにますます利用されている。
既存のマルチモーダルグラウンドベンチマークと評価手法は、複雑なマルチモーダル推論における属性評価に失敗する。
我々は、直接観察以上の推論を必要とする設定において、ファクトレベルのマルチモーダル属性を評価するためのベンチマークであるMuRGAtを紹介する。
論文 参考訳(メタデータ) (2026-02-12T03:10:02Z) - Prepare Reasoning Language Models for Multi-Agent Debate with Self-Debate Reinforcement Learning [49.99694105650486]
自己決定強化学習(Self-Debate Reinforcement Learning, SDRL)は、強力な問題解決能力を持つ単一の大規模言語モデルを備えたトレーニングフレームワークである。
我々は,SDRLが単一モデル推論を同時に強化しつつ,総合的マルチエージェント議論(MAD)性能を向上させることを示す。
論文 参考訳(メタデータ) (2026-01-29T20:21:44Z) - Latent Debate: A Surrogate Framework for Interpreting LLM Thinking [26.20998021856433]
暗黙的な内部議論のレンズを通してモデル予測を解釈する新しいフレームワークである潜在討論を紹介する。
提案手法は,従来のLSMと高度に一貫した予測を持つ忠実な構造的サロゲートモデルであることを示す。
さらに分析すると、幻覚と議論パターンの間に強い相関関係があることが示され、例えば、中間層における潜伏した議論の度合いは、幻覚のリスクが高いことが示される。
論文 参考訳(メタデータ) (2025-12-01T17:27:31Z) - ROVER: Benchmarking Reciprocal Cross-Modal Reasoning for Omnimodal Generation [79.17352367219736]
ROVERは1つのモダリティを使用して、もう1つの出力を誘導、検証、精査する。
ROVERは、相互モーダルな推論を明示的にターゲットとする、人間による注釈付きベンチマークである。
論文 参考訳(メタデータ) (2025-11-03T02:27:46Z) - Roundtable Policy: Improving Scientific Reasoning and Narratives through Confidence-Weighted Consensus of LLMs [44.65081087151887]
本稿では,多言語モデル(LLM)の重み付けによる推論を行う補完的推論時間推論フレームワークであるラウンドテーブルポリシーを紹介する。
本研究は, 複雑な異種科学課題における推論を著しく向上させ, 創造性, 厳密性, 論理コヒーレンスの観点から科学的物語を改善することを示唆する。
提案手法は,ブラックボックスアクセスと統一手順のみを必要としながら,不透明な収束よりも構造的,解釈可能なコンセンサスを強調する。
論文 参考訳(メタデータ) (2025-09-20T23:31:53Z) - Learning to Reason via Mixture-of-Thought for Logical Reasoning [56.24256916896427]
Mixture-of-Thought (MoT) は、LLMが自然言語、コード、真理表の3つの相補的なモダリティにまたがる推論を可能にするフレームワークである。
MoT は,(1) 自己進化型 MoT トレーニング,(2) 3 つのモーダルの相乗効果を完全に活用してより良い予測を生成する MoT 推論,という2段階の設計を採用する。
論文 参考訳(メタデータ) (2025-05-21T17:59:54Z) - Failure Modes of LLMs for Causal Reasoning on Narratives [51.19592551510628]
世界の知識と論理的推論の相互作用について検討する。
最先端の大規模言語モデル(LLM)は、しばしば表面的な一般化に依存している。
タスクの単純な再構成により、より堅牢な推論行動が引き起こされることを示す。
論文 参考訳(メタデータ) (2024-10-31T12:48:58Z) - A Systematic Analysis of Large Language Models as Soft Reasoners: The Case of Syllogistic Inferences [5.141416267381492]
我々は、論理学と認知心理学において広範囲に研究されている誘因的推論の領域であるシロメトリクス推論の事例を考察する。
思考の連鎖的推論,文脈内学習,教師付き微調整がシロメトリクス的推論に及ぼす影響について検討した。
以上の結果から,事前学習したLSMの行動は認知科学によって説明できる可能性が示唆された。
論文 参考訳(メタデータ) (2024-06-17T08:59:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。