論文の概要: Reasoning Models Generate Societies of Thought
- arxiv url: http://arxiv.org/abs/2601.10825v1
- Date: Thu, 15 Jan 2026 19:52:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-19 20:21:50.279961
- Title: Reasoning Models Generate Societies of Thought
- Title(参考訳): 思考の合理性を生成する推論モデル
- Authors: Junsol Kim, Shiyang Lai, Nino Scherrer, Blaise Agüera y Arcas, James Evans,
- Abstract要約: マルチエージェントのような相互作用をシミュレートすることで、推論が強化されることが示される。
DeepSeek-R1 や QwQ-32B のような推論モデルは、命令調整モデルよりもはるかに視点の多様性を示す。
- 参考スコア(独自算出の注目度): 9.112083442162671
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models have achieved remarkable capabilities across domains, yet mechanisms underlying sophisticated reasoning remain elusive. Recent reasoning models outperform comparable instruction-tuned models on complex cognitive tasks, attributed to extended computation through longer chains of thought. Here we show that enhanced reasoning emerges not from extended computation alone, but from simulating multi-agent-like interactions -- a society of thought -- which enables diversification and debate among internal cognitive perspectives characterized by distinct personality traits and domain expertise. Through quantitative analysis and mechanistic interpretability methods applied to reasoning traces, we find that reasoning models like DeepSeek-R1 and QwQ-32B exhibit much greater perspective diversity than instruction-tuned models, activating broader conflict between heterogeneous personality- and expertise-related features during reasoning. This multi-agent structure manifests in conversational behaviors, including question-answering, perspective shifts, and the reconciliation of conflicting views, and in socio-emotional roles that characterize sharp back-and-forth conversations, together accounting for the accuracy advantage in reasoning tasks. Controlled reinforcement learning experiments reveal that base models increase conversational behaviors when rewarded solely for reasoning accuracy, and fine-tuning models with conversational scaffolding accelerates reasoning improvement over base models. These findings indicate that the social organization of thought enables effective exploration of solution spaces. We suggest that reasoning models establish a computational parallel to collective intelligence in human groups, where diversity enables superior problem-solving when systematically structured, which suggests new opportunities for agent organization to harness the wisdom of crowds.
- Abstract(参考訳): 大規模言語モデルはドメイン全体にわたって顕著な能力を達成したが、洗練された推論の基礎となるメカニズムはいまだ解明されていない。
最近の推論モデルは、より長い思考の連鎖を通して拡張された計算に起因する複雑な認知タスクの命令調整モデルよりも優れている。
ここでは、拡張された推論は、拡張された計算だけでなく、複数のエージェントのような相互作用(思考の社会)をシミュレートすることで、異なる個性特性とドメインの専門性によって特徴づけられる内的認知的視点の多様化と議論を可能にすることを示す。
その結果,DeepSeek-R1 や QwQ-32B のような推論モデルでは,定量的解析と機械論的解釈可能性の手法により,推論中に異質なパーソナリティと専門的特徴との間により広範な対立が生じていることがわかった。
このマルチエージェント構造は、質問応答、視点シフト、矛盾する見解の和解を含む会話行動や、急激な会話を特徴付ける社会的・感情的な役割に現れ、共に推論タスクにおける精度上の優位性を考慮に入れている。
制御された強化学習実験により、ベースモデルが推論精度のみに報酬を与えると会話行動が増加し、会話足場付き微調整モデルがベースモデルよりも推論改善を加速することが明らかとなった。
これらの結果は,思考の社会的組織は,解空間を効果的に探索することを可能にすることを示唆している。
推論モデルが人間の集団における集団知能と並行する計算モデルを確立し,多様性が体系的に構成された場合,優れた問題解決を可能にし,エージェント組織が群衆の知恵を活用する新たな機会を示唆することを提案する。
関連論文リスト
- LLMs as Strategic Agents: Beliefs, Best Response Behavior, and Emergent Heuristics [0.0]
大規模言語モデル(LLM)は、他のエージェントの振る舞いを推論する必要のあるドメインにますます適用されています。
現状のフロンティアモデルでは, 目的的推論記憶における信念コヒーレントなベストレスポンス行動を示す。
複雑さが増大する中で、明示的な再帰は、安定した、モデル固有の、既知の人間のバイアスとは異なる選択規則を内部的に生成する手段を与える。
論文 参考訳(メタデータ) (2025-10-12T21:40:29Z) - Disagreements in Reasoning: How a Model's Thinking Process Dictates Persuasion in Multi-Agent Systems [49.69773210844221]
本稿では,説得力はモデルスケールの関数である,という一般的な仮説に挑戦する。
一連のマルチエージェントの説得実験を通じて、パーサーション・デュナリティ(Persuasion Duality)と呼ばれる基本的なトレードオフを明らかにする。
以上の結果から, LRMの推理過程は説得に対する抵抗性が大きく, 当初の信念をより堅固に維持していることが明らかとなった。
論文 参考訳(メタデータ) (2025-09-25T12:03:10Z) - Perception, Reason, Think, and Plan: A Survey on Large Multimodal Reasoning Models [79.52467430114805]
推論は知性の中心にあり、決定し、結論を導き、ドメインをまたいで一般化する能力を形成する。
人工知能において、システムがオープンで不確実でマルチモーダルな環境でますます機能するにつれて、推論は堅牢で適応的な行動を可能にするために不可欠となる。
大規模マルチモーダル推論モデル(LMRM)は、テキスト、画像、オーディオ、ビデオなどのモダリティを統合し、複雑な推論機能をサポートする、有望なパラダイムとして登場した。
論文 参考訳(メタデータ) (2025-05-08T03:35:23Z) - Understanding the Language Model to Solve the Symbolic Multi-Step Reasoning Problem from the Perspective of Buffer Mechanism [68.05754701230039]
本研究では,トランスフォーマーモデルにおける情報伝達機構を解明するために,シンボル的多段階推論タスクを構築する。
モデルの推論能力を高めるために,ランダムな行列に基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-24T07:41:26Z) - Probing the Moral Development of Large Language Models through Defining
Issues Test [21.108525674360898]
我々の研究は、初期のLSMは、ランダムなベースラインよりも道徳的推論能力があることを示している。
実際、GPT-4は、典型的な大学院生に匹敵する、伝統的な道徳的推論スコアが最も高い。
論文 参考訳(メタデータ) (2023-09-23T12:17:10Z) - Towards CausalGPT: A Multi-Agent Approach for Faithful Knowledge Reasoning via Promoting Causal Consistency in LLMs [55.66353783572259]
Causal-Consistency Chain-of-Thoughtは、基礎モデルの忠実さと因果性を強化するために、マルチエージェントコラボレーションを活用する。
我々のフレームワークは、広範囲かつ包括的な評価を通じて、最先端の手法よりも大きな優位性を示す。
論文 参考訳(メタデータ) (2023-08-23T04:59:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。