論文の概要: To Think or Not To Think, That is The Question for Large Reasoning Models in Theory of Mind Tasks
- arxiv url: http://arxiv.org/abs/2602.10625v1
- Date: Wed, 11 Feb 2026 08:16:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.575055
- Title: To Think or Not To Think, That is The Question for Large Reasoning Models in Theory of Mind Tasks
- Title(参考訳): 思考するにせよ考えるにせよ、それは心的課題論における大規模推論モデルに対する疑問である
- Authors: Nanxu Gong, Haotian Li, Sixun Dong, Jianxun Lian, Yanjie Fu, Xing Xie,
- Abstract要約: 心の理論 (ToM) は、モデルが信念、欲望、意図などの隠された精神状態を推測できるかどうかを評価する。
近年のLRM(Large Reasoning Models)の進歩により、数学やコーディングにおけるステップバイステップ推論が向上している。
本研究では,9つの大規模言語モデル(LLM)の体系的研究を行い,推論モデルと非推論モデルを比較した。
- 参考スコア(独自算出の注目度): 56.11584171938381
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Theory of Mind (ToM) assesses whether models can infer hidden mental states such as beliefs, desires, and intentions, which is essential for natural social interaction. Although recent progress in Large Reasoning Models (LRMs) has boosted step-by-step inference in mathematics and coding, it is still underexplored whether this benefit transfers to socio-cognitive skills. We present a systematic study of nine advanced Large Language Models (LLMs), comparing reasoning models with non-reasoning models on three representative ToM benchmarks. The results show that reasoning models do not consistently outperform non-reasoning models and sometimes perform worse. A fine-grained analysis reveals three insights. First, slow thinking collapses: accuracy significantly drops as responses grow longer, and larger reasoning budgets hurt performance. Second, moderate and adaptive reasoning benefits performance: constraining reasoning length mitigates failure, while distinct success patterns demonstrate the necessity of dynamic adaptation. Third, option matching shortcut: when multiple choice options are removed, reasoning models improve markedly, indicating reliance on option matching rather than genuine deduction. We also design two intervention approaches: Slow-to-Fast (S2F) adaptive reasoning and Think-to-Match (T2M) shortcut prevention to further verify and mitigate the problems. With all results, our study highlights the advancement of LRMs in formal reasoning (e.g., math, code) cannot be fully transferred to ToM, a typical task in social reasoning. We conclude that achieving robust ToM requires developing unique capabilities beyond existing reasoning methods.
- Abstract(参考訳): 心の理論 (ToM) は、モデルが自然の社会的相互作用に不可欠な信念、欲望、意図などの隠された精神状態を推測できるかどうかを評価する。
近年のLarge Reasoning Models (LRMs) の進歩は、数学とコーディングにおける段階的推論を促進しているが、この利点が社会認知スキルに移行するかどうかはまだ未定である。
本稿では,9つの大規模言語モデル (LLM) の体系的研究を行い,3つのToMベンチマーク上での推論モデルと非推論モデルを比較した。
その結果、推論モデルは非推論モデルよりも一貫して優れておらず、時には悪化することが示された。
きめ細かい分析では、3つの洞察が浮かび上がっています。
応答が長くなるにつれて精度が大幅に低下し、より大きな推論予算がパフォーマンスを損なう。
第二に、適度で適応的な推論はパフォーマンスに有益である: 推論の制約は失敗を緩和するが、異なる成功パターンは動的適応の必要性を示している。
第3に、オプションマッチングのショートカット: 複数の選択オプションが削除された場合、推論モデルは大幅に改善され、真の推論よりもオプションマッチングに依存することが示される。
また、Slow-to-Fast(S2F)適応推論とThink-to-Match(T2M)ショートカット防止という2つの介入手法を設計し、問題をさらに検証し緩和する。
これらの結果から,社会推論における典型的なタスクであるToMに,形式的推論(数学,コードなど)におけるLEMの進歩が完全に移行できないことが示唆された。
堅牢なToMを実現するには,既存の推論手法を超えて,ユニークな機能を開発する必要がある,と結論付けている。
関連論文リスト
- Reasoning or Retrieval? A Study of Answer Attribution on Large Reasoning Models [15.797612515648412]
大きな推論モデル (LRMs) は、Chain-of-Thought (CoT) 推論を通じて複雑な問題を解く際、前例のない能力を示す。
最近の研究では、彼らの最後の答えは、しばしば彼ら自身の推論の痕跡と矛盾していることが明らかになっている。
この矛盾は、CoT推論とメモリ検索という2つの競合メカニズムに起因していると仮定する。
本稿では,メモリアンラーニングと強化学習を統合したファインチューニングフレームワークFARLを紹介する。
論文 参考訳(メタデータ) (2025-09-29T01:13:33Z) - Thinking with Nothinking Calibration: A New In-Context Learning Paradigm in Reasoning Large Language Models [28.756240721942138]
RLLM(Reasoning large language model)は、最近、構造化および多段階推論によって顕著な機能を示した。
我々は新しいICLパラダイムであるThinking with Nothinking (JointThinking)を提案する。
JointThinkingは、数発のチェーン・オブ・シークレット(CoT)を2回、過半数で上回っている。
論文 参考訳(メタデータ) (2025-08-05T12:09:55Z) - Don't Overthink It: A Survey of Efficient R1-style Large Reasoning Models [49.598776427454176]
大規模共振モデル (LRM) は, 複雑なタスクの処理性能に優れていたため, 徐々に研究ホットスポットになりつつある。
しかし、これらのモデルが広く適用されたことにより、過度に考え直すという問題が徐々に顕在化していった。
モデル性能と推論能力を損なうことなく、推論経路の長さを短縮することを目的とした、様々な効率的な推論手法が提案されている。
論文 参考訳(メタデータ) (2025-08-04T06:54:31Z) - Large Reasoning Models are not thinking straight: on the unreliability of thinking trajectories [0.0]
強化学習(RL)を通じてトレーニングされたLarge Language Models(LLMs)は、最近、推論ベンチマークで印象的な結果を得た。
しかし、成長する証拠は、これらのモデルがしばしば長いが効果のない思考の連鎖(CoT)を生成することを示している。
モデルが明示的に提供しても正しい解を無視し、代わりに不要な推論ステップを生成し続けるという、過度な考えの新たな証拠を提示する。
論文 参考訳(メタデータ) (2025-07-01T12:14:22Z) - Socratic-MCTS: Test-Time Visual Reasoning by Asking the Right Questions [100.41062461003389]
フラーミング推論は,断片化された知識間の「点の接続」をモデルが支援し,非推論モデルにおいて拡張された推論トレースを生成することを示す。
提案手法を3つのベンチマークで評価し,一貫した改善点を観察する。
論文 参考訳(メタデータ) (2025-06-10T15:51:16Z) - The Price of a Second Thought: On the Evaluation of Reasoning Efficiency in Large Language Models [54.88805865447848]
モデルが全体の効率を向上し,問題の難しさが効率に影響を及ぼすことを示す。
インストラクションモデルが簡単なアウトラインをドラフトし,思考モデルがそれを拡張する,シンプルな2段階パイプラインであるCOTHINKを提案する。
GSM8K、MATH500、AIME24では、COTHINKはトークンの使用量を21.1%削減し、4つの思考モデルの精度を維持し、強力な効率のベースラインと競争し続ける。
論文 参考訳(メタデータ) (2025-05-28T06:24:45Z) - Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [49.61246073215651]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。
OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。
しかし、冗長な出力と冗長な出力による計算オーバーヘッドも大幅に発生する。
論文 参考訳(メタデータ) (2025-03-20T17:59:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。