論文の概要: Active Confusion Expression in Large Language Models: Leveraging World Models toward Better Social Reasoning
- arxiv url: http://arxiv.org/abs/2510.07974v1
- Date: Thu, 09 Oct 2025 09:07:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.976269
- Title: Active Confusion Expression in Large Language Models: Leveraging World Models toward Better Social Reasoning
- Title(参考訳): 大規模言語モデルにおけるアクティブ・コンフュージョン表現 : より良い社会的推論に向けての世界モデルを活用する
- Authors: Jialu Du, Guiyang Hou, Yihui Fu, Chen Wu, Wenqi Zhang, Yongliang Shen, Weiming Lu,
- Abstract要約: 大規模言語モデル(LLM)は、認知的混乱、論理的矛盾、および客観的世界状態と主観的信念状態の衝突を示す。
本研究では,動的テキスト世界モデルを構築し,実体状態と時間的シーケンスを追跡する適応的世界モデル拡張推論機構を提案する。
- 参考スコア(独自算出の注目度): 31.08532996770416
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While large language models (LLMs) excel in mathematical and code reasoning, we observe they struggle with social reasoning tasks, exhibiting cognitive confusion, logical inconsistencies, and conflation between objective world states and subjective belief states. Through deteiled analysis of DeepSeek-R1's reasoning trajectories, we find that LLMs frequently encounter reasoning impasses and tend to output contradictory terms like "tricky" and "confused" when processing scenarios with multiple participants and timelines, leading to erroneous reasoning or infinite loops. The core issue is their inability to disentangle objective reality from agents' subjective beliefs. To address this, we propose an adaptive world model-enhanced reasoning mechanism that constructs a dynamic textual world model to track entity states and temporal sequences. It dynamically monitors reasoning trajectories for confusion indicators and promptly intervenes by providing clear world state descriptions, helping models navigate through cognitive dilemmas. The mechanism mimics how humans use implicit world models to distinguish between external events and internal beliefs. Evaluations on three social benchmarks demonstrate significant improvements in accuracy (e.g., +10% in Hi-ToM) while reducing computational costs (up to 33.8% token reduction), offering a simple yet effective solution for deploying LLMs in social contexts.
- Abstract(参考訳): 大規模言語モデル(LLMs)は数学的およびコード推論に優れるが、社会的推論の課題に苦戦し、認知的混乱、論理的不整合、客観的世界状態と主観的信念状態の調和を示す。
DeepSeek-R1の推論軌道の非定型解析により、複数の参加者やタイムラインでシナリオを処理する場合、LCMは推論ミスに頻繁に遭遇し、「複雑」や「複雑」といった矛盾した用語を出力する傾向にあり、誤った推論や無限ループにつながることが判明した。
中心的な問題は、エージェントの主観的信念から客観的現実を遠ざけることができないことである。
そこで本研究では,動的テキスト世界モデルを構築し,実体状態と時間的シーケンスを追跡する適応的世界モデル拡張推論機構を提案する。
混乱指標の推論軌跡を動的に監視し、明確な世界状態記述を提供することで迅速に介入し、モデルが認知ジレンマをナビゲートするのに役立つ。
このメカニズムは、人間が暗黙の世界モデルを使って外部の出来事と内的信念を区別する方法を模倣している。
3つのソーシャルベンチマークの評価は、計算コスト(最大33.8%のトークン削減)を削減しつつ、精度(例えば、Hi-ToMでは+10%)が大幅に向上し、社会的文脈にLSMをデプロイするための単純で効果的なソリューションを提供する。
関連論文リスト
- Language Models Do Not Follow Occam's Razor: A Benchmark for Inductive and Abductive Reasoning [6.06071622429429]
この研究は、大規模言語モデルの帰納的推論能力と帰納的推論能力を評価することに重点を置いている。
プログラム可能で合成可能なデータセットであるInAbHyDを導入し、各推論例は不完全な世界モデルと観測セットから構成される。
我々はOccamのRazorに基づく仮説の質を評価するための新しい指標を提案する。
論文 参考訳(メタデータ) (2025-09-03T14:22:42Z) - Implicit Reasoning in Large Language Models: A Comprehensive Survey [67.53966514728383]
大規模言語モデル(LLM)は、幅広いタスクにまたがる強力な一般化を実証している。
最近の研究は、暗黙の推論に拍車をかけた、明示的な思考の連鎖から注意を向けている。
本調査では,表現形式から計算戦略へ焦点を移し,実行パラダイムを中心とした分類を紹介した。
論文 参考訳(メタデータ) (2025-09-02T14:16:02Z) - From Passive to Active Reasoning: Can Large Language Models Ask the Right Questions under Incomplete Information? [34.959850282872594]
LLMのアクティブな推論能力を評価するために設計された新しいベンチマークであるAR-Benchを提案する。
AR-Benchは3つのタスクファミリー検出ケース、状況パズル、推測数で構成される。
AR-ベンチに関する実証的な評価は、現代のLDMは活発な推論を伴う困難を顕著に示していることを示している。
論文 参考訳(メタデータ) (2025-06-09T23:56:41Z) - Embodied-Reasoner: Synergizing Visual Search, Reasoning, and Action for Embodied Interactive Tasks [42.022527376404476]
Embodied Reasonerは、o1スタイルの推論をインタラクティブなエボダイド検索タスクに拡張するモデルである。
我々は、64kの対話画像と90kの多様な思考プロセスを含む9.3kのコヒーレントな観測・推察軌道を合成する。
モデルの性能を段階的に向上する3段階のトレーニングパイプラインを開発している。
論文 参考訳(メタデータ) (2025-03-27T17:00:51Z) - Visualizing Thought: Conceptual Diagrams Enable Robust Planning in LMMs [59.66595230543127]
概念図はメンタルモデルを外部化し、関係のない詳細を抽象化して、エンティティの相互作用を効率的に捉える。
大規模言語モデル (LLM) と大規模マルチモーダルモデル (LMM) は、主にテキストを通して推論される。
我々は、LMMが複数の自己生成概念図を通した推論を可能にする、一般化可能なフレームワークであるVisual Thinkingを提案する。
論文 参考訳(メタデータ) (2025-03-14T18:27:02Z) - Failure Modes of LLMs for Causal Reasoning on Narratives [51.19592551510628]
世界の知識と論理的推論の相互作用について検討する。
最先端の大規模言語モデル(LLM)は、しばしば表面的な一般化に依存している。
タスクの単純な再構成により、より堅牢な推論行動が引き起こされることを示す。
論文 参考訳(メタデータ) (2024-10-31T12:48:58Z) - A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。
本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文 参考訳(メタデータ) (2023-11-14T07:13:10Z) - From Heuristic to Analytic: Cognitively Motivated Strategies for
Coherent Physical Commonsense Reasoning [66.98861219674039]
ヒューリスティック分析推論(HAR)戦略は、モデル決定のための合理化のコヒーレンスを大幅に改善する。
以上の結果から, PLM推論の一貫性と信頼性を効果的に向上できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-24T19:46:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。