論文の概要: Thinking by Doing: Building Efficient World Model Reasoning in LLMs via Multi-turn Interaction
- arxiv url: http://arxiv.org/abs/2511.23476v1
- Date: Fri, 28 Nov 2025 18:59:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:56.03885
- Title: Thinking by Doing: Building Efficient World Model Reasoning in LLMs via Multi-turn Interaction
- Title(参考訳): 思考による思考:マルチターンインタラクションによるLLMにおける効率的な世界モデル推論の構築
- Authors: Bao Shu, Yan Cai, Jianjian Sun, Chunrui Han, En Yu, Liang Zhao, Jingcheng Hu, Yinmin Zhang, Haoran Lv, Yuang Peng, Zheng Ge, Xiangyu Zhang, Daxin Jiang, Xiangyu Yue,
- Abstract要約: 効率的な相互作用とアクティブ推論(WMAct)による世界モデル内在化を探求する。
WMActは、モデルを構造化推論から解放し、モデルがその実行を通じて思考を直接形作ることを可能にする。
ソコバン, 迷路, タクシーの実験から, WMActは一つのターンでタスクを解決できる効果的な世界モデル推論を導出することを示した。
- 参考スコア(独自算出の注目度): 53.745458605360675
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Developing robust world model reasoning is crucial for large language model (LLM) agents to plan and interact in complex environments. While multi-turn interaction offers a superior understanding of environmental dynamics via authentic feedback, current approaches often impose a rigid reasoning process, which constrains the model's active learning, ultimately hindering efficient world model reasoning. To address these issues, we explore world-model internalization through efficient interaction and active reasoning (WMAct), which liberates the model from structured reasoning, allowing the model to shape thinking directly through its doing, and achieves effective and efficient world model reasoning with two key mechanisms: (1) a reward rescaling mechanism adjusting outcome reward based on action efficacy to incentivize redundancy reduction and purposeful interaction; (2) an interaction frequency annealing strategy to progressively reduce the maximum allowed interaction turns, which compels the model to condense its learning and internalize environmental dynamics rather than over-relying on environmental cues. Our experiments on Sokoban, Maze, and Taxi show that WMAct yields effective world model reasoning capable of resolving tasks in a single turn that previously required multiple interactions and fosters strong transferability to complex environments, improving performance on a suite of reasoning benchmarks.
- Abstract(参考訳): 堅牢な世界モデル推論の開発は、大規模言語モデル(LLM)エージェントが複雑な環境で計画し、相互作用するために不可欠である。
マルチターン相互作用は、真のフィードバックを通じて環境力学の優れた理解を提供するが、現在のアプローチは、しばしば厳格な推論プロセスを課し、モデルの活発な学習を制限し、最終的には効率的な世界モデル推論を妨げる。
これらの課題に対処するために, モデルが構造的推論から解放され, モデルが直接思考を形づくることを可能にし, 効果的かつ効率的な世界モデル推論を実現するWMActを探索する。(1) 報酬再スケーリング機構は, 冗長性の低減と目的的相互作用を動機付けるための行動効果に基づく結果報酬を調整する; (2) 相互作用周波数のアニーリング戦略は, 許容される最大相互作用ターンを段階的に減少させ, モデルが学習を円滑化し, 環境変動を過度に緩和するよりも, 環境変動を内在化させる。
ソコバン, 迷路, タクシーにおける実験により, WMActは, 以前複数の相互作用が必要であったタスクを1ターンで解決し, 複雑な環境への強い伝達性を向上し, 一連の推論ベンチマークの性能を向上させることができる実効世界モデル推論を導出することを示した。
関連論文リスト
- Object-Centric World Models for Causality-Aware Reinforcement Learning [13.063093054280946]
カルーサリティ対応強化学習(ASTICA)を用いたEmph Transformer Imaginationを提案する。
オブジェクト中心のトランスフォーマーが世界モデルおよび因果対応ポリシーおよびバリューネットワークとして機能する統合フレームワーク。
オブジェクトリッチベンチマークの実験では、STICAはサンプル効率と最終性能の両方において、最先端のエージェントよりも一貫して優れていた。
論文 参考訳(メタデータ) (2025-11-18T08:53:09Z) - Social World Model-Augmented Mechanism Design Policy Learning [58.739456918502704]
SWM-AP (Social World Model-Augmented Mechanism Design Policy Learning) を導入する。
SWM-APは,累積報酬とサンプル効率において,モデルベースおよびモデルフリーのRLベースラインよりも優れていた。
論文 参考訳(メタデータ) (2025-10-22T06:01:21Z) - ExoPredicator: Learning Abstract Models of Dynamic Worlds for Robot Planning [77.49815848173613]
本研究では,内因性行動とメカニズムの両方について,シンボル的状態表現と因果過程を共同で学習する抽象世界モデルのためのフレームワークを提案する。
シミュレーションされた5つのテーブルトップロボット環境の中で、学習されたモデルは、より多くのオブジェクトとより複雑な目標を持つ保留タスクに一般化した高速な計画を可能にし、幅広いベースラインを上回ります。
論文 参考訳(メタデータ) (2025-09-30T13:44:34Z) - Learning Local Causal World Models with State Space Models and Attention [1.5498250598583487]
本研究では,SSMが単純な環境のダイナミクスをモデル化し,因果モデルを同時に学習できることを示す。
我々は、SSMの強みに傾倒するさらなる実験の道を開き、因果意識でそれらをさらに強化する。
論文 参考訳(メタデータ) (2025-05-04T11:57:02Z) - AdaWorld: Learning Adaptable World Models with Latent Actions [76.50869178593733]
我々は,効率的な適応を実現する革新的な世界モデル学習手法であるAdaWorldを提案する。
主要なアイデアは、世界モデルの事前トレーニング中にアクション情報を統合することである。
次に、これらの潜伏行動を条件とした自己回帰的世界モデルを開発する。
論文 参考訳(メタデータ) (2025-03-24T17:58:15Z) - HarmonyDream: Task Harmonization Inside World Models [93.07314830304193]
モデルベース強化学習(MBRL)は、サンプル効率の学習を約束する。
本稿では,タスク調和性を維持するために損失係数を自動的に調整する,シンプルで効果的なアプローチであるHarmonyDreamを提案する。
論文 参考訳(メタデータ) (2023-09-30T11:38:13Z) - VDFD: Multi-Agent Value Decomposition Framework with Disentangled World Model [10.36125908359289]
本稿では,Distangled World Modelを用いた新しいモデルベースマルチエージェント強化学習手法であるValue Decomposition Frameworkを提案する。
提案手法は, サンプル効率が高く, 多様なマルチエージェント学習タスクにおいて, 他のベースラインと比較して優れた性能を示す。
論文 参考訳(メタデータ) (2023-09-08T22:12:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。