論文の概要: Why We Need World Models for AGI: Where LLMs Fail and How World Models May Outperform
- arxiv url: http://arxiv.org/abs/2605.23972v1
- Date: Wed, 13 May 2026 12:55:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-01 02:55:42.990181
- Title: Why We Need World Models for AGI: Where LLMs Fail and How World Models May Outperform
- Title(参考訳): なぜAGIに世界モデルが必要なのか: LLMの失敗と世界モデルのパフォーマンス
- Authors: Feisal Alaswad, Batoul Aljaddouh, Maher Alrahhal, Poovammal E, Talal Bonny,
- Abstract要約: 大規模言語モデルは、言語生成と知識集約タスクにおいて強力なパフォーマンスを達成する。
これらの制限は、潜在環境力学に対するシーケンス予測と推論の客観的なミスマッチから生じる可能性がある。
言語とマルチモーダルな観察を基礎となる遷移力学の部分的証拠として解釈する概念的視点である潜在ダイナミクス推論(LDI)を紹介する。
- 参考スコア(独自算出の注目度): 1.6746114653388389
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models achieve strong performance in language generation and knowledge-intensive tasks, yet remain limited in settings requiring causal reasoning, persistent state tracking, and long-horizon planning. We argue that these limitations may arise from an objective-level mismatch between sequence prediction and reasoning over latent environment dynamics. To formalize this distinction, we introduce Latent Dynamics Inference (LDI), a conceptual perspective that interprets language and multimodal observations as partial evidence of underlying transition dynamics. To empirically investigate this perspective, we introduce Flux, a sequential reasoning environment specified entirely through natural-language rules. As a proof-of-concept case study, the rules are first compiled into an explicit state-transition simulator, illustrating that structured latent transition dynamics can, in some cases, be operationally extracted from textual rule descriptions. This enables a controlled comparison between the LLMs operating purely over textual observations and reinforcement-learning agents trained directly within the extracted latent state space. Within this case study, agents operating with explicit access to the latent state space exhibit substantially more stable behavior in long-horizon gameplay, achieving an aggregate win rate of approximately 79% versus 11% for LLMs. Qualitative analysis further reveals failure modes consistent with unstable persistent state tracking, including invalid actions, state-tracking errors, and short-horizon reasoning failures. The complete implementation of the Flux environment available at https://github.com/FeisalAlaswad/FLUX-RL-Agent Within the evaluated setting, these results suggest that strong sequence prediction alone may struggle to support robust long-horizon dynamic reasoning without mechanisms for persistent state tracking and transition modeling
- Abstract(参考訳): 大きな言語モデルは、言語生成と知識集約的なタスクにおいて強力なパフォーマンスを達成するが、因果推論、永続的な状態追跡、長期計画を必要とする設定には制限がある。
これらの制限は、潜在環境力学に対するシーケンス予測と推論の客観的なミスマッチから生じる可能性がある。
この区別を定式化するために、言語とマルチモーダルな観察を基礎となる遷移力学の部分的証拠として解釈する概念的視点であるLatent Dynamics Inference (LDI)を導入する。
この観点を実証的に研究するために、自然言語規則によって完全に規定された逐次推論環境であるFluxを紹介した。
概念実証のケーススタディとして、ルールはまず明示的な状態遷移シミュレータにコンパイルされ、構造化された潜在遷移力学がテキストの規則記述から操作的に抽出できることを示す。
これにより、テキストによる観察よりも純粋に動作するLLMと、抽出された潜在状態空間内で直接訓練された強化学習エージェントとの制御された比較が可能になる。
このケーススタディでは, 潜伏状態空間への明示的なアクセスを行うエージェントは, 長軸ゲームプレイにおいてより安定した動作を示し, 総当たり勝利率は約79%であり, LLMでは11%であった。
定性的分析により、不安定な状態追跡、状態追跡エラー、短水平推論障害を含む不安定な状態追跡と整合した障害モードが明らかにされる。
The complete implementation of the Flux environment available at https://github.com/FeisalAlaswad/FLUX-RL-Agent in the evaluation, these results suggests that strong sequence prediction alone may to support robust long-horizon dynamic reasoning without mechanism for persistent state tracking and transition modeling。
関連論文リスト
- Agent-BRACE: Decoupling Beliefs from Actions in Long-Horizon Tasks via Verbalized State Uncertainty [70.43119366710778]
本稿では,Agens-BRACE: Agent Belief state Representation by Abstraction and Confidence Estimationを紹介する。
LLMエージェントを信頼状態モデルと政策モデルに分離し、強化学習を通じて協調的に最適化する手法である。
長期にわたる部分的に観察可能な言語環境において、平均して+14.5%の絶対的な改善を実現している。
論文 参考訳(メタデータ) (2026-05-12T02:37:04Z) - Tracking the Truth: Object-Centric Spatio-Temporal Monitoring for Video Large Language Models [154.39583176906893]
大規模言語モデル(ML)は高度な理解を持ち、シーンにおける幻覚の傾向が高い。
これは、時間的モニタリングの失敗、オブジェクトの動的アイデンティティ、状態、そして時間とともに関係を永続的に追跡する能力に起因している、と我々は主張する。
既存のベンチマークでは、局所的な視覚的手がかりや統計的先行によってしばしば解決される1つの最終回答クエリに頼って、この欠陥を曖昧にしている。
論文 参考訳(メタデータ) (2026-05-09T14:32:36Z) - ThinkJEPA: Empowering Latent World Models with Large Vision-Language Reasoning Model [53.15040805435013]
視覚言語モデル(VLM)は、一様にサンプリングされたフレームを解析することで、強力なセマンティックグラウンドと一般的な知識を提供する。
本稿では,高密度フレーム・ダイナミックス・モデリングと長軸意味指導を組み合わせたVLM誘導型JEPA型潜在世界モデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-23T17:59:42Z) - KnowDiffuser: A Knowledge-Guided Diffusion Planner with LM Reasoning and Prior-Informed Trajectory Initialization [8.04458701181863]
KnowDiffuserは知識誘導型モーションプランニングフレームワークである。
言語モデルの意味的理解と拡散モデルの生成力を統合する。
これは、オープンループとクローズループの両方の評価において、既存のプランナーを著しく上回っている。
論文 参考訳(メタデータ) (2026-03-11T05:45:29Z) - Let's Reward Step-by-Step: Step-Aware Contrastive Alignment for Vision-Language Navigation in Continuous Environments [38.97818584066075]
VLN-CE(Vision-Language Navigation in Continuous Environments)は、長期にわたる人間のインタラクションから複雑な推論を学ぶためのエージェントである。
現在のトレーニングパラダイムは、一般化能力、エラー回復、トレーニング安定性のバランスをとるのに苦労しています。
本稿では,不完全な軌跡から厳密な監視を抽出するためのフレームワークである,ステップアウェアコントラストアライメント(SACA)を紹介する。
論文 参考訳(メタデータ) (2026-03-10T14:45:50Z) - Neural Implicit Action Fields: From Discrete Waypoints to Continuous Functions for Vision-Language-Action Models [35.98187913967879]
本稿では,行動予測を離散的な視点から連続的な行動関数の回帰へ変換するパラダイムシフトを提案する。
提案手法は, CALVIN および LIBERO ベンチマークにおいて, 種々のバックボーンにまたがって, 最新の結果が得られる。
論文 参考訳(メタデータ) (2026-03-02T11:48:24Z) - Towards Simulating Social Media Users with LLMs: Evaluating the Operational Validity of Conditioned Comment Prediction [2.5450067638785945]
本研究は,ユーザが所定の刺激に対してどのようにコメントするかをモデルが予測するタスクである条件付きコメント予測(CCP)を紹介する。
オープンウェイトな8Bモデル(Llama3.1、Qwen3、Ministral)を英語、ドイツ語、ルクセンブルク語のシナリオで評価する。
論文 参考訳(メタデータ) (2026-02-26T08:40:21Z) - From Observations to States: Latent Time Series Forecasting [65.98504021691666]
本稿では,TSFを観測回帰から潜時予測に移行する新しいパラダイムであるLatent Time Series Forecasting(LatentTSF)を提案する。
具体的には、LatentTSFはAutoEncoderを使用して、各段階での観測結果を高次元の潜在状態空間に投影する。
提案する潜伏目標は,予測潜伏状態と地道状態と観測値との相互情報を暗黙的に最大化する。
論文 参考訳(メタデータ) (2026-01-30T20:39:44Z) - Drift No More? Context Equilibria in Multi-Turn LLM Interactions [58.69551510148673]
コンテキストドリフト(Contexts drift)とは、ターン間のゴール一貫性のある振る舞いからモデルが出力する出力の段階的なばらつきである。
シングルターンエラーとは異なり、ドリフトは時間的に展開し、静的な評価指標では捉えにくい。
マルチターンドリフトは、避けられない崩壊というよりも、制御可能な平衡現象として理解できることを示す。
論文 参考訳(メタデータ) (2025-10-09T04:48:49Z) - CTRLS: Chain-of-Thought Reasoning via Latent State-Transition [57.51370433303236]
チェーン・オブ・シント(CoT)推論は、大規模な言語モデルで複雑な問題を解釈可能な中間ステップに分解することを可能にする。
我々は,遅延状態遷移を伴うマルコフ決定プロセス(MDP)としてCoT推論を定式化するフレームワークであるgroundingSを紹介する。
我々は、ベンチマーク推論タスクにおける推論精度、多様性、探索効率の改善を示す。
論文 参考訳(メタデータ) (2025-07-10T21:32:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。