論文の概要: Aligning Agentic World Models via Knowledgeable Experience Learning
- arxiv url: http://arxiv.org/abs/2601.13247v1
- Date: Mon, 19 Jan 2026 17:33:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.991093
- Title: Aligning Agentic World Models via Knowledgeable Experience Learning
- Title(参考訳): 知識学習によるエージェント世界モデルの調整
- Authors: Baochang Ren, Yunzhi Yao, Rui Sun, Shuofei Qiao, Ningyu Zhang, Huajun Chen,
- Abstract要約: 環境フィードバックをシンセサイザー化したWorld Knowledge Repositoryを構築するフレームワークであるWorldMindを紹介する。
WorldMindは、優れたクロスモデルとクロス環境転送性を備えたベースラインよりも優れたパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 68.85843641222186
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current Large Language Models (LLMs) exhibit a critical modal disconnect: they possess vast semantic knowledge but lack the procedural grounding to respect the immutable laws of the physical world. Consequently, while these agents implicitly function as world models, their simulations often suffer from physical hallucinations-generating plans that are logically sound but physically unexecutable. Existing alignment strategies predominantly rely on resource-intensive training or fine-tuning, which attempt to compress dynamic environmental rules into static model parameters. However, such parametric encapsulation is inherently rigid, struggling to adapt to the open-ended variability of physical dynamics without continuous, costly retraining. To bridge this gap, we introduce WorldMind, a framework that autonomously constructs a symbolic World Knowledge Repository by synthesizing environmental feedback. Specifically, it unifies Process Experience to enforce physical feasibility via prediction errors and Goal Experience to guide task optimality through successful trajectories. Experiments on EB-ALFRED and EB-Habitat demonstrate that WorldMind achieves superior performance compared to baselines with remarkable cross-model and cross-environment transferability.
- Abstract(参考訳): 現在のLarge Language Models (LLMs) は、大きな意味的知識を持っているが、物理世界の不変な法則を尊重する手続き的根拠が欠如している。
その結果、これらのエージェントは暗黙的に世界モデルとして機能する一方で、それらのシミュレーションは論理的に健全だが物理的に実行不可能な物理的幻覚を生み出す計画に悩まされる。
既存のアライメント戦略は主に、動的環境ルールを静的モデルパラメータに圧縮しようとするリソース集約的なトレーニングや微調整に依存している。
しかし、このようなパラメトリックカプセル化は本質的に硬く、連続的かつコストのかかる再訓練なしに物理力学のオープンエンド変数に適応するのに苦労する。
このギャップを埋めるために、環境フィードバックを合成して象徴的な世界知識リポジトリを自律的に構築するWorldMindを導入する。
具体的には、プロセスエクスペリエンスを統合して、予測エラーとゴールエクスペリエンスを通じて物理的実現性を適用し、軌道を成功させることでタスクの最適性を導く。
EB-ALFRED と EB-Habitat の実験により、WorldMind は、優れたクロスモデルとクロス環境転送性を持つベースラインに比べて優れた性能を発揮することが示された。
関連論文リスト
- From Word to World: Can Large Language Models be Implicit Text-based World Models? [82.47317196099907]
エージェント強化学習は、経験駆動のスケーリングにますます依存している。
世界モデルは、シミュレートされた経験を通して学習効率を改善する潜在的方法を提供する。
大規模言語モデルがこの役割を確実に果たせるか,どのような条件でエージェントに有意義な利益をもたらすかを検討する。
論文 参考訳(メタデータ) (2025-12-21T17:28:42Z) - Prismatic World Model: Learning Compositional Dynamics for Planning in Hybrid Systems [38.4555621948915]
Prismatic World Model (PRISM-WM) は複雑なハイブリッド力学を構成可能なプリミティブに分解するように設計されている。
PRISM-WMは系力学におけるシャープモード遷移を正確にモデル化することでロールアウトドリフトを著しく低減する。
論文 参考訳(メタデータ) (2025-12-09T09:40:34Z) - Thinking by Doing: Building Efficient World Model Reasoning in LLMs via Multi-turn Interaction [53.745458605360675]
効率的な相互作用とアクティブ推論(WMAct)による世界モデル内在化を探求する。
WMActは、モデルを構造化推論から解放し、モデルがその実行を通じて思考を直接形作ることを可能にする。
ソコバン, 迷路, タクシーの実験から, WMActは一つのターンでタスクを解決できる効果的な世界モデル推論を導出することを示した。
論文 参考訳(メタデータ) (2025-11-28T18:59:47Z) - Object-Centric World Models for Causality-Aware Reinforcement Learning [13.063093054280946]
カルーサリティ対応強化学習(ASTICA)を用いたEmph Transformer Imaginationを提案する。
オブジェクト中心のトランスフォーマーが世界モデルおよび因果対応ポリシーおよびバリューネットワークとして機能する統合フレームワーク。
オブジェクトリッチベンチマークの実験では、STICAはサンプル効率と最終性能の両方において、最先端のエージェントよりも一貫して優れていた。
論文 参考訳(メタデータ) (2025-11-18T08:53:09Z) - One Life to Learn: Inferring Symbolic World Models for Stochastic Environments from Unguided Exploration [77.8436947454471]
シンボリック・ワールド・モデリングは、実行可能プログラムとして環境の遷移力学を推論し、表現する必要がある。
OneLifeは、条件付きアクティベートされたプログラム法則を通じて世界ダイナミクスをモデル化するフレームワークである。
OneLifeは、最小限の、ガイドなしのインタラクションから、キー環境のダイナミクスをうまく学べる。
論文 参考訳(メタデータ) (2025-10-14T02:49:32Z) - Dynamics-Aligned Latent Imagination in Contextual World Models for Zero-Shot Generalization [1.6332728502735252]
エージェント-環境相互作用から潜在コンテキスト表現を推論するフレームワークであるDLI(Dynamics-Aligned Latent Imagination)を導入する。
DALIは、世界モデルとポリシーを条件付け、認知と制御をブリッジする実行可能な表現を生成する。
挑戦的なcMDPベンチマークでは、DALIはコンテキストを意識しないベースラインよりも大幅に向上する。
論文 参考訳(メタデータ) (2025-08-27T22:02:56Z) - Revealing the Challenges of Sim-to-Real Transfer in Model-Based Reinforcement Learning via Latent Space Modeling [31.74241286023207]
強化学習(RL)は、ロボット制御や自律運転といった分野において、ますます重要な役割を担っている。
シミュレーションと実環境のギャップは、RLの実践的な展開にとって大きな障害となっている。
本稿では,シミュレーションが現実の政策改善に与える影響を分析するために,潜在空間に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2025-06-15T06:02:42Z) - Adapting World Models with Latent-State Dynamics Residuals [10.892848566977369]
ReDRAWは、シミュレーションで事前訓練され、ターゲット環境に調整された潜在状態自己回帰世界モデルである。
これにより、RLエージェントを、修正された動的条件の下で想像上のロールアウトで最適化し、現実世界にデプロイすることが可能になる。
論文 参考訳(メタデータ) (2025-04-03T03:41:30Z) - Disentangled World Models: Learning to Transfer Semantic Knowledge from Distracting Videos for Reinforcement Learning [65.85335291827086]
本稿では,オフラインからオンラインまでの潜水蒸留とフレキシブルなゆがみ制約を通したビデオから,セマンティックな違いを学習し,理解することを試みる。
動作自由なビデオ予測モデルを非干渉正規化によりオフラインでトレーニングし、注意をそらすビデオから意味的知識を抽出する。
オンライン環境での微調整には、事前学習されたモデルからの知識を活用し、世界モデルに絡み合った制約を導入する。
論文 参考訳(メタデータ) (2025-03-11T13:50:22Z) - Robotic World Model: A Neural Network Simulator for Robust Policy Optimization in Robotics [50.191655141020505]
この研究は、長期水平予測、エラー蓄積、およびsim-to-real転送の課題に対処することで、モデルに基づく強化学習を前進させる。
スケーラブルでロバストなフレームワークを提供することで、現実のアプリケーションにおいて適応的で効率的なロボットシステムを実現することができる。
論文 参考訳(メタデータ) (2025-01-17T10:39:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。