論文の概要: One Life to Learn: Inferring Symbolic World Models for Stochastic Environments from Unguided Exploration
- arxiv url: http://arxiv.org/abs/2510.12088v1
- Date: Tue, 14 Oct 2025 02:49:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.160169
- Title: One Life to Learn: Inferring Symbolic World Models for Stochastic Environments from Unguided Exploration
- Title(参考訳): 学習すべき一寿命:未知の探索から確率的環境における記号的世界モデルの推定
- Authors: Zaid Khan, Archiki Prasad, Elias Stengel-Eskin, Jaemin Cho, Mohit Bansal,
- Abstract要約: シンボリック・ワールド・モデリングは、実行可能プログラムとして環境の遷移力学を推論し、表現する必要がある。
OneLifeは、条件付きアクティベートされたプログラム法則を通じて世界ダイナミクスをモデル化するフレームワークである。
OneLifeは、最小限の、ガイドなしのインタラクションから、キー環境のダイナミクスをうまく学べる。
- 参考スコア(独自算出の注目度): 77.8436947454471
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Symbolic world modeling requires inferring and representing an environment's transitional dynamics as an executable program. Prior work has focused on largely deterministic environments with abundant interaction data, simple mechanics, and human guidance. We address a more realistic and challenging setting, learning in a complex, stochastic environment where the agent has only "one life" to explore a hostile environment without human guidance. We introduce OneLife, a framework that models world dynamics through conditionally-activated programmatic laws within a probabilistic programming framework. Each law operates through a precondition-effect structure, activating in relevant world states. This creates a dynamic computation graph that routes inference and optimization only through relevant laws, avoiding scaling challenges when all laws contribute to predictions about a complex, hierarchical state, and enabling the learning of stochastic dynamics even with sparse rule activation. To evaluate our approach under these demanding constraints, we introduce a new evaluation protocol that measures (a) state ranking, the ability to distinguish plausible future states from implausible ones, and (b) state fidelity, the ability to generate future states that closely resemble reality. We develop and evaluate our framework on Crafter-OO, our reimplementation of the Crafter environment that exposes a structured, object-oriented symbolic state and a pure transition function that operates on that state alone. OneLife can successfully learn key environment dynamics from minimal, unguided interaction, outperforming a strong baseline on 16 out of 23 scenarios tested. We also test OneLife's planning ability, with simulated rollouts successfully identifying superior strategies. Our work establishes a foundation for autonomously constructing programmatic world models of unknown, complex environments.
- Abstract(参考訳): シンボリック・ワールド・モデリングは、実行可能プログラムとして環境の遷移力学を推論し、表現する必要がある。
これまでの研究は、豊富な相互作用データ、単純な力学、人間のガイダンスを備えた決定論的環境に重点を置いてきた。
エージェントが「一つの人生」しか持たない複雑な確率的な環境で、人間による指導なしに敵対的な環境を探索する、より現実的で挑戦的な設定に対処する。
確率的プログラミングフレームワーク内の条件付きプログラム法則を通じて世界ダイナミクスをモデル化するフレームワークであるOneLifeを紹介する。
各法律は、関連する世界国家で活動する前提条件-効果構造を通して機能する。
これは、関係する法則を通してのみ推論と最適化をルーティングし、すべての法則が複雑で階層的な状態に関する予測に寄与するときにスケーリングの課題を回避し、スパースルールアクティベーションでさえ確率力学の学習を可能にする、動的計算グラフを作成する。
これら要求制約下でのアプローチを評価するため、我々は測定を行う新しい評価プロトコルを導入する。
(a)国家の格付け、不可解な将来の国家と不可解な国家を区別する能力、
(b)状態の忠実さ、現実によく似た将来状態を生成する能力。
我々は、構造化されたオブジェクト指向のシンボル状態と、その状態のみで動作する純粋な遷移関数を公開するCrafter環境の再実装であるCrafter-OOのフレームワークを開発し、評価する。
OneLifeは、最小限の、ガイドなしのインタラクションから、キー環境のダイナミクスをうまく学習することができ、テストされた23のシナリオのうち16で、強力なベースラインを上回ります。
私たちはOneLifeの計画能力もテストし、シミュレーションされたロールアウトによって優れた戦略を特定しました。
我々の研究は、未知の複雑な環境のプログラム的世界モデルを自律的に構築するための基盤を確立する。
関連論文リスト
- Unlocking Smarter Device Control: Foresighted Planning with a World Model-Driven Code Execution Approach [82.27842884709378]
本研究では,自然言語理解と構造化推論を優先し,エージェントの環境に対するグローバルな理解を高める枠組みを提案する。
本手法は,従来の手法,特にタスク成功率の44.4%向上を達成している。
論文 参考訳(メタデータ) (2025-05-22T09:08:47Z) - Inter-environmental world modeling for continuous and compositional dynamics [7.01176359680407]
環境全体にわたってシミュレートする継続的潜在アクション表現を学習する、教師なしのフレームワークであるLie Actionを紹介した。
WLAはビデオフレームのみを用いてトレーニングが可能であり、アクションラベルが最小でも無ければ、新しいアクションセットを持つ新しい環境に迅速に適応できることを実証する。
論文 参考訳(メタデータ) (2025-03-13T00:02:54Z) - EmbodiedCity: A Benchmark Platform for Embodied Agent in Real-world City Environment [38.14321677323052]
身体的人工知能は、エージェントの身体が人間のような行動を引き起こす役割を強調している。
本稿では,実環境におけるインテリジェンス評価のためのベンチマークプラットフォームを構築する。
論文 参考訳(メタデータ) (2024-10-12T17:49:26Z) - One-shot World Models Using a Transformer Trained on a Synthetic Prior [37.027893127637036]
ワンショット世界モデル(英: One-Shot World Model、OSWM)は、純粋に合成データからコンテキスト内学習形式で学習されるトランスフォーマー世界モデルである。
OSWMは、シンプルなグリッド世界のダイナミクスや、CartPoleのジム、カスタムコントロール環境に迅速に適応できる。
論文 参考訳(メタデータ) (2024-09-21T09:39:32Z) - DREAMWALKER: Mental Planning for Continuous Vision-Language Navigation [107.5934592892763]
本稿では,世界モデルに基づくVLN-CEエージェントDREAMWALKERを提案する。
世界モデルは、複雑な連続環境の視覚的、位相的、動的特性を要約するために構築される。
コストのかかるアクションを実行する前に、そのような抽象的な世界で可能な計画を完全にシミュレートし、評価することができる。
論文 参考訳(メタデータ) (2023-08-14T23:45:01Z) - Towards Autonomous Grading In The Real World [4.651327752886103]
我々は、不均一な領域を平坦化するためにドーザを必要とする自律的なグレーディングの問題に取り組むことを目的としている。
本研究では,現実的な物理シミュレーションと実ドーザーのダイナミックスと感覚情報を模倣した拡張された実プロトタイプ環境の両方を設計する。
論文 参考訳(メタデータ) (2022-06-13T12:21:20Z) - BEHAVIOR: Benchmark for Everyday Household Activities in Virtual,
Interactive, and Ecological Environments [70.18430114842094]
本稿では,シミュレーションにおける100のアクティビティを持つAIのベンチマークであるBEHAVIORを紹介する。
これらの活動は現実的で多様性があり、複雑であるように設計されています。
われわれは、バーチャルリアリティー(VR)における500件の人間デモを含む。
論文 参考訳(メタデータ) (2021-08-06T23:36:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。