論文の概要: Learning World Models for Unconstrained Goal Navigation
- arxiv url: http://arxiv.org/abs/2411.02446v1
- Date: Sun, 03 Nov 2024 01:35:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-06 15:00:35.468028
- Title: Learning World Models for Unconstrained Goal Navigation
- Title(参考訳): 制約のないゴールナビゲーションのための世界モデル学習
- Authors: Yuanlin Duan, Wensen Mao, He Zhu,
- Abstract要約: 本研究では,世界モデル学習のための目標指向探索アルゴリズムであるMUNを紹介する。
MUNは、リプレイバッファ内の任意のサブゴール状態間の状態遷移をモデル化することができる。
その結果、MUNは世界モデルの信頼性を高め、政策の一般化能力を大幅に改善することを示した。
- 参考スコア(独自算出の注目度): 4.549550797148707
- License:
- Abstract: Learning world models offers a promising avenue for goal-conditioned reinforcement learning with sparse rewards. By allowing agents to plan actions or exploratory goals without direct interaction with the environment, world models enhance exploration efficiency. The quality of a world model hinges on the richness of data stored in the agent's replay buffer, with expectations of reasonable generalization across the state space surrounding recorded trajectories. However, challenges arise in generalizing learned world models to state transitions backward along recorded trajectories or between states across different trajectories, hindering their ability to accurately model real-world dynamics. To address these challenges, we introduce a novel goal-directed exploration algorithm, MUN (short for "World Models for Unconstrained Goal Navigation"). This algorithm is capable of modeling state transitions between arbitrary subgoal states in the replay buffer, thereby facilitating the learning of policies to navigate between any "key" states. Experimental results demonstrate that MUN strengthens the reliability of world models and significantly improves the policy's capacity to generalize across new goal settings.
- Abstract(参考訳): 学習の世界モデルは、希少な報酬を伴う目標条件付き強化学習のための有望な道を提供する。
エージェントが環境と直接対話することなく行動や探索目標を計画できるようにすることで、世界モデルは探索効率を高める。
ワールドモデルの品質は、エージェントのリプレイバッファに格納されたデータの豊かさに依存し、記録された軌跡を取り巻く状態空間における合理的な一般化を期待する。
しかし、学習された世界モデルを、記録された軌跡に沿って後方に遷移させたり、異なる軌跡をまたいだ状態間の遷移に一般化することで、現実世界のダイナミクスを正確にモデル化する能力を妨げる。
これらの課題に対処するために、新しいゴール指向探索アルゴリズムであるMUN("World Models for Unconstrained Goal Navigation"の略)を導入する。
このアルゴリズムは、リプレイバッファ内の任意のサブゴール状態間の状態遷移をモデル化し、任意の"キー"状態の間をナビゲートするポリシーの学習を容易にする。
実験の結果、MUNは世界モデルの信頼性を高め、新しい目標設定をまたいで一般化する政策の能力を大幅に向上することが示された。
関連論文リスト
- Open-World Reinforcement Learning over Long Short-Term Imagination [91.28998327423295]
LS-Imagineは、有限個の状態遷移ステップにおいて、イマジネーションの地平線を拡大する。
我々の手法は、MineDojoの最先端技術よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2024-10-04T17:17:30Z) - Is Sora a World Simulator? A Comprehensive Survey on General World Models and Beyond [101.15395503285804]
一般世界モデルは、人工知能(AGI)の実現への決定的な道のりを表現している
本調査では,世界モデルの最新動向を包括的に調査する。
我々は,世界モデルの課題と限界について検討し,今後の方向性について考察する。
論文 参考訳(メタデータ) (2024-05-06T14:37:07Z) - ReCoRe: Regularized Contrastive Representation Learning of World Model [21.29132219042405]
対照的な教師なし学習と介入不変正規化器を用いて不変特徴を学習する世界モデルを提案する。
提案手法は,現状のモデルベースおよびモデルフリーのRL法より優れ,iGibsonベンチマークで評価された分布外ナビゲーションタスクを大幅に改善する。
論文 参考訳(メタデータ) (2023-12-14T15:53:07Z) - Forecaster: Towards Temporally Abstract Tree-Search Planning from Pixels [42.275164872809746]
Forecasterは、階層的な強化学習アプローチで、高いレベルの目標を計画する。
Forecasterは、トランジッションのダイナミクスを抽象レベルでモデル化することで、環境の抽象モデルを学ぶ。
次に、この世界モデルを使用して、ツリー探索計画手順を通じて最適なハイレベルな目標を選択する。
論文 参考訳(メタデータ) (2023-10-16T01:13:26Z) - NoMaD: Goal Masked Diffusion Policies for Navigation and Exploration [57.15811390835294]
本稿では,目標指向ナビゲーションと目標非依存探索の両方を扱うために,単一の統合拡散政策をトレーニングする方法について述べる。
この統一された政策は、新しい環境における目標を視覚的に示す際に、全体的な性能が向上することを示す。
実世界の移動ロボットプラットフォーム上で実施した実験は,5つの代替手法と比較して,見えない環境における効果的なナビゲーションを示す。
論文 参考訳(メタデータ) (2023-10-11T21:07:14Z) - Predictive World Models from Real-World Partial Observations [66.80340484148931]
本研究では,現実の道路環境に対する確率論的予測世界モデル学習のためのフレームワークを提案する。
従来の手法では、学習のための基礎的真理として完全状態を必要とするが、HVAEが部分的に観察された状態のみから完全状態を予測することを学べる新しい逐次訓練法を提案する。
論文 参考訳(メタデータ) (2023-01-12T02:07:26Z) - Evolutionary Planning in Latent Space [7.863826008567604]
プランニングは、いくつかの望ましい特性を持つ強化学習の強力なアプローチである。
我々は、ラテントスペースにおける進化的計画を可能にする世界モデルを学ぶ。
ランダムなポリシーからのロールアウトでブートストラップし、より正確な計画ポリシーからのロールアウトで反復的に修正することで、世界のモデルを構築する方法を示します。
論文 参考訳(メタデータ) (2020-11-23T09:21:30Z) - Bridging Imagination and Reality for Model-Based Deep Reinforcement
Learning [72.18725551199842]
BrIdging Reality and Dream (BIRD) と呼ばれる新しいモデルに基づく強化学習アルゴリズムを提案する。
虚構と実軌跡の相互情報を最大化し、虚構から学んだ政策改善を実軌跡に容易に一般化できるようにする。
提案手法は, モデルベース計画のサンプル効率を向上し, 挑戦的なビジュアル制御ベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2020-10-23T03:22:01Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。