論文の概要: Open-World Reinforcement Learning over Long Short-Term Imagination
- arxiv url: http://arxiv.org/abs/2410.03618v1
- Date: Fri, 4 Oct 2024 17:17:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 21:08:10.466527
- Title: Open-World Reinforcement Learning over Long Short-Term Imagination
- Title(参考訳): 長期的イマジネーションによるオープンワールド強化学習
- Authors: Jiajian Li, Qi Wang, Yunbo Wang, Xin Jin, Yang Li, Wenjun Zeng, Xiaokang Yang,
- Abstract要約: LS-Imagineは、有限個の状態遷移ステップにおいて、イマジネーションの地平線を拡大する。
我々の手法は、MineDojoの最先端技術よりも大幅に改善されていることを示す。
- 参考スコア(独自算出の注目度): 91.28998327423295
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training visual reinforcement learning agents in a high-dimensional open world presents significant challenges. While various model-based methods have improved sample efficiency by learning interactive world models, these agents tend to be "short-sighted", as they are typically trained on short snippets of imagined experiences. We argue that the primary obstacle in open-world decision-making is improving the efficiency of off-policy exploration across an extensive state space. In this paper, we present LS-Imagine, which extends the imagination horizon within a limited number of state transition steps, enabling the agent to explore behaviors that potentially lead to promising long-term feedback. The foundation of our approach is to build a long short-term world model. To achieve this, we simulate goal-conditioned jumpy state transitions and compute corresponding affordance maps by zooming in on specific areas within single images. This facilitates the integration of direct long-term values into behavior learning. Our method demonstrates significant improvements over state-of-the-art techniques in MineDojo.
- Abstract(参考訳): 高次元オープンワールドにおける視覚的強化学習エージェントの訓練は、大きな課題を呈している。
様々なモデルに基づく手法は、インタラクティブな世界モデルを学ぶことによってサンプル効率を向上させるが、これらのエージェントは、典型的には想像された経験の短い断片に基づいて訓練されるため、短視される傾向がある。
オープンワールドの意思決定における大きな障害は、広範な州空間を横断する政治外探査の効率を改善することだと我々は主張する。
本稿では,LS-Imagineについて述べる。LS-Imagineは,限られた状態遷移ステップ内でのイマジネーションの地平線を拡大し,エージェントが長期的フィードバックにつながる可能性のある動作を探索することを可能にする。
私たちのアプローチの基盤は、長期的な短期的な世界モデルを構築することです。
これを実現するために,目標条件付ジャンピー状態遷移をシミュレートし,単一の画像内の特定の領域をズームインすることで,対応するアベイランスマップを計算する。
これにより、行動学習への直接的な長期的価値の統合が容易になる。
我々の手法は、MineDojoの最先端技術よりも大幅に改善されていることを示す。
関連論文リスト
- Learning World Models for Unconstrained Goal Navigation [4.549550797148707]
本研究では,世界モデル学習のための目標指向探索アルゴリズムであるMUNを紹介する。
MUNは、リプレイバッファ内の任意のサブゴール状態間の状態遷移をモデル化することができる。
その結果、MUNは世界モデルの信頼性を高め、政策の一般化能力を大幅に改善することを示した。
論文 参考訳(メタデータ) (2024-11-03T01:35:06Z) - ReCoRe: Regularized Contrastive Representation Learning of World Model [21.29132219042405]
対照的な教師なし学習と介入不変正規化器を用いて不変特徴を学習する世界モデルを提案する。
提案手法は,現状のモデルベースおよびモデルフリーのRL法より優れ,iGibsonベンチマークで評価された分布外ナビゲーションタスクを大幅に改善する。
論文 参考訳(メタデータ) (2023-12-14T15:53:07Z) - Hieros: Hierarchical Imagination on Structured State Space Sequence
World Models [4.922995343278039]
ヒエロス(Hieros)は、時間的抽象世界表現を学習し、潜在空間における複数の時間スケールでの軌跡を想像する階層的な政策である。
我々は,Atari 100kベンチマークにおいて,平均および中央値の正規化人間のスコアにおいて,この手法が技術状況より優れていることを示す。
論文 参考訳(メタデータ) (2023-10-08T13:52:40Z) - Generalizing Event-Based Motion Deblurring in Real-World Scenarios [62.995994797897424]
イベントベースの動作遅延は、低レイテンシイベントを活用することで、有望な結果を示している。
本研究では,フレキシブルな入力空間スケールを実現するとともに,時間スケールの異なる動きのぼかしから学習できるスケール対応ネットワークを提案する。
次に,実世界のデータ分布に適合する2段階の自己教師型学習手法を開発した。
論文 参考訳(メタデータ) (2023-08-11T04:27:29Z) - Self-supervised novel 2D view synthesis of large-scale scenes with
efficient multi-scale voxel carving [77.07589573960436]
実シーンの新たなビューを生成するために,効率的なマルチスケールのボクセル彫刻手法を提案する。
我々の最終的な高解像度出力は、ボクセル彫刻モジュールによって自動的に生成されるデータに基づいて効率よく自己学習される。
実環境における複雑で大規模なシーンにおける本手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-06-26T13:57:05Z) - DALG: Deep Attentive Local and Global Modeling for Image Retrieval [26.773211032906854]
本稿では,Transformerの成功に動機づけられた頑健な表現学習のための,完全な注意に基づくフレームワークを提案する。
グローバルな特徴抽出にTransformerを適用することに加えて、ウィンドウベースのマルチヘッドアテンションと空間アテンションからなるローカルブランチを考案する。
DALG(Deep Attentive Local and Global Modeling framework)では、大規模な実験結果により、効率が大幅に改善できることが示されている。
論文 参考訳(メタデータ) (2022-07-01T09:32:15Z) - Model-Based Reinforcement Learning via Latent-Space Collocation [110.04005442935828]
我々は、行動だけでなく、状態の順序を計画することで、長期的タスクの解決がより容易であると主張する。
我々は、学習された潜在状態空間モデルを利用して、画像に基づく設定に最適な制御文献における長い水平タスクに対する良い結果を示すコロケーションの概念を適応させる。
論文 参考訳(メタデータ) (2021-06-24T17:59:18Z) - Bridging Imagination and Reality for Model-Based Deep Reinforcement
Learning [72.18725551199842]
BrIdging Reality and Dream (BIRD) と呼ばれる新しいモデルに基づく強化学習アルゴリズムを提案する。
虚構と実軌跡の相互情報を最大化し、虚構から学んだ政策改善を実軌跡に容易に一般化できるようにする。
提案手法は, モデルベース計画のサンプル効率を向上し, 挑戦的なビジュアル制御ベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2020-10-23T03:22:01Z) - Learning Long-term Visual Dynamics with Region Proposal Interaction
Networks [75.06423516419862]
オブジェクト間およびオブジェクト環境間の相互作用を長距離にわたってキャプチャするオブジェクト表現を構築します。
単純だが効果的なオブジェクト表現のおかげで、我々の手法は先行手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2020-08-05T17:48:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。