論文の概要: Objects matter: object-centric world models improve reinforcement learning in visually complex environments
- arxiv url: http://arxiv.org/abs/2501.16443v1
- Date: Mon, 27 Jan 2025 19:07:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-29 16:42:16.093127
- Title: Objects matter: object-centric world models improve reinforcement learning in visually complex environments
- Title(参考訳): オブジェクトが重要: オブジェクト中心の世界モデルは、視覚的に複雑な環境で強化学習を改善する
- Authors: Weipu Zhang, Adam Jelley, Trevor McInroe, Amos Storkey,
- Abstract要約: 視覚的に複雑なゲームのためのオブジェクト中心強化学習パイプラインを提案する。
このパイプラインが,従来のモデルベース強化学習の限界を克服する方法について説明する。
- 参考スコア(独自算出の注目度): 2.2532647717990937
- License:
- Abstract: Deep reinforcement learning has achieved remarkable success in learning control policies from pixels across a wide range of tasks, yet its application remains hindered by low sample efficiency, requiring significantly more environment interactions than humans to reach comparable performance. Model-based reinforcement learning (MBRL) offers a solution by leveraging learnt world models to generate simulated experience, thereby improving sample efficiency. However, in visually complex environments, small or dynamic elements can be critical for decision-making. Yet, traditional MBRL methods in pixel-based environments typically rely on auto-encoding with an $L_2$ loss, which is dominated by large areas and often fails to capture decision-relevant details. To address these limitations, we propose an object-centric MBRL pipeline, which integrates recent advances in computer vision to allow agents to focus on key decision-related elements. Our approach consists of four main steps: (1) annotating key objects related to rewards and goals with segmentation masks, (2) extracting object features using a pre-trained, frozen foundation vision model, (3) incorporating these object features with the raw observations to predict environmental dynamics, and (4) training the policy using imagined trajectories generated by this object-centric world model. Building on the efficient MBRL algorithm STORM, we call this pipeline OC-STORM. We demonstrate OC-STORM's practical value in overcoming the limitations of conventional MBRL approaches on both Atari games and the visually complex game Hollow Knight.
- Abstract(参考訳): 深層強化学習は、幅広いタスクにわたるピクセルからの制御ポリシーの学習において顕著な成功を収めてきたが、その応用はサンプル効率の低下によって妨げられ、人間よりもはるかに多くの環境相互作用を必要としている。
モデルベース強化学習(MBRL)は、学習された世界モデルを利用してシミュレーション体験を生成し、サンプル効率を向上させるソリューションを提供する。
しかし、視覚的に複雑な環境では、小さな要素や動的要素が意思決定に重要である。
しかし、画素ベースの環境における従来のMBRL法は、通常、$L_2$の損失を持つオートエンコーディングに依存しており、これは大きな領域に支配され、しばしば決定に関連する詳細を捉えることに失敗する。
これらの制約に対処するために、エージェントが重要な決定関連要素に集中できるように、コンピュータビジョンの最近の進歩を統合するオブジェクト中心型MBRLパイプラインを提案する。
提案手法は,(1)報酬や目標をセグメンテーションマスクでアノテートすること,(2)事前学習した凍結基盤視覚モデルを用いて物体の特徴を抽出すること,(3)これらの特徴を環境動態を予測するために生観測に取り入れること,(4)このオブジェクト中心の世界モデルによって生成された想像的軌跡を用いて政策を訓練すること,の4つのステップから構成される。
効率的なMBRLアルゴリズムSTORMに基づいて、このパイプラインをOC-STORMと呼ぶ。
我々は,Atariゲームと視覚的に複雑なゲームHollow Knightの両方において,従来のMBRLアプローチの限界を克服する上で,OC-STORMの実用的価値を実証する。
関連論文リスト
- Exploring the limits of Hierarchical World Models in Reinforcement Learning [0.7499722271664147]
我々は,新しいHMBRLフレームワークを記述し,それを徹底的に評価する。
時間的抽象の様々なレベルで環境力学をシミュレートする階層的世界モデルを構築した。
ほとんどのゴール条件付き H(MB)RL アプローチとは異なり、これは相対的に低次元の抽象作用をもたらす。
論文 参考訳(メタデータ) (2024-06-01T16:29:03Z) - Learning Latent Dynamic Robust Representations for World Models [9.806852421730165]
Visual Model-Based Reinforcement Learning (MBL)は、環境の基盤となるダイナミクスに関する知識をエージェントに伝えることを約束する。
ドリーマーのような時空エージェントは、観測空間に無関係なノイズが存在する場合、しばしば視覚的なピクセルベースの入力に苦しむ。
本研究では,世界モデルにおけるタスク固有の環境の内在的側面を捉えるために,アテンポ的マスキング戦略と潜在的再構築を併用して適用する。
論文 参考訳(メタデータ) (2024-05-10T06:28:42Z) - Graphical Object-Centric Actor-Critic [55.2480439325792]
本稿では,アクター批判とモデルに基づくアプローチを組み合わせたオブジェクト中心強化学習アルゴリズムを提案する。
変換器エンコーダを用いてオブジェクト表現とグラフニューラルネットワークを抽出し、環境のダイナミクスを近似する。
本アルゴリズムは,現状のモデルフリーアクター批判アルゴリズムよりも複雑な3次元ロボット環境と構成構造をもつ2次元環境において,より優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-10-26T06:05:12Z) - HarmonyDream: Task Harmonization Inside World Models [93.07314830304193]
モデルベース強化学習(MBRL)は、サンプル効率の学習を約束する。
本稿では,タスク調和性を維持するために損失係数を自動的に調整する,シンプルで効果的なアプローチであるHarmonyDreamを提案する。
論文 参考訳(メタデータ) (2023-09-30T11:38:13Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Bridging the Gap to Real-World Object-Centric Learning [66.55867830853803]
自己教師付き方法で訓練されたモデルから特徴を再構成することは、完全に教師なしの方法でオブジェクト中心表現が生じるための十分な訓練信号であることを示す。
我々のアプローチであるDINOSAURは、シミュレーションデータ上で既存のオブジェクト中心学習モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2022-09-29T15:24:47Z) - Multitask Adaptation by Retrospective Exploration with Learned World
Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。
このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文 参考訳(メタデータ) (2021-10-25T20:02:57Z) - Model-Advantage Optimization for Model-Based Reinforcement Learning [41.13567626667456]
モデルに基づく強化学習(MBRL)アルゴリズムは、伝統的に環境の正確な力学を学習するために設計されてきた。
モデル学習を最大限に活用するためのモデル学習パラダイムであるバリューアウェアモデル学習は,学習ポリシーの価値関数を通じてモデル学習に通知することを提案する。
本稿では、2つのモデルにまたがるポリシーの絶対的な性能差の上限である新しい値認識目的を提案する。
論文 参考訳(メタデータ) (2021-06-26T20:01:28Z) - Reinforcement Learning for Sparse-Reward Object-Interaction Tasks in a
First-person Simulated 3D Environment [73.9469267445146]
高忠実な3Dシミュレーション環境において、AI2Thorのような一対一のオブジェクトインタラクションタスクは、強化学習エージェントに顕著なサンプル効率の課題をもたらす。
補助的なタスクとして注意的オブジェクトモデルを学ぶことで、監督なしに、ゼロからオブジェクトインタラクションタスクを学習できることが示される。
論文 参考訳(メタデータ) (2020-10-28T19:27:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。