論文の概要: INFOrmation Prioritization through EmPOWERment in Visual Model-Based RL
- arxiv url: http://arxiv.org/abs/2204.08585v1
- Date: Mon, 18 Apr 2022 23:09:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-21 01:23:02.385641
- Title: INFOrmation Prioritization through EmPOWERment in Visual Model-Based RL
- Title(参考訳): 視覚モデルベースRLにおけるエンプロファイリングによる作業優先化
- Authors: Homanga Bharadhwaj, Mohammad Babaeizadeh, Dumitru Erhan, Sergey Levine
- Abstract要約: モデルベース強化学習(RL)のための修正目的を提案する。
相互情報に基づく状態空間モデルに,変分エンパワーメントにインスパイアされた用語を統合する。
本研究は,視覚に基づくロボット制御作業における自然な映像背景を用いたアプローチの評価である。
- 参考スコア(独自算出の注目度): 90.06845886194235
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model-based reinforcement learning (RL) algorithms designed for handling
complex visual observations typically learn some sort of latent state
representation, either explicitly or implicitly. Standard methods of this sort
do not distinguish between functionally relevant aspects of the state and
irrelevant distractors, instead aiming to represent all available information
equally. We propose a modified objective for model-based RL that, in
combination with mutual information maximization, allows us to learn
representations and dynamics for visual model-based RL without reconstruction
in a way that explicitly prioritizes functionally relevant factors. The key
principle behind our design is to integrate a term inspired by variational
empowerment into a state-space model based on mutual information. This term
prioritizes information that is correlated with action, thus ensuring that
functionally relevant factors are captured first. Furthermore, the same
empowerment term also promotes faster exploration during the RL process,
especially for sparse-reward tasks where the reward signal is insufficient to
drive exploration in the early stages of learning. We evaluate the approach on
a suite of vision-based robot control tasks with natural video backgrounds, and
show that the proposed prioritized information objective outperforms
state-of-the-art model based RL approaches with higher sample efficiency and
episodic returns. https://sites.google.com/view/information-empowerment
- Abstract(参考訳): 複雑な視覚的観察を扱うために設計されたモデルベース強化学習(RL)アルゴリズムは、通常、明示的にも暗黙的にもある種の潜在状態表現を学ぶ。
この種の標準的な手法は、状態と無関係なイントラクタの機能的な側面を区別せず、全ての利用可能な情報を平等に表現することを目的としている。
本稿では、相互情報最大化と組み合わせて、視覚モデルに基づくRLの表現とダイナミクスを、機能的関連因子を明確に優先順位付けする方法で再構築することなく学習できるモデルベースRLの修正目的を提案する。
我々の設計の背後にある重要な原則は、相互情報に基づく状態空間モデルに変分エンパワーメントから着想を得た用語を統合することである。
この用語は行動と相関する情報を優先し、機能的関連因子が最初に捕捉されるようにする。
さらに、同じエンパワーメント用語は、特に学習の初期段階で探索を進めるのに報酬信号が不十分なスパースリワードタスクにおいて、rlプロセス中の迅速な探索を促進する。
提案手法は,自然映像を背景とした視覚ベースのロボット制御タスクのスイート上で評価し,提案手法が,サンプル効率とエピソジックリターンの高い最先端モデルに基づくrlアプローチよりも優れていることを示す。
https://sites.google.com/view/information-empowerment
関連論文リスト
- The Surprising Ineffectiveness of Pre-Trained Visual Representations for Model-Based Reinforcement Learning [8.36595587335589]
視覚強化学習法は、しばしば大量のデータを必要とする。
モデルベースRL(MBRL)は、プランニングによる効率的なデータ利用の潜在的なソリューションを提供する。
MBRLには現実世界のタスクの一般化機能が欠けている。
論文 参考訳(メタデータ) (2024-11-15T13:21:26Z) - Learning a model is paramount for sample efficiency in reinforcement
learning control of PDEs [5.488334211013093]
RLエージェントの訓練と並行して動作モデルを学ぶことで,実システムからサンプリングしたデータ量を大幅に削減できることを示す。
また、RLトレーニングのバイアスを避けるために、モデルを反復的に更新することが重要であることも示している。
論文 参考訳(メタデータ) (2023-02-14T16:14:39Z) - Representation Learning in Deep RL via Discrete Information Bottleneck [39.375822469572434]
本研究では,タスク非関連情報の存在下で,潜在状態を効率的に構築するために,情報のボトルネックを利用する方法について検討する。
本稿では,RepDIBとよばれる変動的および離散的な情報のボトルネックを利用して,構造化された因子化表現を学習するアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-12-28T14:38:12Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - Agent-Controller Representations: Principled Offline RL with Rich
Exogenous Information [49.06422815335159]
オフラインで収集したデータからエージェントを制御する学習は、実世界の強化学習(RL)の応用にとって不可欠である
本稿では,この問題を研究可能なオフラインRLベンチマークを提案する。
現代の表現学習技術は、ノイズが複雑で時間依存のプロセスであるデータセットで失敗する可能性がある。
論文 参考訳(メタデータ) (2022-10-31T22:12:48Z) - Simplifying Model-based RL: Learning Representations, Latent-space
Models, and Policies with One Objective [142.36200080384145]
自己整合性を維持しつつ高いリターンを達成するために,潜在空間モデルとポリシーを協調的に最適化する単一目的を提案する。
得られたアルゴリズムは, モデルベースおよびモデルフリーRL手法のサンプル効率に適合するか, 改善することを示した。
論文 参考訳(メタデータ) (2022-09-18T03:51:58Z) - Exploratory State Representation Learning [63.942632088208505]
本稿では,XSRL(eXploratory State Representation Learning)と呼ばれる新しい手法を提案する。
一方、コンパクトな状態表現と、その表現から不可解な情報を除去するために使用される状態遷移推定器を共同で学習する。
一方、逆モデルを継続的に訓練し、このモデルの予測誤差に$k$-stepの学習促進ボーナスを加え、発見ポリシーの目的を形成する。
論文 参考訳(メタデータ) (2021-09-28T10:11:07Z) - Offline Reinforcement Learning from Images with Latent Space Models [60.69745540036375]
オフライン強化学習(RL)とは、環境相互作用の静的データセットからポリシーを学習する問題を指します。
オフラインRLのためのモデルベースアルゴリズムの最近の進歩の上に構築し、それらを高次元の視覚観測空間に拡張する。
提案手法は, 実測可能であり, 未知のPOMDPにおけるELBOの下限の最大化に対応している。
論文 参考訳(メタデータ) (2020-12-21T18:28:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。