論文の概要: Agent-Controller Representations: Principled Offline RL with Rich
Exogenous Information
- arxiv url: http://arxiv.org/abs/2211.00164v2
- Date: Mon, 14 Aug 2023 00:16:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-15 23:08:43.261942
- Title: Agent-Controller Representations: Principled Offline RL with Rich
Exogenous Information
- Title(参考訳): エージェント・コントローラ表現:リッチ外生情報を用いた原理的オフラインRL
- Authors: Riashat Islam, Manan Tomar, Alex Lamb, Yonathan Efroni, Hongyu Zang,
Aniket Didolkar, Dipendra Misra, Xin Li, Harm van Seijen, Remi Tachet des
Combes, John Langford
- Abstract要約: オフラインで収集したデータからエージェントを制御する学習は、実世界の強化学習(RL)の応用にとって不可欠である
本稿では,この問題を研究可能なオフラインRLベンチマークを提案する。
現代の表現学習技術は、ノイズが複雑で時間依存のプロセスであるデータセットで失敗する可能性がある。
- 参考スコア(独自算出の注目度): 49.06422815335159
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning to control an agent from data collected offline in a rich
pixel-based visual observation space is vital for real-world applications of
reinforcement learning (RL). A major challenge in this setting is the presence
of input information that is hard to model and irrelevant to controlling the
agent. This problem has been approached by the theoretical RL community through
the lens of exogenous information, i.e, any control-irrelevant information
contained in observations. For example, a robot navigating in busy streets
needs to ignore irrelevant information, such as other people walking in the
background, textures of objects, or birds in the sky. In this paper, we focus
on the setting with visually detailed exogenous information, and introduce new
offline RL benchmarks offering the ability to study this problem. We find that
contemporary representation learning techniques can fail on datasets where the
noise is a complex and time dependent process, which is prevalent in practical
applications. To address these, we propose to use multi-step inverse models,
which have seen a great deal of interest in the RL theory community, to learn
Agent-Controller Representations for Offline-RL (ACRO). Despite being simple
and requiring no reward, we show theoretically and empirically that the
representation created by this objective greatly outperforms baselines.
- Abstract(参考訳): リッチなピクセルベースの視覚観測空間においてオフラインで収集されたデータからエージェントを制御する学習は、強化学習(RL)の現実的な応用に不可欠である。
この設定における大きな課題は、エージェントの制御とは無関係でモデル化が難しい入力情報の存在である。
この問題は、外因性情報、すなわち観測に含まれる制御非関連情報のレンズを通して、理論的なRLコミュニティによってアプローチされてきた。
例えば、にぎやかな通りをナビゲートするロボットは、バックグラウンドで歩いている他の人、オブジェクトのテクスチャ、空にいる鳥など、無関係な情報を無視する必要があります。
本稿では,視覚的に詳細な外部情報を含む設定に着目し,この問題を解析可能な新しいオフラインrlベンチマークを提案する。
ノイズが複雑で時間依存のプロセスであるデータセットでは,現代表現学習手法が失敗する可能性がある。
そこで我々は,RL理論コミュニティに多大な関心を寄せている多段階逆モデルを用いて,Offline-RLのためのエージェント・コントローラ表現(ACRO)を学ぶことを提案する。
単純で報酬を必要としないにもかかわらず、この目的によって作成された表現がベースラインを大きく上回っていることを理論的および実証的に示す。
関連論文リスト
- An Examination of Offline-Trained Encoders in Vision-Based Deep Reinforcement Learning for Autonomous Driving [0.0]
部分観測可能なマルコフ決定過程(POMDP)における深層強化学習(DRL)の課題に関する研究
我々の研究は、オフラインで訓練されたエンコーダを用いて、自己教師付き学習を通じて大規模なビデオデータセットを活用し、一般化可能な表現を学習する。
CARLAシミュレータにおいて,BDD100Kの運転映像から得られた特徴を直接転送することで,車線追従や衝突回避を実現することができることを示す。
論文 参考訳(メタデータ) (2024-09-02T14:16:23Z) - D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning [99.33607114541861]
ロボット操作と移動環境の現実的なシミュレーションに焦点を当てたオフラインRLのための新しいベンチマークを提案する。
提案するベンチマークでは、状態ベースドメインと画像ベースドメインを対象とし、オフラインRLとオンライン微調整評価の両方をサポートしている。
論文 参考訳(メタデータ) (2024-08-15T22:27:00Z) - Efficient RL via Disentangled Environment and Agent Representations [40.114817446130935]
本稿では,その形状やマスクなどのエージェントの視覚的知識を用いて,RLアルゴリズムのそのような構造化表現を学習するためのアプローチを提案する。
提案手法は,5つのロボットにまたがる18種類の難解な視覚シミュレーション環境に対して,最先端のモデルフリーアプローチより優れることを示す。
論文 参考訳(メタデータ) (2023-09-05T17:59:45Z) - Representation Learning in Deep RL via Discrete Information Bottleneck [39.375822469572434]
本研究では,タスク非関連情報の存在下で,潜在状態を効率的に構築するために,情報のボトルネックを利用する方法について検討する。
本稿では,RepDIBとよばれる変動的および離散的な情報のボトルネックを利用して,構造化された因子化表現を学習するアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-12-28T14:38:12Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - INFOrmation Prioritization through EmPOWERment in Visual Model-Based RL [90.06845886194235]
モデルベース強化学習(RL)のための修正目的を提案する。
相互情報に基づく状態空間モデルに,変分エンパワーメントにインスパイアされた用語を統合する。
本研究は,視覚に基づくロボット制御作業における自然な映像背景を用いたアプローチの評価である。
論文 参考訳(メタデータ) (2022-04-18T23:09:23Z) - Exploratory State Representation Learning [63.942632088208505]
本稿では,XSRL(eXploratory State Representation Learning)と呼ばれる新しい手法を提案する。
一方、コンパクトな状態表現と、その表現から不可解な情報を除去するために使用される状態遷移推定器を共同で学習する。
一方、逆モデルを継続的に訓練し、このモデルの予測誤差に$k$-stepの学習促進ボーナスを加え、発見ポリシーの目的を形成する。
論文 参考訳(メタデータ) (2021-09-28T10:11:07Z) - Offline Reinforcement Learning from Images with Latent Space Models [60.69745540036375]
オフライン強化学習(RL)とは、環境相互作用の静的データセットからポリシーを学習する問題を指します。
オフラインRLのためのモデルベースアルゴリズムの最近の進歩の上に構築し、それらを高次元の視覚観測空間に拡張する。
提案手法は, 実測可能であり, 未知のPOMDPにおけるELBOの下限の最大化に対応している。
論文 参考訳(メタデータ) (2020-12-21T18:28:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。