論文の概要: Representation Learning in Deep RL via Discrete Information Bottleneck
- arxiv url: http://arxiv.org/abs/2212.13835v1
- Date: Wed, 28 Dec 2022 14:38:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-29 15:56:51.559121
- Title: Representation Learning in Deep RL via Discrete Information Bottleneck
- Title(参考訳): 離散情報ボトルネックによる深部RLの表現学習
- Authors: Riashat Islam, Hongyu Zang, Manan Tomar, Aniket Didolkar, Md Mofijul
Islam, Samin Yeasar Arnob, Tariq Iqbal, Xin Li, Anirudh Goyal, Nicolas Heess,
Alex Lamb
- Abstract要約: 本研究では,タスク非関連情報の存在下で,潜在状態を効率的に構築するために,情報のボトルネックを利用する方法について検討する。
本稿では,RepDIBとよばれる変動的および離散的な情報のボトルネックを利用して,構造化された因子化表現を学習するアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 39.375822469572434
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Several self-supervised representation learning methods have been proposed
for reinforcement learning (RL) with rich observations. For real-world
applications of RL, recovering underlying latent states is crucial,
particularly when sensory inputs contain irrelevant and exogenous information.
In this work, we study how information bottlenecks can be used to construct
latent states efficiently in the presence of task-irrelevant information. We
propose architectures that utilize variational and discrete information
bottlenecks, coined as RepDIB, to learn structured factorized representations.
Exploiting the expressiveness bought by factorized representations, we
introduce a simple, yet effective, bottleneck that can be integrated with any
existing self-supervised objective for RL. We demonstrate this across several
online and offline RL benchmarks, along with a real robot arm task, where we
find that compressed representations with RepDIB can lead to strong performance
improvements, as the learned bottlenecks help predict only the relevant state
while ignoring irrelevant information.
- Abstract(参考訳): 強化学習(RL)のための自己教師付き表現学習法がいくつか提案されている。
RLの実際の応用においては、特に知覚入力が無関係で外生的な情報を含む場合、下層の潜伏状態の回復が重要である。
本研究では,タスク関連情報の存在下で,遅延状態の効率的な構築に情報ボトルネックを用いる方法について検討する。
本稿では,構造的因子化表現を学習するために,変動的および離散的情報ボトルネックをrepdibとして用いたアーキテクチャを提案する。
因子化表現によって購入された表現性をエクスプロイトし、RLの既存の自己監督対象と統合可能な、単純かつ効果的でボトルネックを導入する。
我々は、オンラインおよびオフラインのrlベンチマークと実際のロボットアームタスクでこれを実証し、repdibによる圧縮表現は、無関係な情報を無視しながら関連する状態のみを予測するのに役立つため、強力なパフォーマンス改善につながることを見出します。
関連論文リスト
- DEAR: Disentangled Environment and Agent Representations for Reinforcement Learning without Reconstruction [4.813546138483559]
強化学習(RL)アルゴリズムは視覚的な観察からロボット制御タスクを学習することができるが、大量のデータを必要とすることが多い。
本稿では,その形状に関するエージェントの知識が,視覚的RL法のサンプル効率を向上させる方法について検討する。
本稿では,エージェントのセグメンテーションマスクを監督対象とする,分散環境とエージェント表現という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-06-30T09:15:21Z) - Accelerating exploration and representation learning with offline
pre-training [52.6912479800592]
1つのオフラインデータセットから2つの異なるモデルを別々に学習することで、探索と表現の学習を改善することができることを示す。
ノイズコントラスト推定と補助報酬モデルを用いて状態表現を学習することで、挑戦的なNetHackベンチマークのサンプル効率を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2023-03-31T18:03:30Z) - Agent-Controller Representations: Principled Offline RL with Rich
Exogenous Information [49.06422815335159]
オフラインで収集したデータからエージェントを制御する学習は、実世界の強化学習(RL)の応用にとって不可欠である
本稿では,この問題を研究可能なオフラインRLベンチマークを提案する。
現代の表現学習技術は、ノイズが複雑で時間依存のプロセスであるデータセットで失敗する可能性がある。
論文 参考訳(メタデータ) (2022-10-31T22:12:48Z) - Efficient entity-based reinforcement learning [3.867363075280544]
本稿では,集合表現の最近の進歩とスロットアテンションとグラフニューラルネットワークを組み合わせて構造化データを処理することを提案する。
トレーニング時間とロバスト性を大幅に改善できることを示し、構造化されたドメインと純粋に視覚的なドメインを扱う可能性を示す。
論文 参考訳(メタデータ) (2022-06-06T19:02:39Z) - INFOrmation Prioritization through EmPOWERment in Visual Model-Based RL [90.06845886194235]
モデルベース強化学習(RL)のための修正目的を提案する。
相互情報に基づく状態空間モデルに,変分エンパワーメントにインスパイアされた用語を統合する。
本研究は,視覚に基づくロボット制御作業における自然な映像背景を用いたアプローチの評価である。
論文 参考訳(メタデータ) (2022-04-18T23:09:23Z) - Learning Temporally-Consistent Representations for Data-Efficient
Reinforcement Learning [3.308743964406687]
$k$-Step Latent (KSL) は表現の時間的一貫性を強制する表現学習法である。
KSLはトレーニング中に見つからない新しいタスクを一般化するエンコーダを生成する。
論文 参考訳(メタデータ) (2021-10-11T00:16:43Z) - Reinforcement Learning with Prototypical Representations [114.35801511501639]
Proto-RLは、プロトタイプ表現を通じて表現学習と探索を結び付ける自己監督型フレームワークである。
これらのプロトタイプは、エージェントの探索経験の要約と同時に、観察を表す基盤としても機能する。
これにより、困難な連続制御タスクのセットで最新の下流ポリシー学習が可能になります。
論文 参考訳(メタデータ) (2021-02-22T18:56:34Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。