論文の概要: Predictive Information Accelerates Learning in RL
- arxiv url: http://arxiv.org/abs/2007.12401v2
- Date: Mon, 26 Oct 2020 00:27:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 05:54:04.815875
- Title: Predictive Information Accelerates Learning in RL
- Title(参考訳): 予測情報によるRL学習の促進
- Authors: Kuang-Huei Lee, Ian Fischer, Anthony Liu, Yijie Guo, Honglak Lee, John
Canny, Sergio Guadarrama
- Abstract要約: 我々は、RL環境力学の予測情報の圧縮表現を学習する補助タスクで、画素からSoft Actor-Critic(SAC)エージェントを訓練する。
PI-SACエージェントは、連続制御環境のDM制御スイートからタスクのベースラインに挑戦するよりも、サンプル効率を大幅に改善できることを示す。
- 参考スコア(独自算出の注目度): 50.52439807008805
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Predictive Information is the mutual information between the past and the
future, I(X_past; X_future). We hypothesize that capturing the predictive
information is useful in RL, since the ability to model what will happen next
is necessary for success on many tasks. To test our hypothesis, we train Soft
Actor-Critic (SAC) agents from pixels with an auxiliary task that learns a
compressed representation of the predictive information of the RL environment
dynamics using a contrastive version of the Conditional Entropy Bottleneck
(CEB) objective. We refer to these as Predictive Information SAC (PI-SAC)
agents. We show that PI-SAC agents can substantially improve sample efficiency
over challenging baselines on tasks from the DM Control suite of continuous
control environments. We evaluate PI-SAC agents by comparing against
uncompressed PI-SAC agents, other compressed and uncompressed agents, and SAC
agents directly trained from pixels. Our implementation is given on GitHub.
- Abstract(参考訳): 予測情報は、過去と未来の間の相互情報I(X_past; X_future)である。
予測情報を取得することはRLにおいて有用である、と仮定する。なぜなら、次に何が起こるかをモデル化する能力は、多くのタスクで成功するのに必要である。
本仮説をテストするために,条件付きエントロピーボトルネック(ceb)目標の対比版を用いて,rl環境ダイナミクスの予測情報の圧縮表現を学習する補助タスクを用いて,画素からソフトアクタ-クリティック(sac)エージェントを訓練する。
我々はこれらを予測情報SAC(PI-SAC)エージェントと呼ぶ。
PI-SACエージェントは、連続制御環境のDM制御スイートからタスクのベースラインに挑戦するよりも、サンプル効率を大幅に改善できることを示す。
我々は, PI-SAC エージェント, 他の圧縮・非圧縮剤, SAC エージェントを画素から直接訓練することにより, PI-SAC エージェントの評価を行った。
実装はGitHubで公開しています。
関連論文リスト
- RLSAC: Reinforcement Learning enhanced Sample Consensus for End-to-End
Robust Estimation [74.47709320443998]
RLSAC(Reinforcement Learning enhanced SAmple Consensus framework for end-to-end robust estimation)を提案する。
RLSACはグラフニューラルネットワークを用いて、データとメモリの特徴の両方を利用して探索方向を案内し、次の最小セットをサンプリングする。
実験の結果, RLSACは特徴から学習し, より優れた仮説を徐々に探求できることがわかった。
論文 参考訳(メタデータ) (2023-08-10T03:14:19Z) - Unsupervised Dense Retrieval with Relevance-Aware Contrastive
Pre-Training [81.3781338418574]
関連性を考慮したコントラスト学習を提案する。
我々は、BEIRおよびオープンドメインQA検索ベンチマークにおいて、SOTAアン教師なしコントリバーモデルを一貫して改善する。
本手法は, 目標コーパスの事前訓練後, BM25に打ち勝つだけでなく, 優れた数発学習者として機能する。
論文 参考訳(メタデータ) (2023-06-05T18:20:27Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Revisiting Discrete Soft Actor-Critic [42.88653969438699]
本稿では,最新技術強化学習(RL)アルゴリズムであるSoft Actor-Critic(SAC)の適応性について検討する。
エントロピーのペナルティとQクリップを用いたQ-ラーニングを両立させるアルゴリズムであるSDSAC(Stable Discrete SAC)を提案する。
論文 参考訳(メタデータ) (2022-09-21T03:01:36Z) - Frustratingly Easy Regularization on Representation Can Boost Deep
Reinforcement Learning [9.072416458330268]
そこで本研究では,$Q$-networkとその対象である$Q$-networkの学習表現が,理論上,良質な識別可能な表現特性を満たすことを実証する。
本稿では,内部表現の明示的正規化を通じて識別可能な表現特性を維持することを目的とした,表現の簡易正規化によるポリシー評価を提案する。
PEERはPyBulletの4つの環境での最先端のパフォーマンス、DMControlの12タスク中9、Atariの26ゲーム中19タスクを実現している。
論文 参考訳(メタデータ) (2022-05-29T02:29:32Z) - Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。
検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。
検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文 参考訳(メタデータ) (2022-02-17T02:44:05Z) - Improved Soft Actor-Critic: Mixing Prioritized Off-Policy Samples with
On-Policy Experience [9.06635747612495]
ソフト・アクター・クリティカル(Soft Actor-Critic, SAC)は、アクター・アクター・アクターの強化学習アルゴリズムである。
SACは、期待されるリターンとエントロピーの間のトレードオフを最大化することでポリシーを訓練する。
一連の連続制御ベンチマークタスクで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2021-09-24T06:46:28Z) - Robust Predictable Control [149.71263296079388]
提案手法は,従来の手法よりもはるかに厳密な圧縮を実現し,標準的な情報ボトルネックよりも最大5倍高い報酬が得られることを示す。
また,本手法はより堅牢で,新しいタスクをより一般化したポリシーを学習することを示す。
論文 参考訳(メタデータ) (2021-09-07T17:29:34Z) - Automatic Data Augmentation for Generalization in Deep Reinforcement
Learning [39.477038093585726]
深層強化学習(RL)エージェントは、しばしば目に見えないシナリオへの一般化に失敗する。
近年,RL剤の試料効率と一般化が向上することが示されている。
エージェントはエージェントに影響を与えない環境の変化に対してより堅牢なポリシーや表現を学ぶ。
論文 参考訳(メタデータ) (2020-06-23T09:50:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。