論文の概要: Robust Predictable Control
- arxiv url: http://arxiv.org/abs/2109.03214v1
- Date: Tue, 7 Sep 2021 17:29:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-08 15:25:24.503516
- Title: Robust Predictable Control
- Title(参考訳): ロバスト予測制御
- Authors: Benjamin Eysenbach, Ruslan Salakhutdinov and Sergey Levine
- Abstract要約: 提案手法は,従来の手法よりもはるかに厳密な圧縮を実現し,標準的な情報ボトルネックよりも最大5倍高い報酬が得られることを示す。
また,本手法はより堅牢で,新しいタスクをより一般化したポリシーを学習することを示す。
- 参考スコア(独自算出の注目度): 149.71263296079388
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many of the challenges facing today's reinforcement learning (RL) algorithms,
such as robustness, generalization, transfer, and computational efficiency are
closely related to compression. Prior work has convincingly argued why
minimizing information is useful in the supervised learning setting, but
standard RL algorithms lack an explicit mechanism for compression. The RL
setting is unique because (1) its sequential nature allows an agent to use past
information to avoid looking at future observations and (2) the agent can
optimize its behavior to prefer states where decision making requires few bits.
We take advantage of these properties to propose a method (RPC) for learning
simple policies. This method brings together ideas from information
bottlenecks, model-based RL, and bits-back coding into a simple and
theoretically-justified algorithm. Our method jointly optimizes a latent-space
model and policy to be self-consistent, such that the policy avoids states
where the model is inaccurate. We demonstrate that our method achieves much
tighter compression than prior methods, achieving up to 5x higher reward than a
standard information bottleneck. We also demonstrate that our method learns
policies that are more robust and generalize better to new tasks.
- Abstract(参考訳): 今日の強化学習(RL)アルゴリズムに直面する多くの課題、例えばロバストネス、一般化、転送、計算効率は、圧縮と密接に関連している。
以前の研究は、情報最小化が教師付き学習設定において有用である理由を説得力強く主張してきたが、標準rlアルゴリズムには圧縮の明確なメカニズムが欠けている。
RL の設定は,(1) エージェントが過去の情報を利用して将来の観測を回避できる点,(2) エージェントは意思決定に必要なビット数が少ない状態を好むように,その振る舞いを最適化できる点に特徴がある。
これらの特性を利用して、簡単なポリシーを学習するための方法(RPC)を提案する。
この手法は、情報ボトルネック、モデルベースのRL、ビットバックコーディングのアイデアをシンプルで理論的に最適化されたアルゴリズムにまとめる。
提案手法は,モデルが不正確な状態を避けるために,自己整合性を持つ潜在空間モデルとポリシーを協調的に最適化する。
本手法は,従来の手法よりも圧縮性が強く,標準情報ボトルネックよりも最大5倍高い報酬が得られることを示す。
また,本手法はより堅牢で,新しいタスクをより一般化したポリシーを学習することを示す。
関連論文リスト
- Iteratively Refined Behavior Regularization for Offline Reinforcement
Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。
行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。
D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-09T07:46:24Z) - Reinforcement Learning with Simple Sequence Priors [9.869634509510016]
圧縮可能な動作列でタスクを解くことを学習するRLアルゴリズムを提案する。
得られたRLアルゴリズムは学習を高速化し、最先端のモデルフリーアプローチよりも高いリターンが得られることを示す。
論文 参考訳(メタデータ) (2023-05-26T17:18:14Z) - Direct Preference-based Policy Optimization without Reward Modeling [25.230992130108767]
嗜好に基づく強化学習(PbRL)は、RLエージェントが嗜好から学習できるアプローチである。
報酬モデリングを必要とせずに好みから直接学習するPbRLアルゴリズムを提案する。
提案アルゴリズムは,地味な報奨情報を用いて学習するオフラインRL手法を超越することを示す。
論文 参考訳(メタデータ) (2023-01-30T12:51:13Z) - A Policy Efficient Reduction Approach to Convex Constrained Deep
Reinforcement Learning [2.811714058940267]
本稿では,最小基準点法(MNP)を一般化した条件勾配型アルゴリズムを提案する。
提案手法は,メモリコストを桁違いに削減し,その性能と効率を両立させる。
論文 参考訳(メタデータ) (2021-08-29T20:51:32Z) - An Information Theory-inspired Strategy for Automatic Network Pruning [88.51235160841377]
深層畳み込みニューラルネットワークは、リソース制約のあるデバイスで圧縮されることがよく知られている。
既存のネットワークプルーニング手法の多くは、人的努力と禁忌な計算資源を必要とする。
本稿では,自動モデル圧縮のための情報理論に基づく戦略を提案する。
論文 参考訳(メタデータ) (2021-08-19T07:03:22Z) - Online Sub-Sampling for Reinforcement Learning with General Function
Approximation [111.01990889581243]
本稿では,RLアルゴリズムによって収集されたデータポイントの情報取得量を測定する,効率的なオンラインサブサンプリングフレームワークを確立する。
複雑性バウンド関数クラスを持つ値ベースのメソッドの場合、$proptooperatornamepolylog(K)$ timesに対してのみポリシーを更新する必要がある。
少なくとも$Omega(K)$倍のポリシーを更新する既存のアプローチとは対照的に、当社のアプローチはポリシーの解決における最適化コールの数を劇的に削減します。
論文 参考訳(メタデータ) (2021-06-14T07:36:25Z) - Discovering Reinforcement Learning Algorithms [53.72358280495428]
強化学習アルゴリズムは、いくつかのルールの1つに従ってエージェントのパラメータを更新する。
本稿では,更新ルール全体を検出するメタラーニング手法を提案する。
これには、一連の環境と対話することで、"何を予測するか"(例えば、値関数)と"どのように学習するか"の両方が含まれている。
論文 参考訳(メタデータ) (2020-07-17T07:38:39Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。