論文の概要: Value-Consistent Representation Learning for Data-Efficient
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2206.12542v1
- Date: Sat, 25 Jun 2022 03:02:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-28 15:32:29.571834
- Title: Value-Consistent Representation Learning for Data-Efficient
Reinforcement Learning
- Title(参考訳): データ効率強化学習のための価値一貫性表現学習
- Authors: Yang Yue, Bingyi Kang, Zhongwen Xu, Gao Huang, Shuicheng Yan
- Abstract要約: 本稿では,意思決定に直接関連のある表現を学習するための,VCR(Value-Consistent Expression Learning)という新しい手法を提案する。
この想像された状態と環境によって返される実状態とを一致させる代わりに、VCRは両方の状態に$Q$-valueヘッドを適用し、2つのアクション値の分布を得る。
検索不要なRLアルゴリズムに対して,提案手法が新たな最先端性能を実現することが実証された。
- 参考スコア(独自算出の注目度): 105.70602423944148
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning (RL) algorithms suffer severe performance
degradation when the interaction data is scarce, which limits their real-world
application. Recently, visual representation learning has been shown to be
effective and promising for boosting sample efficiency in RL. These methods
usually rely on contrastive learning and data augmentation to train a
transition model for state prediction, which is different from how the model is
used in RL--performing value-based planning. Accordingly, the learned model may
not be able to align well with the environment and generate consistent value
predictions, especially when the state transition is not deterministic. To
address this issue, we propose a novel method, called value-consistent
representation learning (VCR), to learn representations that are directly
related to decision-making. More specifically, VCR trains a model to predict
the future state (also referred to as the ''imagined state'') based on the
current one and a sequence of actions. Instead of aligning this imagined state
with a real state returned by the environment, VCR applies a $Q$-value head on
both states and obtains two distributions of action values. Then a distance is
computed and minimized to force the imagined state to produce a similar action
value prediction as that by the real state. We develop two implementations of
the above idea for the discrete and continuous action spaces respectively. We
conduct experiments on Atari 100K and DeepMind Control Suite benchmarks to
validate their effectiveness for improving sample efficiency. It has been
demonstrated that our methods achieve new state-of-the-art performance for
search-free RL algorithms.
- Abstract(参考訳): ディープ強化学習(英語版) (RL) アルゴリズムは、相互作用データが乏しく、実際の応用が制限される場合、厳しい性能劣化を被る。
近年, 画像表現学習は, rlにおけるサンプル効率の向上に有効かつ有望であることが示されている。
これらの手法は通常、状態予測のための遷移モデルをトレーニングするために、対照的な学習とデータ拡張に依存します。
したがって、学習したモデルは環境とうまく一致せず、特に状態遷移が決定論的でない場合、一貫した値予測を生成することができる。
そこで本研究では,意思決定に直接関連する表現を学習するための,VCR(Value-Consistent Expression Learning)という新しい手法を提案する。
より具体的には、VCRは現在の状態と一連のアクションに基づいて将来の状態(「想像状態」とも呼ばれる)を予測するモデルを訓練する。
この想像された状態と環境によって返される実状態とを一致させる代わりに、VCRは両方の状態に$Q$-valueヘッドを適用し、2つのアクション値の分布を得る。
そして、距離を計算して最小化し、想像された状態に実際の状態と同じようなアクション値の予測を強制する。
離散的および連続的な作用空間に対する上記のアイデアの2つの実装をそれぞれ開発する。
atari 100k と deepmind control suite ベンチマークを用いて実験を行い,サンプル効率の向上効果を検証した。
検索不要なRLアルゴリズムに対して,提案手法が新たな最先端性能を実現することが実証された。
関連論文リスト
- MOOSS: Mask-Enhanced Temporal Contrastive Learning for Smooth State Evolution in Visual Reinforcement Learning [8.61492882526007]
視覚的強化学習(RL)では、ピクセルベースの観察から学ぶことは、サンプル効率に大きな課題をもたらす。
グラフベースの時空間マスキングの助けを借りて時間的コントラストの目的を生かした新しいフレームワークMOOSSを紹介する。
複数の連続的および離散的な制御ベンチマークにおいて、MOOSSはサンプル効率の観点から従来の最先端の視覚的RL法よりも優れていたことを示す。
論文 参考訳(メタデータ) (2024-09-02T18:57:53Z) - DualView: Data Attribution from the Dual Perspective [16.083769847895336]
代理モデルに基づくポストホックデータ属性の新しい手法であるDualViewを提案する。
DualViewは、他の手法に比べて計算資源がかなり少ないのに対して、評価指標間では同等のパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-02-19T13:13:16Z) - Value function estimation using conditional diffusion models for control [62.27184818047923]
拡散値関数(DVF)と呼ばれる単純なアルゴリズムを提案する。
拡散モデルを用いて環境-ロボット相互作用の連成多段階モデルを学ぶ。
本稿では,DVFを用いて複数のコントローラの状態を効率よく把握する方法を示す。
論文 参考訳(メタデータ) (2023-06-09T18:40:55Z) - Model Predictive Control with Self-supervised Representation Learning [13.225264876433528]
本稿では,TD-MPCフレームワーク内での再構成機能の利用を提案する。
提案した損失項の追加は、状態ベースタスクと画像ベースタスクの両方のパフォーマンス改善につながる。
論文 参考訳(メタデータ) (2023-04-14T16:02:04Z) - Reinforcement Learning from Passive Data via Latent Intentions [86.4969514480008]
我々は、下流RLを加速する機能を学ぶために、受動的データが引き続き使用できることを示す。
我々のアプローチは、意図をモデル化することで受動的データから学習する。
実験では、クロス・エボディメント・ビデオデータやYouTubeビデオなど、さまざまな形式の受動的データから学習できることを実証した。
論文 参考訳(メタデータ) (2023-04-10T17:59:05Z) - Knowing the Past to Predict the Future: Reinforcement Virtual Learning [29.47688292868217]
近年,強化学習(RL)に基づく制御システムが注目されている。
本稿では,RLモデルが仮想空間内で自分自身で進化できるような,コスト効率のよいフレームワークを提案する。
提案フレームワークは、ステップバイステップのRLモデルにより、将来の状態を予測し、長期的意思決定のための最適なアクションを選択することができる。
論文 参考訳(メタデータ) (2022-11-02T16:48:14Z) - Visual processing in context of reinforcement learning [0.0]
この論文では、従来のRLアルゴリズムが使用するデータソースの異なるサブセットにアクセス可能な3つの異なる表現学習アルゴリズムを紹介している。
RL問題解決パイプラインに教師なし表現学習を含めれば、学習を高速化できると結論付けている。
論文 参考訳(メタデータ) (2022-08-26T09:30:51Z) - PlayVirtual: Augmenting Cycle-Consistent Virtual Trajectories for
Reinforcement Learning [84.30765628008207]
本稿では,RL特徴表現学習におけるデータ効率を向上させるために,サイクル一貫性のある仮想トラジェクトリを付加するPlayVirtualという新しい手法を提案する。
本手法は,両ベンチマークにおいて,最先端の手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2021-06-08T07:37:37Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Value-driven Hindsight Modelling [68.658900923595]
値推定は強化学習(RL)パラダイムの重要な構成要素である。
モデル学習は、観測系列に存在する豊富な遷移構造を利用することができるが、このアプローチは通常、報酬関数に敏感ではない。
この2つの極点の間に位置するRLにおける表現学習のアプローチを開発する。
これにより、タスクに直接関連し、値関数の学習を加速できる、抽出可能な予測ターゲットが提供される。
論文 参考訳(メタデータ) (2020-02-19T18:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。