論文の概要: PlayVirtual: Augmenting Cycle-Consistent Virtual Trajectories for
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2106.04152v1
- Date: Tue, 8 Jun 2021 07:37:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-09 15:46:42.940899
- Title: PlayVirtual: Augmenting Cycle-Consistent Virtual Trajectories for
Reinforcement Learning
- Title(参考訳): PlayVirtual:強化学習のためのサイクル一貫性仮想軌道の拡大
- Authors: Tao Yu, Cuiling Lan, Wenjun Zeng, Mingxiao Feng, Zhibo Chen
- Abstract要約: 本稿では,RL特徴表現学習におけるデータ効率を向上させるために,サイクル一貫性のある仮想トラジェクトリを付加するPlayVirtualという新しい手法を提案する。
本手法は,両ベンチマークにおいて,最先端の手法よりも高い性能を示す。
- 参考スコア(独自算出の注目度): 84.30765628008207
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning good feature representations is important for deep reinforcement
learning (RL). However, with limited experience, RL often suffers from data
inefficiency for training. For un-experienced or less-experienced trajectories
(i.e., state-action sequences), the lack of data limits the use of them for
better feature learning. In this work, we propose a novel method, dubbed
PlayVirtual, which augments cycle-consistent virtual trajectories to enhance
the data efficiency for RL feature representation learning. Specifically,
PlayVirtual predicts future states based on the current state and action by a
dynamics model and then predicts the previous states by a backward dynamics
model, which forms a trajectory cycle. Based on this, we augment the actions to
generate a large amount of virtual state-action trajectories. Being free of
groudtruth state supervision, we enforce a trajectory to meet the cycle
consistency constraint, which can significantly enhance the data efficiency. We
validate the effectiveness of our designs on the Atari and DeepMind Control
Suite benchmarks. Our method outperforms the current state-of-the-art methods
by a large margin on both benchmarks.
- Abstract(参考訳): 優れた特徴表現の学習は、深層強化学習(RL)において重要である。
しかし、経験が限られているため、RLはトレーニングのためのデータ非効率に悩まされることが多い。
未経験または未経験のトラジェクトリ(すなわち状態-作用シーケンス)では、データ不足は機能学習のためにそれらを使用することを制限する。
本稿では,rl特徴表現学習のためのデータ効率を向上させるために,サイクル一貫性のある仮想トラジェクタを拡張できるplayvirtualという新しい手法を提案する。
具体的には、playvirtualはダイナミクスモデルによって現在の状態と動作に基づいて将来の状態を予測し、軌道サイクルを形成する後方ダイナミクスモデルによって前の状態を予測する。
これに基づいて、動作を増強し、大量の仮想状態-動作軌跡を生成する。
状態監視が不要なため、サイクル一貫性の制約を満たすための軌道を強制し、データ効率を大幅に向上させる。
我々は,AtariおよびDeepMind Control Suiteベンチマークにおける設計の有効性を検証する。
本手法は,両ベンチマークにおいて,最先端の手法よりも高い性能を示す。
関連論文リスト
- Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Reasoning with Latent Diffusion in Offline Reinforcement Learning [11.349356866928547]
オフラインの強化学習は、静的データセットからハイリワードポリシーを学ぶ手段として、約束を守る。
オフラインRLの主な課題は、静的データセットから最適な軌道の部分を効果的に縫合することにある。
本稿では,潜在拡散の表現性を利用して,非支持軌道列を圧縮された潜在スキルとしてモデル化する手法を提案する。
論文 参考訳(メタデータ) (2023-09-12T20:58:21Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - MSTFormer: Motion Inspired Spatial-temporal Transformer with
Dynamic-aware Attention for long-term Vessel Trajectory Prediction [0.6451914896767135]
MSTFormer は Transformer に基づく動きインスパイアされた容器軌道予測手法である。
軌道の空間的特徴と運動特徴を記述するためのデータ拡張手法を提案する。
第2に,頻繁な動き変換を伴う軌道点に着目したマルチヘッド動的自己認識機構を提案する。
第三に、モデルの性能をさらに向上させるために、知識にインスパイアされた損失関数を構築する。
論文 参考訳(メタデータ) (2023-03-21T02:11:37Z) - Knowing the Past to Predict the Future: Reinforcement Virtual Learning [29.47688292868217]
近年,強化学習(RL)に基づく制御システムが注目されている。
本稿では,RLモデルが仮想空間内で自分自身で進化できるような,コスト効率のよいフレームワークを提案する。
提案フレームワークは、ステップバイステップのRLモデルにより、将来の状態を予測し、長期的意思決定のための最適なアクションを選択することができる。
論文 参考訳(メタデータ) (2022-11-02T16:48:14Z) - Value-Consistent Representation Learning for Data-Efficient
Reinforcement Learning [105.70602423944148]
本稿では,意思決定に直接関連のある表現を学習するための,VCR(Value-Consistent Expression Learning)という新しい手法を提案する。
この想像された状態と環境によって返される実状態とを一致させる代わりに、VCRは両方の状態に$Q$-valueヘッドを適用し、2つのアクション値の分布を得る。
検索不要なRLアルゴリズムに対して,提案手法が新たな最先端性能を実現することが実証された。
論文 参考訳(メタデータ) (2022-06-25T03:02:25Z) - TRAIL: Near-Optimal Imitation Learning with Suboptimal Data [100.83688818427915]
オフラインデータセットを使用してファクタードトランジションモデルを学習するトレーニング目標を提案する。
我々の理論的分析は、学習された潜在行動空間が下流模倣学習のサンプル効率を高めることを示唆している。
実際に潜伏行動空間を学習するために、エネルギーベースの遷移モデルを学ぶアルゴリズムTRAIL(Transition-Reparametrized Actions for Imitation Learning)を提案する。
論文 参考訳(メタデータ) (2021-10-27T21:05:00Z) - Steadily Learn to Drive with Virtual Memory [11.67256846037979]
本稿では,この問題を解決するために,Learning to drive with Virtual Memory (LVM) というアルゴリズムを提案する。
LVMは、高次元情報をコンパクトな潜時状態に圧縮し、潜時ダイナミクスモデルを学び、エージェントの経験をまとめます。
LVMの有効性は、画像入力自律運転タスクによって実証される。
論文 参考訳(メタデータ) (2021-02-16T10:46:52Z) - Offline Reinforcement Learning from Images with Latent Space Models [60.69745540036375]
オフライン強化学習(RL)とは、環境相互作用の静的データセットからポリシーを学習する問題を指します。
オフラインRLのためのモデルベースアルゴリズムの最近の進歩の上に構築し、それらを高次元の視覚観測空間に拡張する。
提案手法は, 実測可能であり, 未知のPOMDPにおけるELBOの下限の最大化に対応している。
論文 参考訳(メタデータ) (2020-12-21T18:28:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。