論文の概要: Steadily Learn to Drive with Virtual Memory
- arxiv url: http://arxiv.org/abs/2102.08072v1
- Date: Tue, 16 Feb 2021 10:46:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-17 23:14:19.283588
- Title: Steadily Learn to Drive with Virtual Memory
- Title(参考訳): 仮想記憶で運転することを学ぶ
- Authors: Yuhang Zhang, Yao Mu, Yujie Yang, Yang Guan, Shengbo Eben Li, Qi Sun
and Jianyu Chen
- Abstract要約: 本稿では,この問題を解決するために,Learning to drive with Virtual Memory (LVM) というアルゴリズムを提案する。
LVMは、高次元情報をコンパクトな潜時状態に圧縮し、潜時ダイナミクスモデルを学び、エージェントの経験をまとめます。
LVMの有効性は、画像入力自律運転タスクによって実証される。
- 参考スコア(独自算出の注目度): 11.67256846037979
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning has shown great potential in developing high-level
autonomous driving. However, for high-dimensional tasks, current RL methods
suffer from low data efficiency and oscillation in the training process. This
paper proposes an algorithm called Learn to drive with Virtual Memory (LVM) to
overcome these problems. LVM compresses the high-dimensional information into
compact latent states and learns a latent dynamic model to summarize the
agent's experience. Various imagined latent trajectories are generated as
virtual memory by the latent dynamic model. The policy is learned by
propagating gradient through the learned latent model with the imagined latent
trajectories and thus leads to high data efficiency. Furthermore, a double
critic structure is designed to reduce the oscillation during the training
process. The effectiveness of LVM is demonstrated by an image-input autonomous
driving task, in which LVM outperforms the existing method in terms of data
efficiency, learning stability, and control performance.
- Abstract(参考訳): 強化学習は、高レベルの自動運転の開発に大きな可能性を示しています。
しかし、高次元のタスクでは、現在のRLメソッドは、トレーニングプロセスの低データ効率と振動に苦しんでいます。
本稿では,この問題を解決するために,Learning to drive with Virtual Memory (LVM) というアルゴリズムを提案する。
LVMは、高次元情報をコンパクトな潜時状態に圧縮し、潜時ダイナミクスモデルを学び、エージェントの経験をまとめます。
様々な想像上の潜在トラジェクタは、潜在動的モデルによって仮想メモリとして生成される。
この方針は、学習した潜在軌道モデルを通して勾配を伝播させることで学習され、高いデータ効率をもたらす。
さらに、トレーニング過程における振動を低減するために、二重批判構造を設計する。
LVMの有効性は画像入力による自律運転タスクによって実証され、LVMはデータ効率、学習安定性、制御性能において既存の手法よりも優れる。
関連論文リスト
- Simplified Temporal Consistency Reinforcement Learning [19.814047499837084]
本稿では,潜時整合性によって訓練された潜時力学モデルに依存する単純な表現学習手法が,高性能なRLには十分であることを示す。
提案手法は,モデルフリー手法を大きなマージンで上回り,モデルベース手法のサンプル効率を2.4倍高速にトレーニングしながら比較する。
論文 参考訳(メタデータ) (2023-06-15T19:37:43Z) - Accelerated Policy Learning with Parallel Differentiable Simulation [59.665651562534755]
微分可能シミュレータと新しいポリシー学習アルゴリズム(SHAC)を提案する。
本アルゴリズムは,スムーズな批判機能により局所最小化の問題を軽減する。
現状のRLと微分可能なシミュレーションベースアルゴリズムと比較して,サンプル効率と壁面時間を大幅に改善した。
論文 参考訳(メタデータ) (2022-04-14T17:46:26Z) - Gradient-Based Trajectory Optimization With Learned Dynamics [80.41791191022139]
データからシステムの微分可能なダイナミクスモデルを学習するために、機械学習技術を使用します。
ニューラルネットワークは、大規模な時間的地平線に対して、非常に非線形な振る舞いを正確にモデル化できることが示される。
ハードウェア実験において、学習したモデルがSpotとRadio- controlled (RC)の両方の複雑な力学を表現できることを実証した。
論文 参考訳(メタデータ) (2022-04-09T22:07:34Z) - Towards Scale Consistent Monocular Visual Odometry by Learning from the
Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。
まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。
結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文 参考訳(メタデータ) (2022-03-11T01:51:54Z) - DiffSRL: Learning Dynamic-aware State Representation for Deformable
Object Control with Differentiable Simulator [26.280021036447213]
ダイナミックス関連情報をキャプチャできる潜在空間は、モデルフリー強化学習の加速のような分野に広く応用されている。
微分可能シミュレーションを利用した動的状態表現学習パイプラインDiffSRLを提案する。
本モデルでは,長期的ダイナミクスと報奨予測の両面で優れた性能を示す。
論文 参考訳(メタデータ) (2021-10-24T04:53:58Z) - Efficient Robotic Manipulation Through Offline-to-Online Reinforcement
Learning and Goal-Aware State Information [5.604859261995801]
本稿では、遷移性能低下を解消するオフラインからオフラインまでの統一的なRLフレームワークを提案する。
目標認識状態情報をRLエージェントに導入することにより,タスクの複雑性を大幅に低減し,政策学習を加速することができる。
本フレームワークは,複数のロボット操作タスクにおける最先端手法と比較して,優れたトレーニング効率と性能を実現する。
論文 参考訳(メタデータ) (2021-10-21T05:34:25Z) - PlayVirtual: Augmenting Cycle-Consistent Virtual Trajectories for
Reinforcement Learning [84.30765628008207]
本稿では,RL特徴表現学習におけるデータ効率を向上させるために,サイクル一貫性のある仮想トラジェクトリを付加するPlayVirtualという新しい手法を提案する。
本手法は,両ベンチマークにおいて,最先端の手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2021-06-08T07:37:37Z) - Efficient Transformers in Reinforcement Learning using Actor-Learner
Distillation [91.05073136215886]
「Actor-Learner Distillation」は、大容量学習者モデルから小容量学習者モデルへ学習の進捗を移す。
Actor-Learner Distillation を用いて,トランスフォーマー学習モデルの明確なサンプル効率向上を再現する,いくつかの挑戦的なメモリ環境を実証する。
論文 参考訳(メタデータ) (2021-04-04T17:56:34Z) - Offline Reinforcement Learning from Images with Latent Space Models [60.69745540036375]
オフライン強化学習(RL)とは、環境相互作用の静的データセットからポリシーを学習する問題を指します。
オフラインRLのためのモデルベースアルゴリズムの最近の進歩の上に構築し、それらを高次元の視覚観測空間に拡張する。
提案手法は, 実測可能であり, 未知のPOMDPにおけるELBOの下限の最大化に対応している。
論文 参考訳(メタデータ) (2020-12-21T18:28:17Z) - Learning hierarchical behavior and motion planning for autonomous
driving [32.78069835190924]
本稿では,階層的行動計画(HBMP)を導入し,学習ベースソリューションの動作を明示的にモデル化する。
我々は、古典的なサンプリングベースのモーションプランナを統合することで、HBMP問題を変換する。
さらに,シミュレーションプラットフォームと実環境をまたいだ入力感覚データの共有可能な表現を提案する。
論文 参考訳(メタデータ) (2020-05-08T05:34:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。