論文の概要: Steadily Learn to Drive with Virtual Memory
- arxiv url: http://arxiv.org/abs/2102.08072v1
- Date: Tue, 16 Feb 2021 10:46:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-17 23:14:19.283588
- Title: Steadily Learn to Drive with Virtual Memory
- Title(参考訳): 仮想記憶で運転することを学ぶ
- Authors: Yuhang Zhang, Yao Mu, Yujie Yang, Yang Guan, Shengbo Eben Li, Qi Sun
and Jianyu Chen
- Abstract要約: 本稿では,この問題を解決するために,Learning to drive with Virtual Memory (LVM) というアルゴリズムを提案する。
LVMは、高次元情報をコンパクトな潜時状態に圧縮し、潜時ダイナミクスモデルを学び、エージェントの経験をまとめます。
LVMの有効性は、画像入力自律運転タスクによって実証される。
- 参考スコア(独自算出の注目度): 11.67256846037979
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning has shown great potential in developing high-level
autonomous driving. However, for high-dimensional tasks, current RL methods
suffer from low data efficiency and oscillation in the training process. This
paper proposes an algorithm called Learn to drive with Virtual Memory (LVM) to
overcome these problems. LVM compresses the high-dimensional information into
compact latent states and learns a latent dynamic model to summarize the
agent's experience. Various imagined latent trajectories are generated as
virtual memory by the latent dynamic model. The policy is learned by
propagating gradient through the learned latent model with the imagined latent
trajectories and thus leads to high data efficiency. Furthermore, a double
critic structure is designed to reduce the oscillation during the training
process. The effectiveness of LVM is demonstrated by an image-input autonomous
driving task, in which LVM outperforms the existing method in terms of data
efficiency, learning stability, and control performance.
- Abstract(参考訳): 強化学習は、高レベルの自動運転の開発に大きな可能性を示しています。
しかし、高次元のタスクでは、現在のRLメソッドは、トレーニングプロセスの低データ効率と振動に苦しんでいます。
本稿では,この問題を解決するために,Learning to drive with Virtual Memory (LVM) というアルゴリズムを提案する。
LVMは、高次元情報をコンパクトな潜時状態に圧縮し、潜時ダイナミクスモデルを学び、エージェントの経験をまとめます。
様々な想像上の潜在トラジェクタは、潜在動的モデルによって仮想メモリとして生成される。
この方針は、学習した潜在軌道モデルを通して勾配を伝播させることで学習され、高いデータ効率をもたらす。
さらに、トレーニング過程における振動を低減するために、二重批判構造を設計する。
LVMの有効性は画像入力による自律運転タスクによって実証され、LVMはデータ効率、学習安定性、制御性能において既存の手法よりも優れる。
関連論文リスト
- LeapVAD: A Leap in Autonomous Driving via Cognitive Perception and Dual-Process Thinking [13.898774643126174]
LeapVADは、運転決定に影響を及ぼす重要な交通要素を特定し、焦点を合わせるための人間中心のメカニズムを実装している。
システムは、論理的推論を通じて駆動経験を蓄積する分析プロセス(System-II)と、微調整と少数ショット学習によってこの知識を洗練するヒューリスティックプロセス(System-I)から構成される。
論文 参考訳(メタデータ) (2025-01-14T14:49:45Z) - Efficient Training of Large Vision Models via Advanced Automated Progressive Learning [96.71646528053651]
我々は、LVM(Large Vision Models)の効率的なトレーニングのための高度な自動プログレッシブラーニング(AutoProg)フレームワークを提案する。
我々はAutoProg-Zeroを導入し、新しいゼロショットフリーズスケジュールサーチによりAutoProgフレームワークを拡張した。
実験の結果、AutoProgはImageNetでViTの事前トレーニングを最大1.85倍加速し、拡散モデルの微調整を最大2.86倍加速する。
論文 参考訳(メタデータ) (2024-09-06T16:24:24Z) - Traffic expertise meets residual RL: Knowledge-informed model-based residual reinforcement learning for CAV trajectory control [1.5361702135159845]
本稿では,知識インフォームドモデルに基づく残留強化学習フレームワークを提案する。
交通専門家の知識を仮想環境モデルに統合し、基本力学にIntelligent Driver Model(IDM)、残留力学にニューラルネットワークを使用する。
本稿では,従来の制御手法を残差RLと組み合わせて,スクラッチから学習することなく,効率的な学習と政策最適化を容易にする新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-08-30T16:16:57Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - Gradient-Based Trajectory Optimization With Learned Dynamics [80.41791191022139]
データからシステムの微分可能なダイナミクスモデルを学習するために、機械学習技術を使用します。
ニューラルネットワークは、大規模な時間的地平線に対して、非常に非線形な振る舞いを正確にモデル化できることが示される。
ハードウェア実験において、学習したモデルがSpotとRadio- controlled (RC)の両方の複雑な力学を表現できることを実証した。
論文 参考訳(メタデータ) (2022-04-09T22:07:34Z) - Towards Scale Consistent Monocular Visual Odometry by Learning from the
Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。
まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。
結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文 参考訳(メタデータ) (2022-03-11T01:51:54Z) - PlayVirtual: Augmenting Cycle-Consistent Virtual Trajectories for
Reinforcement Learning [84.30765628008207]
本稿では,RL特徴表現学習におけるデータ効率を向上させるために,サイクル一貫性のある仮想トラジェクトリを付加するPlayVirtualという新しい手法を提案する。
本手法は,両ベンチマークにおいて,最先端の手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2021-06-08T07:37:37Z) - Efficient Transformers in Reinforcement Learning using Actor-Learner
Distillation [91.05073136215886]
「Actor-Learner Distillation」は、大容量学習者モデルから小容量学習者モデルへ学習の進捗を移す。
Actor-Learner Distillation を用いて,トランスフォーマー学習モデルの明確なサンプル効率向上を再現する,いくつかの挑戦的なメモリ環境を実証する。
論文 参考訳(メタデータ) (2021-04-04T17:56:34Z) - Learning hierarchical behavior and motion planning for autonomous
driving [32.78069835190924]
本稿では,階層的行動計画(HBMP)を導入し,学習ベースソリューションの動作を明示的にモデル化する。
我々は、古典的なサンプリングベースのモーションプランナを統合することで、HBMP問題を変換する。
さらに,シミュレーションプラットフォームと実環境をまたいだ入力感覚データの共有可能な表現を提案する。
論文 参考訳(メタデータ) (2020-05-08T05:34:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。