論文の概要: An Examination of Offline-Trained Encoders in Vision-Based Deep Reinforcement Learning for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2409.10554v1
- Date: Mon, 2 Sep 2024 14:16:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-22 21:22:31.427395
- Title: An Examination of Offline-Trained Encoders in Vision-Based Deep Reinforcement Learning for Autonomous Driving
- Title(参考訳): 自律運転のためのビジョンベース深部強化学習におけるオフライン学習エンコーダの検討
- Authors: Shawan Mohammed, Alp Argun, Nicolas Bonnotte, Gerd Ascheid,
- Abstract要約: 部分観測可能なマルコフ決定過程(POMDP)における深層強化学習(DRL)の課題に関する研究
我々の研究は、オフラインで訓練されたエンコーダを用いて、自己教師付き学習を通じて大規模なビデオデータセットを活用し、一般化可能な表現を学習する。
CARLAシミュレータにおいて,BDD100Kの運転映像から得られた特徴を直接転送することで,車線追従や衝突回避を実現することができることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Our research investigates the challenges Deep Reinforcement Learning (DRL) faces in complex, Partially Observable Markov Decision Processes (POMDP) such as autonomous driving (AD), and proposes a solution for vision-based navigation in these environments. Partial observability reduces RL performance significantly, and this can be mitigated by augmenting sensor information and data fusion to reflect a more Markovian environment. However, this necessitates an increasingly complex perception module, whose training via RL is complicated due to inherent limitations. As the neural network architecture becomes more complex, the reward function's effectiveness as an error signal diminishes since the only source of supervision is the reward, which is often noisy, sparse, and delayed. Task-irrelevant elements in images, such as the sky or certain objects, pose additional complexities. Our research adopts an offline-trained encoder to leverage large video datasets through self-supervised learning to learn generalizable representations. Then, we train a head network on top of these representations through DRL to learn to control an ego vehicle in the CARLA AD simulator. This study presents a broad investigation of the impact of different learning schemes for offline-training of encoders on the performance of DRL agents in challenging AD tasks. Furthermore, we show that the features learned by watching BDD100K driving videos can be directly transferred to achieve lane following and collision avoidance in CARLA simulator, in a zero-shot learning fashion. Finally, we explore the impact of various architectural decisions for the RL networks to utilize the transferred representations efficiently. Therefore, in this work, we introduce and validate an optimal way for obtaining suitable representations of the environment, and transferring them to RL networks.
- Abstract(参考訳): 本研究は、自律運転(AD)のような複雑な部分観測可能なマルコフ決定プロセス(POMDP)において、DRL(Deep Reinforcement Learning)が直面する課題について検討し、これらの環境における視覚に基づくナビゲーションのソリューションを提案する。
部分可観測性はRL性能を著しく低下させ、センサ情報とデータ融合を増強して、よりマルコフ的な環境を反映させることにより、これを緩和することができる。
しかし、これはより複雑な知覚モジュールを必要とし、RLによるトレーニングは固有の制限のために複雑である。
ニューラルネットワークアーキテクチャが複雑化するにつれて、報酬関数がエラー信号としての有効性は低下する。
空や特定の物体のようなイメージ内のタスク非関連要素は、さらなる複雑さを生じさせる。
我々の研究は、オフラインで訓練されたエンコーダを用いて、自己教師付き学習を通じて大規模なビデオデータセットを活用し、一般化可能な表現を学習する。
そして、DRLを通してこれらの表現の上にヘッドネットワークをトレーニングし、CARLA ADシミュレータでエゴ車両を制御することを学習する。
本研究では,エンコーダのオフライン学習における学習方法の違いが,AD課題におけるDRLエージェントの性能に及ぼす影響を広範囲に調査する。
さらに,CARLAシミュレータにおいて,BDD100Kの運転映像から得られた特徴を直接転送することで,車線追従や衝突回避をゼロショット学習方式で実現することを示す。
最後に、転送された表現を効率的に活用するためのRLネットワークに対する様々なアーキテクチャ決定の影響について検討する。
そこで本研究では,環境の適切な表現と,それらをRLネットワークに転送する最適な方法を紹介し,検証する。
関連論文リスト
- In-context Learning for Automated Driving Scenarios [15.325910109153616]
現在の強化学習(RL)ベースの自動運転(AD)エージェントにおける重要な課題の1つは、柔軟で正確で人間らしい振る舞いをコスト効率よく達成することである。
本稿では,LL報酬関数を人間中心で直感的かつ効果的に最適化するために,LLM(Large Language Models)を用いた革新的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-05-07T09:04:52Z) - M2CURL: Sample-Efficient Multimodal Reinforcement Learning via Self-Supervised Representation Learning for Robotic Manipulation [0.7564784873669823]
マルチモーダルコントラスト非教師強化学習(M2CURL)を提案する。
提案手法は,効率的な表現を学習し,RLアルゴリズムの高速収束に寄与する,新しいマルチモーダル自己教師学習技術を用いている。
Tactile Gym 2シミュレータ上でのM2CURLの評価を行い、異なる操作タスクにおける学習効率を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-01-30T14:09:35Z) - Privileged to Predicted: Towards Sensorimotor Reinforcement Learning for
Urban Driving [0.0]
強化学習(RL)は、専門家の監督を必要とせず、運転における人間のパフォーマンスを上回る可能性がある。
センサデータからの特権表現を近似するために,視覚に基づくディープラーニングモデルを提案する。
我々は、自動運転におけるRLにおける状態表現の重要性と、将来の研究における未解決課題の指摘に光を当てた。
論文 参考訳(メタデータ) (2023-09-18T13:34:41Z) - Accelerating exploration and representation learning with offline
pre-training [52.6912479800592]
1つのオフラインデータセットから2つの異なるモデルを別々に学習することで、探索と表現の学習を改善することができることを示す。
ノイズコントラスト推定と補助報酬モデルを用いて状態表現を学習することで、挑戦的なNetHackベンチマークのサンプル効率を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2023-03-31T18:03:30Z) - Agent-Controller Representations: Principled Offline RL with Rich
Exogenous Information [49.06422815335159]
オフラインで収集したデータからエージェントを制御する学習は、実世界の強化学習(RL)の応用にとって不可欠である
本稿では,この問題を研究可能なオフラインRLベンチマークを提案する。
現代の表現学習技術は、ノイズが複雑で時間依存のプロセスであるデータセットで失敗する可能性がある。
論文 参考訳(メタデータ) (2022-10-31T22:12:48Z) - Architecting and Visualizing Deep Reinforcement Learning Models [77.34726150561087]
深層強化学習(Deep Reinforcement Learning, DRL)は、コンピュータが相互にコミュニケーションする方法を教えることを目的とした理論である。
本稿では,新しいAtari Pongゲーム環境,ポリシーグラデーションに基づくDRLモデル,リアルタイムネットワーク可視化,そしてDRL推論の直観と認識を構築するためのインタラクティブディスプレイを提案する。
論文 参考訳(メタデータ) (2021-12-02T17:48:26Z) - Exploratory State Representation Learning [63.942632088208505]
本稿では,XSRL(eXploratory State Representation Learning)と呼ばれる新しい手法を提案する。
一方、コンパクトな状態表現と、その表現から不可解な情報を除去するために使用される状態遷移推定器を共同で学習する。
一方、逆モデルを継続的に訓練し、このモデルの予測誤差に$k$-stepの学習促進ボーナスを加え、発見ポリシーの目的を形成する。
論文 参考訳(メタデータ) (2021-09-28T10:11:07Z) - Offline Reinforcement Learning from Images with Latent Space Models [60.69745540036375]
オフライン強化学習(RL)とは、環境相互作用の静的データセットからポリシーを学習する問題を指します。
オフラインRLのためのモデルベースアルゴリズムの最近の進歩の上に構築し、それらを高次元の視覚観測空間に拡張する。
提案手法は, 実測可能であり, 未知のPOMDPにおけるELBOの下限の最大化に対応している。
論文 参考訳(メタデータ) (2020-12-21T18:28:17Z) - Deep Surrogate Q-Learning for Autonomous Driving [17.30342128504405]
本稿では,自律運転における車線変更行動学習のためのSurrogate Q-learningを提案する。
このアーキテクチャは、Scene-centric Experience Replayと呼ばれる新しいリプレイサンプリング技術に繋がることを示す。
また,本手法は実高Dデータセット上のポリシーを学習することで,実世界のRLシステムの適用性を向上させる。
論文 参考訳(メタデータ) (2020-10-21T19:49:06Z) - Decoupling Representation Learning from Reinforcement Learning [89.82834016009461]
Augmented Temporal Contrast (ATC) と呼ばれる教師なし学習タスクを導入する。
ATCは畳み込みエンコーダを訓練し、短い時間差で分離された観測ペアを関連付ける。
オンラインRL実験では,ATCマッチを用いたエンコーダのトレーニングや,エンド・ツー・エンドのRLよりも優れていた。
論文 参考訳(メタデータ) (2020-09-14T19:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。