論文の概要: InDRiVE: Intrinsic Disagreement based Reinforcement for Vehicle Exploration through Curiosity Driven Generalized World Model
- arxiv url: http://arxiv.org/abs/2503.05573v1
- Date: Fri, 07 Mar 2025 16:56:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-10 12:25:25.749042
- Title: InDRiVE: Intrinsic Disagreement based Reinforcement for Vehicle Exploration through Curiosity Driven Generalized World Model
- Title(参考訳): InDRiVE:好奇心駆動型一般化世界モデルによる自動車探索のための本質的分解に基づく強化
- Authors: Feeza Khan Khanzada, Jaerock Kwon,
- Abstract要約: 本稿では,InDRiVE(Intrinsic Disagreement based Reinforcement for Vehicle Exploration)をモデルベース強化学習フレームワークとして提案する。
エージェントは、世界モデルのアンサンブルを訓練することにより、タスク固有のフィードバックなしで、環境の不確実性の高い領域を積極的に探索する。
InDRiVEはDreamerV2やDreamerV3に比べて高い成功率と少ない屈折率を達成している。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Model-based Reinforcement Learning (MBRL) has emerged as a promising paradigm for autonomous driving, where data efficiency and robustness are critical. Yet, existing solutions often rely on carefully crafted, task specific extrinsic rewards, limiting generalization to new tasks or environments. In this paper, we propose InDRiVE (Intrinsic Disagreement based Reinforcement for Vehicle Exploration), a method that leverages purely intrinsic, disagreement based rewards within a Dreamer based MBRL framework. By training an ensemble of world models, the agent actively explores high uncertainty regions of environments without any task specific feedback. This approach yields a task agnostic latent representation, allowing for rapid zero shot or few shot fine tuning on downstream driving tasks such as lane following and collision avoidance. Experimental results in both seen and unseen environments demonstrate that InDRiVE achieves higher success rates and fewer infractions compared to DreamerV2 and DreamerV3 baselines despite using significantly fewer training steps. Our findings highlight the effectiveness of purely intrinsic exploration for learning robust vehicle control behaviors, paving the way for more scalable and adaptable autonomous driving systems.
- Abstract(参考訳): モデルに基づく強化学習(MBRL)は、データ効率とロバスト性が不可欠である自動運転のための有望なパラダイムとして登場した。
しかし、既存のソリューションは、しばしば、新しいタスクや環境への一般化を制限する、細心の注意を払って、タスク固有の不本意な報酬に頼っている。
本稿では,DreamerベースのMBRLフレームワークにおいて,本質的な不一致に基づく報酬を純粋に活用するInDRiVE(Intrinsic Disagreement based Reinforcement for Vehicle Exploration)を提案する。
エージェントは、世界モデルのアンサンブルを訓練することにより、タスク固有のフィードバックなしに、環境の不確実性の高い領域を積極的に探索する。
このアプローチによりタスク非依存の潜在表現が得られ、車線追従や衝突回避といった下流の駆動タスクにおいて、高速なゼロショットやショットファインチューニングが可能となる。
目に見える環境と目に見えない環境の両方の実験結果から、InDRiVEはトレーニングステップが大幅に少ないにもかかわらず、DreamerV2やDreamerV3に比べて高い成功率と低い屈折率を達成することが示された。
我々の研究は、よりスケーラブルで適応可能な自動運転システムを実現するために、ロバストな車両制御行動を学ぶために、純粋に本質的な探索の有効性を強調した。
関連論文リスト
- TeLL-Drive: Enhancing Autonomous Driving with Teacher LLM-Guided Deep Reinforcement Learning [61.33599727106222]
TeLL-Driveは、Teacher LLMを統合して、注意に基づく学生DRLポリシーをガイドするハイブリッドフレームワークである。
自己維持機構はDRLエージェントの探索とこれらの戦略を融合させ、政策収束を加速し、堅牢性を高める。
論文 参考訳(メタデータ) (2025-02-03T14:22:03Z) - Mitigating Covariate Shift in Imitation Learning for Autonomous Vehicles Using Latent Space Generative World Models [60.87795376541144]
World Model(ワールドモデル)は、エージェントの次の状態を予測できるニューラルネットワークである。
エンド・ツー・エンドのトレーニングでは、人間のデモで観察された状態と整合してエラーから回復する方法を学ぶ。
クローズドループ試験における先行技術に有意な改善がみられた定性的,定量的な結果を示す。
論文 参考訳(メタデータ) (2024-09-25T06:48:25Z) - LORD: Large Models based Opposite Reward Design for Autonomous Driving [11.717821043996352]
LORDは、望ましくない言語目標を通じて、対向的な報酬設計に基づく新しい大モデルである。
提案手法は,大規模な事前学習モデルのパワーを有効活用し,安全で高機能な自動運転を実現するための有効性を示す。
論文 参考訳(メタデータ) (2024-03-27T19:30:06Z) - Unsupervised Domain Adaptation for Self-Driving from Past Traversal
Features [69.47588461101925]
本研究では,新しい運転環境に3次元物体検出器を適応させる手法を提案する。
提案手法は,空間的量子化履歴特徴を用いたLiDARに基づく検出モデルを強化する。
実世界のデータセットの実験では、大幅な改善が示されている。
論文 参考訳(メタデータ) (2023-09-21T15:00:31Z) - ReMAV: Reward Modeling of Autonomous Vehicles for Finding Likely Failure
Events [1.84926694477846]
本稿では、まず、オフライン軌道を用いて、既存の自動運転車の挙動を分析するブラックボックステストフレームワークを提案する。
実験の結果,車両衝突,道路物体衝突,歩行者衝突,オフロードステアリング事故の発生率は35,23,48,50%増加した。
論文 参考訳(メタデータ) (2023-08-28T13:09:00Z) - Sense, Imagine, Act: Multimodal Perception Improves Model-Based
Reinforcement Learning for Head-to-Head Autonomous Racing [10.309579267966361]
モデルベース強化学習(MBRL)技術は、最近、現実の自律レースに有望な結果をもたらした。
本稿では,F1TENTH Gymから収集した自家中心型LiDARとRGBカメラ観測を組み合わせた自己教師型センサ融合手法を提案する。
その結果、ドリーマーのエージェントは衝突を安全に回避し、ゼロショット・ヘッド・ツー・ヘッド・オートレースでテストされた他のベースラインと比較すると、最も多くのレースに勝利した。
論文 参考訳(メタデータ) (2023-05-08T14:49:02Z) - Visual Exemplar Driven Task-Prompting for Unified Perception in
Autonomous Driving [100.3848723827869]
本稿では,タスク固有のプロンプトを通じて視覚的見本を提示する,効果的なマルチタスクフレームワークVE-Promptを提案する。
具体的には、境界ボックスと色に基づくマーカーに基づいて視覚的な例を生成し、ターゲットカテゴリの正確な視覚的外観を提供する。
我々は変圧器をベースとしたエンコーダと畳み込み層を橋渡しし、自律運転における効率的かつ正確な統合認識を実現する。
論文 参考訳(メタデータ) (2023-03-03T08:54:06Z) - CLUTR: Curriculum Learning via Unsupervised Task Representation Learning [130.79246770546413]
CLUTRは、タスク表現とカリキュラム学習を2段階最適化に分離する、新しいカリキュラム学習アルゴリズムである。
CLUTRは、CarRacingとナビゲーション環境における一般化とサンプル効率の観点から、原則的かつ一般的なUED手法であるPAIREDよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-19T01:45:29Z) - Online reinforcement learning with sparse rewards through an active
inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。
我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。
また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-06-04T10:03:36Z) - Reinforcement Learning for Robust Missile Autopilot Design [0.0]
この研究は、飛行制御のフレームワークとして強化学習を提案する先駆者である。
TRPOの手法では、収集されたエクスペリエンスはHERに従って拡張され、リプレイバッファに格納され、その重要性に応じてサンプリングされる。
その結果、最適な性能を達成し、不確実性に対するエージェントの堅牢性を改善することが可能であることがわかった。
論文 参考訳(メタデータ) (2020-11-26T09:30:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。