論文の概要: Prompt-Driven Domain Adaptation for End-to-End Autonomous Driving via In-Context RL
- arxiv url: http://arxiv.org/abs/2511.12755v1
- Date: Sun, 16 Nov 2025 19:46:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.52167
- Title: Prompt-Driven Domain Adaptation for End-to-End Autonomous Driving via In-Context RL
- Title(参考訳): In-Context RLを用いたエンドツーエンド自律運転のためのプロンプト駆動型ドメイン適応
- Authors: Aleesha Khurram, Amir Moeini, Shangtong Zhang, Rohan Chandra,
- Abstract要約: 本研究では,悪天候下でのクローズドループ自律運転における推論時数発のプロンプト駆動DAに対する新しいアプローチを提案する。
他のプロンプト駆動型DA法と同様に、我々の手法はモデルパラメータの更新を一切必要とせず、また敵の気象条件下で追加のデータ収集も必要としない。
- 参考スコア(独自算出の注目度): 18.773722484772925
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite significant progress and advances in autonomous driving, many end-to-end systems still struggle with domain adaptation (DA), such as transferring a policy trained under clear weather to adverse weather conditions. Typical DA strategies in the literature include collecting additional data in the target domain or re-training the model, or both. Both these strategies quickly become impractical as we increase scale and complexity of driving. These limitations have encouraged investigation into few-shot and zero-shot prompt-driven DA at inference time involving LLMs and VLMs. These methods work by adding a few state-action trajectories during inference to the prompt (similar to in-context learning). However, there are two limitations of such an approach: $(i)$ prompt-driven DA methods are currently restricted to perception tasks such as detection and segmentation and $(ii)$ they require expert few-shot data. In this work, we present a new approach to inference-time few-shot prompt-driven DA for closed-loop autonomous driving in adverse weather condition using in-context reinforcement learning (ICRL). Similar to other prompt-driven DA methods, our approach does not require any updates to the model parameters nor does it require additional data collection in adversarial weather regime. Furthermore, our approach advances the state-of-the-art in prompt-driven DA by extending to closed driving using general trajectories observed during inference. Our experiments using the CARLA simulator show that ICRL results in safer, more efficient, and more comfortable driving policies in the target domain compared to state-of-the-art prompt-driven DA baselines.
- Abstract(参考訳): 自律運転の進歩や進歩にもかかわらず、多くのエンド・ツー・エンドシステムは、晴れた天候下で訓練された政策を悪天候に移行させるなど、ドメイン適応(DA)に苦戦している。
文献における典型的なDA戦略には、ターゲットドメインで追加のデータ収集やモデルの再トレーニング、あるいはその両方が含まれる。
これら2つの戦略は、スケールと運転の複雑さを増大させるにつれて、急速に非現実的になります。
これらの制限は、LLMとVLMを含む推論時に、少数ショットおよびゼロショットのプロンプト駆動DAの調査を奨励している。
これらの手法は、インプロンプト(文脈内学習に類似した)に推論中にいくつかの状態行動軌跡を追加することで機能する。
しかし、そのようなアプローチには2つの制限がある。
(i)$ prompt-driven DAメソッドは、現在、検出やセグメンテーションなどの認識タスクに制限されている。
(ii) 専門的な数ショットデータが必要な場合。
そこで本研究では,ICRL(In-context reinforcement learning)を用いて,悪天候下でのクローズドループ自動運転のための推論時数発のプロンプト駆動DAを提案する。
他のプロンプト駆動型DA法と同様に、我々の手法はモデルパラメータの更新を一切必要とせず、また敵の気象条件下で追加のデータ収集も必要としない。
さらに,本手法は,推論中に観測される一般軌跡を用いて閉運転に拡張することで,プロンプト駆動型DAの最先端化を推し進める。
CARLAシミュレーターを用いた実験により、ICRLは最先端のプロンプト駆動DAベースラインと比較して、目標領域における安全で、より効率的で、より快適な運転ポリシーをもたらすことが示された。
関連論文リスト
- DRL-TH: Jointly Utilizing Temporal Graph Attention and Hierarchical Fusion for UGV Navigation in Crowded Environments [14.013570114274133]
本稿では,DRLに基づくナビゲーションフレームワークDRL-THを提案する。
本稿では,時間重みをアテンションスコアに組み込んだ時間誘導グラフアテンションネットワーク(TG-GAT)を導入し,連続フレーム間の相関関係を捉える。
さらに,RGBとLiDAR機能を動的に統合するために,階層プールと学習可能な重み付き融合を適用したグラフ階層抽象モジュール(GHAM)を設計する。
論文 参考訳(メタデータ) (2025-12-30T15:17:07Z) - Model-Based Policy Adaptation for Closed-Loop End-to-End Autonomous Driving [54.46325690390831]
本稿では,事前学習したE2E運転エージェントのロバスト性と安全性を高めるための汎用フレームワークとして,モデルベースポリシー適応(MPA)を提案する。
MPAは、ジオメトリ一貫性のあるシミュレーションエンジンを用いて、まず様々な対物軌道を生成する。
MPAは拡散ベースのポリシーアダプタを訓練し、基本方針の予測を洗練させ、Q値モデルを多段階に分けて長期的な結果を評価する。
論文 参考訳(メタデータ) (2025-11-26T17:01:41Z) - RAD: Training an End-to-End Driving Policy via Large-Scale 3DGS-based Reinforcement Learning [54.52545900359868]
3DGSをベースとしたエンドツーエンド自動運転のためのクローズドループ強化学習フレームワークRADを提案する。
安全性を高めるため、我々は、安全クリティカルな事象に効果的に対応し、現実世界の因果関係を理解するために、政策の指針となる特別報酬を設計する。
IL法と比較して、RADは閉ループのほとんどの測定値において、特に3倍の衝突速度を示す。
論文 参考訳(メタデータ) (2025-02-18T18:59:21Z) - TeLL-Drive: Enhancing Autonomous Driving with Teacher LLM-Guided Deep Reinforcement Learning [61.33599727106222]
TeLL-Driveは、Teacher LLMを統合して、注意に基づく学生DRLポリシーをガイドするハイブリッドフレームワークである。
自己維持機構はDRLエージェントの探索とこれらの戦略を融合させ、政策収束を加速し、堅牢性を高める。
論文 参考訳(メタデータ) (2025-02-03T14:22:03Z) - From Imitation to Exploration: End-to-end Autonomous Driving based on World Model [24.578178308010912]
RAMBLEは、意思決定を駆動するエンド・ツー・エンドの世界モデルベースのRL方式である。
複雑な動的トラフィックシナリオを処理できる。
CARLA Leaderboard 1.0では、ルート完了率の最先端のパフォーマンスを達成し、CARLA Leaderboard 2.0では38のシナリオをすべて完了している。
論文 参考訳(メタデータ) (2024-10-03T06:45:59Z) - Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [57.278726604424556]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - Demystifying the Physics of Deep Reinforcement Learning-Based Autonomous Vehicle Decision-Making [6.243971093896272]
本稿では,ベースラインモデルとしてポリシー最適化に基づくDRLアルゴリズムを用い,オープンソースのAVシミュレーション環境にマルチヘッドアテンションフレームワークを付加する。
第1頭部の重みは隣接する車両の位置を符号化し、第2頭部は先頭車両のみに焦点を当てている。
論文 参考訳(メタデータ) (2024-03-18T02:59:13Z) - Let Offline RL Flow: Training Conservative Agents in the Latent Space of
Normalizing Flows [58.762959061522736]
オフライン強化学習は、追加の環境相互作用なしに、事前に記録された、固定されたデータセット上でポリシーをトレーニングすることを目的としている。
我々は、最近、潜在行動空間における学習ポリシーを基礎として、生成モデルの構築に正規化フローの特別な形式を用いる。
提案手法が最近提案したアルゴリズムより優れていることを示すため,様々な移動タスクとナビゲーションタスクについて評価を行った。
論文 参考訳(メタデータ) (2022-11-20T21:57:10Z) - Learning Interactive Driving Policies via Data-driven Simulation [125.97811179463542]
データ駆動シミュレータは、ポリシー学習の駆動に高いデータ効率を約束する。
小さな基盤となるデータセットは、インタラクティブな運転を学ぶための興味深い、挑戦的なエッジケースを欠いていることが多い。
本研究では,ロバストな運転方針の学習に塗装されたアドカーを用いたシミュレーション手法を提案する。
論文 参考訳(メタデータ) (2021-11-23T20:14:02Z) - DQ-GAT: Towards Safe and Efficient Autonomous Driving with Deep
Q-Learning and Graph Attention Networks [12.714551756377265]
従来の計画手法は概ねルールベースであり、複雑な動的シナリオではスケールが不十分である。
スケーラブルでプロアクティブな自動運転を実現するためにDQ-GATを提案する。
我々の手法は、見知らぬシナリオと見えないシナリオの両方において、安全と効率のトレードオフを改善することができる。
論文 参考訳(メタデータ) (2021-08-11T04:55:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。