論文の概要: IRL-DAL: Safe and Adaptive Trajectory Planning for Autonomous Driving via Energy-Guided Diffusion Models
- arxiv url: http://arxiv.org/abs/2601.23266v1
- Date: Fri, 30 Jan 2026 18:34:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.616478
- Title: IRL-DAL: Safe and Adaptive Trajectory Planning for Autonomous Driving via Energy-Guided Diffusion Models
- Title(参考訳): IRL-DAL:エネルギー誘導拡散モデルによる自律走行の安全かつ適応的な軌道計画
- Authors: Seyed Ahmad Hosseini Miangoleh, Amin Jalal Aghdasian, Farzaneh Abdollahi,
- Abstract要約: 本稿では,自動車用拡散型適応型ルックアヘッドプランナ(IRL-DAL)を用いた新しい逆強化学習フレームワークを提案する。
96%の成功率に達し、衝突は1kステップあたり0.05に減少し、安全なナビゲーションのための新しいベンチマークとなる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper proposes a novel inverse reinforcement learning framework using a diffusion-based adaptive lookahead planner (IRL-DAL) for autonomous vehicles. Training begins with imitation from an expert finite state machine (FSM) controller to provide a stable initialization. Environment terms are combined with an IRL discriminator signal to align with expert goals. Reinforcement learning (RL) is then performed with a hybrid reward that combines diffuse environmental feedback and targeted IRL rewards. A conditional diffusion model, which acts as a safety supervisor, plans safe paths. It stays in its lane, avoids obstacles, and moves smoothly. Then, a learnable adaptive mask (LAM) improves perception. It shifts visual attention based on vehicle speed and nearby hazards. After FSM-based imitation, the policy is fine-tuned with Proximal Policy Optimization (PPO). Training is run in the Webots simulator with a two-stage curriculum. A 96\% success rate is reached, and collisions are reduced to 0.05 per 1k steps, marking a new benchmark for safe navigation. By applying the proposed approach, the agent not only drives in lane but also handles unsafe conditions at an expert level, increasing robustness.We make our code publicly available.
- Abstract(参考訳): 本稿では,自動車用拡散型適応型ルックアヘッドプランナ(IRL-DAL)を用いた新しい逆強化学習フレームワークを提案する。
トレーニングは、エキスパート有限状態機械(FSM)コントローラからの模倣から始まり、安定した初期化を提供する。
環境条件は、専門家の目標に合わせるためにIRL識別器の信号と組み合わせられる。
強化学習(RL)は、拡散環境フィードバックとターゲットIRL報酬を組み合わせたハイブリッド報酬によって行われる。
安全スーパーバイザーとして機能する条件拡散モデルでは、安全な経路を計画する。
車線内に留まり、障害物を回避し、スムーズに動く。
そして、学習可能な適応マスク(LAM)が知覚を向上させる。
車両の速度と付近の危険度に基づいて視覚的注意をシフトする。
FSMベースの模倣の後、ポリシーはPPO(Proximal Policy Optimization)によって微調整される。
トレーニングは2段階のカリキュラムでWebotsシミュレータで実行される。
96 %の成功率に達し、衝突は1k ステップあたり 0.05 に減少し、安全なナビゲーションのための新しいベンチマークとなる。
提案手法を適用することで、エージェントは車線を走行するだけでなく、専門家レベルで安全でない条件を処理し、堅牢性を高めます。
関連論文リスト
- Discrete Diffusion for Reflective Vision-Language-Action Models in Autonomous Driving [55.13109926181247]
離散拡散による安全な軌道生成のためのリフレクション機構を統合した学習ベースのフレームワークであるReflectDriveを紹介する。
我々のアプローチの中心は、勾配のない反復的な自己補正を行う、安全を意識した反射機構である。
本手法は目標条件付き軌道生成から始まり,マルチモーダル運転動作をモデル化する。
論文 参考訳(メタデータ) (2025-09-24T13:35:15Z) - Plan-R1: Safe and Feasible Trajectory Planning as Language Modeling [74.41886258801209]
本稿では,行動学習から原理的アライメントを分離する2段階の軌道計画フレームワークを提案する。
Plan-R1は計画の安全性と実現可能性を大幅に改善し、最先端の性能を達成する。
論文 参考訳(メタデータ) (2025-05-23T09:22:19Z) - SafeAuto: Knowledge-Enhanced Safe Autonomous Driving with Multimodal Foundation Models [63.71984266104757]
我々は、構造化されていない知識と構造化されていない知識の両方を取り入れることで、MLLMベースの自動運転を強化するフレームワークであるSafeAutoを提案する。
安全知識を明示的に統合するため,交通ルールを一階述語論理に変換する推論コンポーネントを開発した。
我々のマルチモーダル検索・拡張生成モデルは、過去の運転経験から学ぶために、ビデオ、制御信号、環境特性を活用する。
論文 参考訳(メタデータ) (2025-02-28T21:53:47Z) - CuRLA: Curriculum Learning Based Deep Reinforcement Learning for Autonomous Driving [1.188383832081829]
深層強化学習(DRL)エージェントは、経験から学び、報酬を最大化する。
本稿では,DRLとカリキュラム学習を組み合わせた自動運転手法を提案する。
論文 参考訳(メタデータ) (2025-01-09T05:45:03Z) - Risk-Aware Reward Shaping of Reinforcement Learning Agents for
Autonomous Driving [6.613838702441967]
本稿では,自律運転におけるRLエージェントのトレーニングとテスト性能を活用するために,リスク認識型報酬形成手法について検討する。
我々は、危険運転行動の探索と罰則を奨励する追加のリフォーム報酬項を提案する。
論文 参考訳(メタデータ) (2023-06-05T20:10:36Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Cautious Adaptation For Reinforcement Learning in Safety-Critical
Settings [129.80279257258098]
都市運転のような現実の安全クリティカルな目標設定における強化学習(RL)は危険である。
非安全クリティカルな「ソース」環境でエージェントが最初に訓練する「安全クリティカル適応」タスクセットを提案する。
多様な環境における事前経験がリスクを見積もるためにエージェントに装備するという直感に基づくソリューションアプローチであるCARLを提案する。
論文 参考訳(メタデータ) (2020-08-15T01:40:59Z) - FormulaZero: Distributionally Robust Online Adaptation via Offline
Population Synthesis [34.07399367947566]
自律レースは安全だが 保守的な政策を罰する領域です
現在のアプローチでは、他のエージェントに関する仮定を単純化するか、オンライン適応のための堅牢なメカニズムが欠如している。
レプリカ交換型マルコフ連鎖モンテカルロに基づく新しい自己再生法を開発した。
論文 参考訳(メタデータ) (2020-03-09T03:07:57Z) - Integrating Deep Reinforcement Learning with Model-based Path Planners
for Automated Driving [0.0]
本稿では、経路計画管を視覚ベースのDRLフレームワークに統合するためのハイブリッドアプローチを提案する。
要約すると、DRLエージェントは、パスプランナーのウェイポイントをできるだけ近くに追従するように訓練される。
実験の結果,提案手法は経路を計画し,ランダムに選択した起点-終点間を移動可能であることがわかった。
論文 参考訳(メタデータ) (2020-02-02T17:10:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。