論文の概要: FASIONAD++ : Integrating High-Level Instruction and Information Bottleneck in FAt-Slow fusION Systems for Enhanced Safety in Autonomous Driving with Adaptive Feedback
- arxiv url: http://arxiv.org/abs/2503.08162v1
- Date: Tue, 11 Mar 2025 08:27:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:42:09.872634
- Title: FASIONAD++ : Integrating High-Level Instruction and Information Bottleneck in FAt-Slow fusION Systems for Enhanced Safety in Autonomous Driving with Adaptive Feedback
- Title(参考訳): FASIONAD++ : 適応フィードバックによる自律運転の安全性向上を目的としたFAt-Slowファシオンシステムにおける高レベルインストラクションとインフォメーション・ブートネックの統合
- Authors: Kangan Qian, Ziang Luo, Sicong Jiang, Zilin Huang, Jinyu Miao, Zhikun Ma, Tianze Zhu, Jiayin Li, Yangfan He, Zheng Fu, Yining Shi, Boyue Wang, Hezhe Lin, Ziyu Chen, Jiangbo Yu, Xinyu Jiao, Mengmeng Yang, Kun Jiang, Diange Yang,
- Abstract要約: FASIONADは、VLMベースの推論モジュールで高速なエンドツーエンドプランナーをシナジする、新しいデュアルシステムフレームワークである。
オープンループ実験では、FASIONADは平均$L2$軌道誤差を6.7%削減し、28.1%$衝突率を下げる。
- 参考スコア(独自算出の注目度): 15.55944950850973
- License:
- Abstract: Ensuring safe, comfortable, and efficient planning is crucial for autonomous driving systems. While end-to-end models trained on large datasets perform well in standard driving scenarios, they struggle with complex low-frequency events. Recent Large Language Models (LLMs) and Vision Language Models (VLMs) advancements offer enhanced reasoning but suffer from computational inefficiency. Inspired by the dual-process cognitive model "Thinking, Fast and Slow", we propose $\textbf{FASIONAD}$ -- a novel dual-system framework that synergizes a fast end-to-end planner with a VLM-based reasoning module. The fast system leverages end-to-end learning to achieve real-time trajectory generation in common scenarios, while the slow system activates through uncertainty estimation to perform contextual analysis and complex scenario resolution. Our architecture introduces three key innovations: (1) A dynamic switching mechanism enabling slow system intervention based on real-time uncertainty assessment; (2) An information bottleneck with high-level plan feedback that optimizes the slow system's guidance capability; (3) A bidirectional knowledge exchange where visual prompts enhance the slow system's reasoning while its feedback refines the fast planner's decision-making. To strengthen VLM reasoning, we develop a question-answering mechanism coupled with reward-instruct training strategy. In open-loop experiments, FASIONAD achieves a $6.7\%$ reduction in average $L2$ trajectory error and $28.1\%$ lower collision rate.
- Abstract(参考訳): 安全で快適で効率的な計画を保証することは、自動運転システムにとって不可欠である。
大規模なデータセットでトレーニングされたエンドツーエンドモデルは、標準的な運転シナリオではうまく機能するが、複雑な低周波イベントには苦労する。
近年のLarge Language Models (LLMs) とVision Language Models (VLMs) の進歩は推論の強化を提供するが、計算の非効率さに悩まされている。
デュアルプロセス認知モデル "Thinking, Fast and Slow" にインスパイアされた私たちは,VLMベースの推論モジュールで高速なエンドツーエンドプランナを共用する,新たなデュアルシステムフレームワークである $\textbf{FASIONAD}$ を提案する。
高速システムは、エンド・ツー・エンドの学習を利用して、一般的なシナリオでリアルタイムな軌道生成を実現し、低速なシステムは不確実性推定を通じて起動し、文脈分析と複雑なシナリオ解決を行う。
本アーキテクチャでは,(1)リアルタイム不確実性評価に基づくシステム介入を遅くする動的切替機構,(2)低速なシステム誘導能力を最適化する高レベルな計画フィードバックによる情報ボトルネック,(3) 視覚的刺激が低速なシステムの推論を促進し,フィードバックが高速なプランナーの意思決定を洗練させる双方向の知識交換,という3つの重要なイノベーションを紹介している。
VLM推論を強化するために,報奨指導戦略と組み合わせた質問応答機構を開発した。
オープンループ実験では、FASIONAD は平均$L2$軌道誤差を 6.7\% 削減し、28.1\%$衝突速度を下げる。
関連論文リスト
- Distilling Multi-modal Large Language Models for Autonomous Driving [64.63127269187814]
近年のエンド・ツー・エンドの自動運転システムは,大規模言語モデル(LLM)をプランナーとして活用し,レアイベントに対する一般化性を向上させる。
我々は,LLMの世界の知識を活用しつつ,LLMフリー(あるいはビジョンベース)プランナの効率を維持するエンド・ツー・エンドの自動運転システムであるDiMAを提案する。
DiMAを用いたトレーニングでは、L2軌道誤差が37%減少し、ビジョンベースプランナーの衝突速度が80%低下し、ロングテールシナリオでは44%軌道誤差が減少する。
論文 参考訳(メタデータ) (2025-01-16T18:59:53Z) - LeapVAD: A Leap in Autonomous Driving via Cognitive Perception and Dual-Process Thinking [13.898774643126174]
LeapVADは、運転決定に影響を及ぼす重要な交通要素を特定し、焦点を合わせるための人間中心のメカニズムを実装している。
システムは、論理的推論を通じて駆動経験を蓄積する分析プロセス(System-II)と、微調整と少数ショット学習によってこの知識を洗練するヒューリスティックプロセス(System-I)から構成される。
論文 参考訳(メタデータ) (2025-01-14T14:49:45Z) - FASIONAD : FAst and Slow FusION Thinking Systems for Human-Like Autonomous Driving with Adaptive Feedback [15.805379735361862]
本稿では,認知モデル "Thinking, Fast and Slow" に触発された新しいデュアルシステムフレームワークであるFASIONADを提案する。
高速システムは、高速でデータ駆動の経路計画を使用してルーチンナビゲーションタスクを処理し、遅いシステムは、困難な状況や不慣れな状況における複雑な推論と意思決定に重点を置いている。
高速システムによって生成された視覚的プロンプトは、低速システムにおける人間のような推論を可能にし、高速システムの意思決定を強化するための高品質なフィードバックを提供する。
論文 参考訳(メタデータ) (2024-11-27T03:14:16Z) - A Dual Process VLA: Efficient Robotic Manipulation Leveraging VLM [0.26334346517416873]
VLA(Vision-Language-Action)モデルでは、視覚コンテキストと言語コマンドを統合することで、ロボットが複雑なタスクを実行できる。
これを解決するために,デュアルプロセス理論に着想を得た階層型フレームワークであるDual Process VLA(DP-VLA)を提案する。
RoboCasaデータセットの実験結果は、DP-VLAがより高速な推論とより高いタスク成功率を達成することを示した。
論文 参考訳(メタデータ) (2024-10-21T00:36:02Z) - DiFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Self-Driving [55.53171248839489]
我々は、エンドツーエンドの自動運転のためのエゴ中心の完全スパースパラダイムであるDiFSDを提案する。
特に、DiFSDは主にスパース知覚、階層的相互作用、反復的な運動プランナーから構成される。
nuScenesとBench2Driveデータセットで実施された実験は、DiFSDの優れた計画性能と優れた効率を実証している。
論文 参考訳(メタデータ) (2024-09-15T15:55:24Z) - Real-Time Anomaly Detection and Reactive Planning with Large Language Models [18.57162998677491]
例えば、大規模な言語モデル(LLM)は、インターネットスケールのデータに基づいて訓練され、ゼロショット機能を持つ。
本稿では,潜在的な異常に関する判断を安全な制御フレームワークに組み込む2段階の推論フレームワークを提案する。
これにより、モニターは、四輪車や自動運転車のような動的ロボットシステムの信頼性を向上させることができる。
論文 参考訳(メタデータ) (2024-07-11T17:59:22Z) - Scalable Vehicle Re-Identification via Self-Supervision [66.2562538902156]
自動車再同定は、都市規模の車両分析システムにおいて重要な要素の1つである。
車両再設計のための最先端のソリューションの多くは、既存のre-idベンチマークの精度向上に重点を置いており、計算の複雑さを無視することが多い。
推論時間に1つのネットワークのみを使用する自己教師型学習によって、シンプルで効果的なハイブリッドソリューションを提案する。
論文 参考訳(メタデータ) (2022-05-16T12:14:42Z) - Efficient and Robust LiDAR-Based End-to-End Navigation [132.52661670308606]
我々は,LiDARをベースとした効率的なエンドツーエンドナビゲーションフレームワークを提案する。
本稿では,スパース畳み込みカーネル最適化とハードウェア対応モデル設計に基づくFast-LiDARNetを提案する。
次に,単一の前方通過のみから予測の不確かさを直接推定するハイブリッド・エビデンシャル・フュージョンを提案する。
論文 参考訳(メタデータ) (2021-05-20T17:52:37Z) - Value Function is All You Need: A Unified Learning Framework for Ride
Hailing Platforms [57.21078336887961]
DiDi、Uber、Lyftなどの大型配車プラットフォームは、都市内の数万台の車両を1日中数百万の乗車要求に接続している。
両課題に対処するための統合価値に基づく動的学習フレームワーク(V1D3)を提案する。
論文 参考訳(メタデータ) (2021-05-18T19:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。