論文の概要: RAC3: Retrieval-Augmented Corner Case Comprehension for Autonomous Driving with Vision-Language Models
- arxiv url: http://arxiv.org/abs/2412.11050v2
- Date: Sun, 13 Apr 2025 05:30:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:47:06.176853
- Title: RAC3: Retrieval-Augmented Corner Case Comprehension for Autonomous Driving with Vision-Language Models
- Title(参考訳): RAC3:視覚言語モデルを用いた自律走行のための検索コーナケース理解
- Authors: Yujin Wang, Quanfeng Liu, Jiaqi Fan, Jinlong Hong, Hongqing Chu, Mengjian Tian, Bingzhao Gao, Hong Chen,
- Abstract要約: 視覚言語モデル(VLM)はシナリオ理解の促進に重要な役割を果たしている。
幻覚や現実世界の接地不足といった課題に直面している。
本研究では, コーナーケース理解におけるVLMの性能向上を目的としたRAC3を提案する。
- 参考スコア(独自算出の注目度): 9.304973961799359
- License:
- Abstract: Understanding and addressing corner cases is essential for ensuring the safety and reliability of autonomous driving systems. Vision-language models (VLMs) play a crucial role in enhancing scenario comprehension, yet they face significant challenges, such as hallucination and insufficient real-world grounding, which compromise their performance in critical driving scenarios. In this work, RAC3, a novel framework designed to enhance the performance of VLMs in corner case comprehension, is proposed. RAC3 integrates a frequency-spatial fusion (FSF) image encoder, cross-modal alignment fine-tuning with hard and semi-hard negative mining, and a fast querying pipeline based on KMeans clustering and hierarchical navigable small world (HNSW) indexing. A multimodal chain-of-thought (CoT) prompting strategy to guide analogical reasoning and reduce hallucinations during inference is introduced. Moreover, an update mechanism is integrated into RAC3 to ensure continual learning within the framework. Extensive experiments on the CODA and NuScenes datasets demonstrate that RAC3 significantly improves corner case comprehension across multiple downstream tasks. Compared to prior state-of-the-art methods, RAC3 achieves the highest final score of 74.46 on the CODA-LM benchmark and shows consistent performance gains when integrated with end-to-end frameworks like DriveLM. These results demonstrate the effectiveness of retrieval-augmented strategies and cross-modal alignment for safer and more interpretable autonomous driving.
- Abstract(参考訳): 自動運転システムの安全性と信頼性を確保するためには,コーナーケースの理解と対処が不可欠である。
視覚言語モデル(VLM)は、シナリオ理解を強化する上で重要な役割を担っているが、幻覚や現実の接地が不十分であるなど、重要な課題に直面している。
本研究では, コーナーケース理解におけるVLMの性能向上を目的とした新しいフレームワークであるRAC3を提案する。
RAC3は、周波数空間融合(FSF)画像エンコーダ、硬質および半硬質の負のマイニングによるクロスモーダルアライメント微調整、KMeansクラスタリングと階層ナビゲート可能な小型世界(HNSW)インデックスに基づく高速クエリパイプラインを統合する。
類似推論を誘導し、推論中の幻覚を低減するためのマルチモーダル・チェーン・オブ・シント(CoT)戦略を導入する。
さらに、更新メカニズムがRAC3に統合され、フレームワーク内の継続的な学習が保証される。
CODAデータセットとNuScenesデータセットの大規模な実験により、RAC3は複数の下流タスクにおけるコーナーケースの理解を大幅に改善することが示された。
従来の最先端の手法と比較して、RAC3はCODA-LMベンチマークで74.46の最高スコアを獲得し、DriveLMのようなエンドツーエンドフレームワークと統合した場合、一貫したパフォーマンス向上を示す。
これらの結果は、より安全で解釈可能な自律運転において、検索強化戦略とクロスモーダルアライメントの有効性を示す。
関連論文リスト
- Breaking Focus: Contextual Distraction Curse in Large Language Models [68.4534308805202]
大規模言語モデル(LLM)の重大な脆弱性について検討する。
この現象は、セマンティック・コヒーレントだが無関係な文脈で修正された質問に対して、モデルが一貫した性能を維持することができないときに発生する。
本稿では,CDVの例を自動生成する効率的な木探索手法を提案する。
論文 参考訳(メタデータ) (2025-02-03T18:43:36Z) - RALAD: Bridging the Real-to-Sim Domain Gap in Autonomous Driving with Retrieval-Augmented Learning [25.438771583229727]
本稿では,リアルタイムとシミュレーションのギャップを低コストで埋めるために,自律運転のための検索強化学習(RALAD)を提案する。
RALADは、(1)拡張された最適輸送(OT)メソッドによるドメイン適応、(2)シンプルで統一されたフレームワーク、(3)効率的な微調整技術を含む3つの主要な設計を特徴としている。
実験の結果,ALADは実世界のシナリオにおける精度を維持しつつ,シミュレーション環境における性能劣化を補償することを示した。
論文 参考訳(メタデータ) (2025-01-21T17:03:06Z) - Are VLMs Ready for Autonomous Driving? An Empirical Study from the Reliability, Data, and Metric Perspectives [56.528835143531694]
視覚言語モデル(VLM)を評価するために設計されたベンチマークデータセットであるDriveBenchを紹介する。
以上の結果から, VLMは視覚的接地ではなく, 一般的な知識やテキストの手がかりから得られる, もっともらしい応答をしばしば生み出すことが明らかとなった。
本稿では,頑健な視覚的接地とマルチモーダル理解を優先する評価指標を提案する。
論文 参考訳(メタデータ) (2025-01-07T18:59:55Z) - SenseRAG: Constructing Environmental Knowledge Bases with Proactive Querying for LLM-Based Autonomous Driving [10.041702058108482]
本研究では,大規模言語モデル(LLM)の文脈推論機能を活用することにより,自律運転(AD)における状況認識の高度化の必要性に対処する。
厳密なラベルベースのアノテーションに依存する従来の認識システムとは異なり、リアルタイムのマルチモーダルセンサーデータを統一されたLLM対応の知識ベースに統合する。
実世界のV2Xデータセットを用いた実験結果は、知覚と予測性能の大幅な改善を示す。
論文 参考訳(メタデータ) (2025-01-07T05:15:46Z) - Generating Critical Scenarios for Testing Automated Driving Systems [5.975915967339764]
AVASTRAは、自律運転システムをテストするための現実的な重要なシナリオを生成するための強化学習ベースのアプローチである。
その結果、AVASTRAは、30%から115%の衝突シナリオを発生させることで、最先端のアプローチを上回る能力を示している。
論文 参考訳(メタデータ) (2024-12-03T16:59:30Z) - Generating Out-Of-Distribution Scenarios Using Language Models [58.47597351184034]
大規模言語モデル(LLM)は自動運転において有望であることを示している。
本稿では,多様なOF-Distribution(OOD)駆動シナリオを生成するためのフレームワークを提案する。
我々は、広範囲なシミュレーションを通じてフレームワークを評価し、新しい"OOD-ness"メトリクスを導入する。
論文 参考訳(メタデータ) (2024-11-25T16:38:17Z) - Transforming In-Vehicle Network Intrusion Detection: VAE-based Knowledge Distillation Meets Explainable AI [0.0]
本稿では,変分オートエンコーダ(VAE)に基づく知識蒸留手法を用いて,KD-XVAEと呼ばれる高度な侵入検知システムを提案する。
本モデルでは,1669個のパラメータで処理し,バッチ毎に0.3msの推論時間を実現することにより,複雑性を大幅に低減する。
論文 参考訳(メタデータ) (2024-10-11T17:57:16Z) - SFR-RAG: Towards Contextually Faithful LLMs [57.666165819196486]
Retrieval Augmented Generation (RAG) は、外部コンテキスト情報を大言語モデル(LLM)と統合し、事実の精度と妥当性を高めるパラダイムである。
SFR-RAG(SFR-RAG)について述べる。
また、複数の人気かつ多様なRAGベンチマークをコンパイルする新しい評価フレームワークであるConBenchについても紹介する。
論文 参考訳(メタデータ) (2024-09-16T01:08:18Z) - LanEvil: Benchmarking the Robustness of Lane Detection to Environmental Illusions [61.87108000328186]
レーン検出(LD)は自律走行システムにおいて不可欠な要素であり、適応型クルーズ制御や自動車線センターなどの基本的な機能を提供している。
既存のLDベンチマークは主に、環境錯覚に対するLDモデルの堅牢性を無視し、一般的なケースを評価することに焦点を当てている。
本稿では、LDに対する環境錯覚による潜在的な脅威について検討し、LanEvilの最初の総合ベンチマークを確立する。
論文 参考訳(メタデータ) (2024-06-03T02:12:27Z) - Reinforcement Learning with Latent State Inference for Autonomous On-ramp Merging under Observation Delay [6.0111084468944]
遅延状態推論・安全制御(L3IS)エージェントを用いたレーンキーピング・レーンチェンジについて紹介する。
L3ISは、周囲の車両の意図や運転スタイルに関する包括的な知識を必要とせずに、オンランプのマージ作業を安全に行うように設計されている。
本稿では,観測遅延を考慮に入れたAL3ISというエージェントを改良し,実環境においてより堅牢な決定を行えるようにした。
論文 参考訳(メタデータ) (2024-03-18T15:02:46Z) - Latent Feature Relation Consistency for Adversarial Robustness [80.24334635105829]
深層ニューラルネットワークは、人間の知覚できない敵のノイズを自然の例に付加する敵の例を予測するときに、誤分類が起こる。
textbfLatent textbfFeature textbfRelation textbfConsistency (textbfLFRC)を提案する。
LFRCは、潜在空間における逆例の関係を、自然例と整合性に制約する。
論文 参考訳(メタデータ) (2023-03-29T13:50:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。