論文の概要: RAC3: Retrieval-Augmented Corner Case Comprehension for Autonomous Driving with Vision-Language Models
- arxiv url: http://arxiv.org/abs/2412.11050v1
- Date: Sun, 15 Dec 2024 04:51:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 14:00:50.874042
- Title: RAC3: Retrieval-Augmented Corner Case Comprehension for Autonomous Driving with Vision-Language Models
- Title(参考訳): RAC3:視覚言語モデルを用いた自律走行のための検索コーナケース理解
- Authors: Yujin Wang, Quanfeng Liu, Jiaqi Fan, Jinlong Hong, Hongqing Chu, Mengjian Tian, Bingzhao Gao, Hong Chen,
- Abstract要約: VLM(Vision-Language Models)はシナリオ理解の促進に重要な役割を果たす。
幻覚や現実世界の接地不足といった課題に直面している。
本稿では,VLMのコーナケースを効果的に処理する能力を向上させるためのフレームワークであるRAC3を提案する。
- 参考スコア(独自算出の注目度): 9.304973961799359
- License:
- Abstract: Understanding and addressing corner cases is essential for ensuring the safety and reliability of autonomous driving systems. Vision-Language Models (VLMs) play a crucial role in enhancing scenario comprehension, yet they face significant challenges, such as hallucination and insufficient real-world grounding, which compromise their performance in critical driving scenarios. In this work, we propose RAC3, a novel framework designed to improve VLMs' ability to handle corner cases effectively. The framework integrates Retrieval-Augmented Generation (RAG) to mitigate hallucination by dynamically incorporating context-specific external knowledge. A cornerstone of RAC3 is its cross-modal alignment fine-tuning, which utilizes contrastive learning to embed image-text pairs into a unified semantic space, enabling robust retrieval of similar scenarios. We evaluate RAC3 through extensive experiments using a curated dataset of corner case scenarios, demonstrating its ability to enhance semantic alignment, improve hallucination mitigation, and achieve superior performance metrics, such as Cosine Similarity and ROUGE-L scores. For example, for the LLaVA-v1.6-34B VLM, the cosine similarity between the generated text and the reference text has increased by 5.22\%. The F1-score in ROUGE-L has increased by 39.91\%, the Precision has increased by 55.80\%, and the Recall has increased by 13.74\%. This work underscores the potential of retrieval-augmented VLMs to advance the robustness and safety of autonomous driving in complex environments.
- Abstract(参考訳): 自動運転システムの安全性と信頼性を確保するためには,コーナーケースの理解と対処が不可欠である。
VLM(Vision-Language Models)は、シナリオ理解の強化において重要な役割を果たすが、幻覚や現実の接地が不十分で、重要な運転シナリオにおけるパフォーマンスを損なうなど、大きな課題に直面している。
本研究では,VLMのコーナケースを効果的に処理する能力を向上させるための新しいフレームワークであるRAC3を提案する。
このフレームワークはRetrieval-Augmented Generation (RAG)を統合し、コンテキスト固有の外部知識を動的に組み込むことで幻覚を緩和する。
RAC3の基盤となるのはクロスモーダルアライメントの微調整であり、コントラスト学習を利用して画像とテキストのペアを統一的なセマンティック空間に埋め込み、同様のシナリオの堅牢な検索を可能にする。
コーナケースシナリオのキュレートされたデータセットを用いて、RAC3の評価を行い、セマンティックアライメントを強化し、幻覚の緩和を改善し、コサイン類似度やROUGE-Lスコアなどの優れたパフォーマンス指標を達成する能力を示す。
例えば、LLaVA-v1.6-34B VLMでは、生成されたテキストと参照テキストのコサイン類似性が5.22\%向上している。
ROUGE-LのF1スコアは39.91 %、精度は55.80 %、リコールは13.74 %向上した。
この研究は、複雑な環境下での自律運転の堅牢性と安全性を高めるために、検索強化VLMの可能性を強調している。
関連論文リスト
- Breaking Focus: Contextual Distraction Curse in Large Language Models [68.4534308805202]
大規模言語モデル(LLM)の重大な脆弱性について検討する。
この現象は、セマンティック・コヒーレントだが無関係な文脈で修正された質問に対して、モデルが一貫した性能を維持することができないときに発生する。
本稿では,CDVの例を自動生成する効率的な木探索手法を提案する。
論文 参考訳(メタデータ) (2025-02-03T18:43:36Z) - RALAD: Bridging the Real-to-Sim Domain Gap in Autonomous Driving with Retrieval-Augmented Learning [25.438771583229727]
本稿では,リアルタイムとシミュレーションのギャップを低コストで埋めるために,自律運転のための検索強化学習(RALAD)を提案する。
RALADは、(1)拡張された最適輸送(OT)メソッドによるドメイン適応、(2)シンプルで統一されたフレームワーク、(3)効率的な微調整技術を含む3つの主要な設計を特徴としている。
実験の結果,ALADは実世界のシナリオにおける精度を維持しつつ,シミュレーション環境における性能劣化を補償することを示した。
論文 参考訳(メタデータ) (2025-01-21T17:03:06Z) - Are VLMs Ready for Autonomous Driving? An Empirical Study from the Reliability, Data, and Metric Perspectives [56.528835143531694]
視覚言語モデル(VLM)を評価するために設計されたベンチマークデータセットであるDriveBenchを紹介する。
以上の結果から, VLMは視覚的接地ではなく, 一般的な知識やテキストの手がかりから得られる, もっともらしい応答をしばしば生み出すことが明らかとなった。
本稿では,頑健な視覚的接地とマルチモーダル理解を優先する評価指標を提案する。
論文 参考訳(メタデータ) (2025-01-07T18:59:55Z) - SenseRAG: Constructing Environmental Knowledge Bases with Proactive Querying for LLM-Based Autonomous Driving [10.041702058108482]
本研究では,大規模言語モデル(LLM)の文脈推論機能を活用することにより,自律運転(AD)における状況認識の高度化の必要性に対処する。
厳密なラベルベースのアノテーションに依存する従来の認識システムとは異なり、リアルタイムのマルチモーダルセンサーデータを統一されたLLM対応の知識ベースに統合する。
実世界のV2Xデータセットを用いた実験結果は、知覚と予測性能の大幅な改善を示す。
論文 参考訳(メタデータ) (2025-01-07T05:15:46Z) - Generating Critical Scenarios for Testing Automated Driving Systems [5.975915967339764]
AVASTRAは、自律運転システムをテストするための現実的な重要なシナリオを生成するための強化学習ベースのアプローチである。
その結果、AVASTRAは、30%から115%の衝突シナリオを発生させることで、最先端のアプローチを上回る能力を示している。
論文 参考訳(メタデータ) (2024-12-03T16:59:30Z) - Generating Out-Of-Distribution Scenarios Using Language Models [58.47597351184034]
大規模言語モデル(LLM)は自動運転において有望であることを示している。
本稿では,多様なOF-Distribution(OOD)駆動シナリオを生成するためのフレームワークを提案する。
我々は、広範囲なシミュレーションを通じてフレームワークを評価し、新しい"OOD-ness"メトリクスを導入する。
論文 参考訳(メタデータ) (2024-11-25T16:38:17Z) - Transforming In-Vehicle Network Intrusion Detection: VAE-based Knowledge Distillation Meets Explainable AI [0.0]
本稿では,変分オートエンコーダ(VAE)に基づく知識蒸留手法を用いて,KD-XVAEと呼ばれる高度な侵入検知システムを提案する。
本モデルでは,1669個のパラメータで処理し,バッチ毎に0.3msの推論時間を実現することにより,複雑性を大幅に低減する。
論文 参考訳(メタデータ) (2024-10-11T17:57:16Z) - SFR-RAG: Towards Contextually Faithful LLMs [57.666165819196486]
Retrieval Augmented Generation (RAG) は、外部コンテキスト情報を大言語モデル(LLM)と統合し、事実の精度と妥当性を高めるパラダイムである。
SFR-RAG(SFR-RAG)について述べる。
また、複数の人気かつ多様なRAGベンチマークをコンパイルする新しい評価フレームワークであるConBenchについても紹介する。
論文 参考訳(メタデータ) (2024-09-16T01:08:18Z) - LanEvil: Benchmarking the Robustness of Lane Detection to Environmental Illusions [61.87108000328186]
レーン検出(LD)は自律走行システムにおいて不可欠な要素であり、適応型クルーズ制御や自動車線センターなどの基本的な機能を提供している。
既存のLDベンチマークは主に、環境錯覚に対するLDモデルの堅牢性を無視し、一般的なケースを評価することに焦点を当てている。
本稿では、LDに対する環境錯覚による潜在的な脅威について検討し、LanEvilの最初の総合ベンチマークを確立する。
論文 参考訳(メタデータ) (2024-06-03T02:12:27Z) - Reinforcement Learning with Latent State Inference for Autonomous On-ramp Merging under Observation Delay [6.0111084468944]
遅延状態推論・安全制御(L3IS)エージェントを用いたレーンキーピング・レーンチェンジについて紹介する。
L3ISは、周囲の車両の意図や運転スタイルに関する包括的な知識を必要とせずに、オンランプのマージ作業を安全に行うように設計されている。
本稿では,観測遅延を考慮に入れたAL3ISというエージェントを改良し,実環境においてより堅牢な決定を行えるようにした。
論文 参考訳(メタデータ) (2024-03-18T15:02:46Z) - Latent Feature Relation Consistency for Adversarial Robustness [80.24334635105829]
深層ニューラルネットワークは、人間の知覚できない敵のノイズを自然の例に付加する敵の例を予測するときに、誤分類が起こる。
textbfLatent textbfFeature textbfRelation textbfConsistency (textbfLFRC)を提案する。
LFRCは、潜在空間における逆例の関係を、自然例と整合性に制約する。
論文 参考訳(メタデータ) (2023-03-29T13:50:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。