論文の概要: RAC3: Retrieval-Augmented Corner Case Comprehension for Autonomous Driving with Vision-Language Models
- arxiv url: http://arxiv.org/abs/2412.11050v1
- Date: Sun, 15 Dec 2024 04:51:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 14:00:50.874042
- Title: RAC3: Retrieval-Augmented Corner Case Comprehension for Autonomous Driving with Vision-Language Models
- Title(参考訳): RAC3:視覚言語モデルを用いた自律走行のための検索コーナケース理解
- Authors: Yujin Wang, Quanfeng Liu, Jiaqi Fan, Jinlong Hong, Hongqing Chu, Mengjian Tian, Bingzhao Gao, Hong Chen,
- Abstract要約: VLM(Vision-Language Models)はシナリオ理解の促進に重要な役割を果たす。
幻覚や現実世界の接地不足といった課題に直面している。
本稿では,VLMのコーナケースを効果的に処理する能力を向上させるためのフレームワークであるRAC3を提案する。
- 参考スコア(独自算出の注目度): 9.304973961799359
- License:
- Abstract: Understanding and addressing corner cases is essential for ensuring the safety and reliability of autonomous driving systems. Vision-Language Models (VLMs) play a crucial role in enhancing scenario comprehension, yet they face significant challenges, such as hallucination and insufficient real-world grounding, which compromise their performance in critical driving scenarios. In this work, we propose RAC3, a novel framework designed to improve VLMs' ability to handle corner cases effectively. The framework integrates Retrieval-Augmented Generation (RAG) to mitigate hallucination by dynamically incorporating context-specific external knowledge. A cornerstone of RAC3 is its cross-modal alignment fine-tuning, which utilizes contrastive learning to embed image-text pairs into a unified semantic space, enabling robust retrieval of similar scenarios. We evaluate RAC3 through extensive experiments using a curated dataset of corner case scenarios, demonstrating its ability to enhance semantic alignment, improve hallucination mitigation, and achieve superior performance metrics, such as Cosine Similarity and ROUGE-L scores. For example, for the LLaVA-v1.6-34B VLM, the cosine similarity between the generated text and the reference text has increased by 5.22\%. The F1-score in ROUGE-L has increased by 39.91\%, the Precision has increased by 55.80\%, and the Recall has increased by 13.74\%. This work underscores the potential of retrieval-augmented VLMs to advance the robustness and safety of autonomous driving in complex environments.
- Abstract(参考訳): 自動運転システムの安全性と信頼性を確保するためには,コーナーケースの理解と対処が不可欠である。
VLM(Vision-Language Models)は、シナリオ理解の強化において重要な役割を果たすが、幻覚や現実の接地が不十分で、重要な運転シナリオにおけるパフォーマンスを損なうなど、大きな課題に直面している。
本研究では,VLMのコーナケースを効果的に処理する能力を向上させるための新しいフレームワークであるRAC3を提案する。
このフレームワークはRetrieval-Augmented Generation (RAG)を統合し、コンテキスト固有の外部知識を動的に組み込むことで幻覚を緩和する。
RAC3の基盤となるのはクロスモーダルアライメントの微調整であり、コントラスト学習を利用して画像とテキストのペアを統一的なセマンティック空間に埋め込み、同様のシナリオの堅牢な検索を可能にする。
コーナケースシナリオのキュレートされたデータセットを用いて、RAC3の評価を行い、セマンティックアライメントを強化し、幻覚の緩和を改善し、コサイン類似度やROUGE-Lスコアなどの優れたパフォーマンス指標を達成する能力を示す。
例えば、LLaVA-v1.6-34B VLMでは、生成されたテキストと参照テキストのコサイン類似性が5.22\%向上している。
ROUGE-LのF1スコアは39.91 %、精度は55.80 %、リコールは13.74 %向上した。
この研究は、複雑な環境下での自律運転の堅牢性と安全性を高めるために、検索強化VLMの可能性を強調している。
関連論文リスト
- Generating Out-Of-Distribution Scenarios Using Language Models [58.47597351184034]
大規模言語モデル(LLM)は自動運転において有望であることを示している。
本稿では,多様なOF-Distribution(OOD)駆動シナリオを生成するためのフレームワークを提案する。
我々は、広範囲なシミュレーションを通じてフレームワークを評価し、新しい"OOD-ness"メトリクスを導入する。
論文 参考訳(メタデータ) (2024-11-25T16:38:17Z) - Unraveling and Mitigating Safety Alignment Degradation of Vision-Language Models [26.83278034227966]
VLM(Vision-Language Models)の安全アライメント能力は、視覚モジュールの統合によって劣化しがちである。
VLMに視覚モダリティを導入する際に現れる表現ギャップから課題が生じることを示す。
安全アライメントの劣化を低減するため,Cross-Modality Representation Manipulation (CMRM)を導入する。
論文 参考訳(メタデータ) (2024-10-11T17:59:31Z) - Transforming In-Vehicle Network Intrusion Detection: VAE-based Knowledge Distillation Meets Explainable AI [0.0]
本稿では,変分オートエンコーダ(VAE)に基づく知識蒸留手法を用いて,KD-XVAEと呼ばれる高度な侵入検知システムを提案する。
本モデルでは,1669個のパラメータで処理し,バッチ毎に0.3msの推論時間を実現することにより,複雑性を大幅に低減する。
論文 参考訳(メタデータ) (2024-10-11T17:57:16Z) - SFR-RAG: Towards Contextually Faithful LLMs [57.666165819196486]
Retrieval Augmented Generation (RAG) は、外部コンテキスト情報を大言語モデル(LLM)と統合し、事実の精度と妥当性を高めるパラダイムである。
SFR-RAG(SFR-RAG)について述べる。
また、複数の人気かつ多様なRAGベンチマークをコンパイルする新しい評価フレームワークであるConBenchについても紹介する。
論文 参考訳(メタデータ) (2024-09-16T01:08:18Z) - LanEvil: Benchmarking the Robustness of Lane Detection to Environmental Illusions [61.87108000328186]
レーン検出(LD)は自律走行システムにおいて不可欠な要素であり、適応型クルーズ制御や自動車線センターなどの基本的な機能を提供している。
既存のLDベンチマークは主に、環境錯覚に対するLDモデルの堅牢性を無視し、一般的なケースを評価することに焦点を当てている。
本稿では、LDに対する環境錯覚による潜在的な脅威について検討し、LanEvilの最初の総合ベンチマークを確立する。
論文 参考訳(メタデータ) (2024-06-03T02:12:27Z) - Reflectivity Is All You Need!: Advancing LiDAR Semantic Segmentation [11.684330305297523]
本稿では,LiDARセマンティックセマンティックセグメンテーションフレームワークにおける校正強度(リフレクティビティとも呼ばれる)の利点について検討する。
オフロードシナリオでは,反射率による強度の置き換えにより,Unionよりも平均的なインターセクションが4%向上することを示す。
都市環境におけるセマンティックセグメンテーションにおけるキャリブレーション強度の利用の可能性を示す。
論文 参考訳(メタデータ) (2024-03-19T22:57:03Z) - Reinforcement Learning with Latent State Inference for Autonomous On-ramp Merging under Observation Delay [6.0111084468944]
遅延状態推論・安全制御(L3IS)エージェントを用いたレーンキーピング・レーンチェンジについて紹介する。
L3ISは、周囲の車両の意図や運転スタイルに関する包括的な知識を必要とせずに、オンランプのマージ作業を安全に行うように設計されている。
本稿では,観測遅延を考慮に入れたAL3ISというエージェントを改良し,実環境においてより堅牢な決定を行えるようにした。
論文 参考訳(メタデータ) (2024-03-18T15:02:46Z) - Latent Feature Relation Consistency for Adversarial Robustness [80.24334635105829]
深層ニューラルネットワークは、人間の知覚できない敵のノイズを自然の例に付加する敵の例を予測するときに、誤分類が起こる。
textbfLatent textbfFeature textbfRelation textbfConsistency (textbfLFRC)を提案する。
LFRCは、潜在空間における逆例の関係を、自然例と整合性に制約する。
論文 参考訳(メタデータ) (2023-03-29T13:50:01Z) - Multi-Modal Fusion Transformer for End-to-End Autonomous Driving [59.60483620730437]
画像表現とLiDAR表現を注目で統合する,新しいマルチモードフュージョントランスフォーマであるTransFuserを提案する。
本手法は, 衝突を76%低減しつつ, 最先端駆動性能を実現する。
論文 参考訳(メタデータ) (2021-04-19T11:48:13Z) - Detecting 32 Pedestrian Attributes for Autonomous Vehicles [103.87351701138554]
本稿では、歩行者を共同で検出し、32の歩行者属性を認識するという課題に対処する。
本稿では,複合フィールドフレームワークを用いたマルチタスク学習(MTL)モデルを提案する。
競合検出と属性認識の結果と,より安定したMTLトレーニングを示す。
論文 参考訳(メタデータ) (2020-12-04T15:10:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。