論文の概要: A Low-Rank Method for Vision Language Model Hallucination Mitigation in Autonomous Driving
- arxiv url: http://arxiv.org/abs/2511.06496v1
- Date: Sun, 09 Nov 2025 18:50:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.980002
- Title: A Low-Rank Method for Vision Language Model Hallucination Mitigation in Autonomous Driving
- Title(参考訳): 自律運転における視覚言語モデルハロシン化の低ランク化法
- Authors: Keke Long, Jiacheng Guo, Tianyun Zhang, Hongkai Yu, Xiaopeng Li,
- Abstract要約: 視覚言語モデル(VLM)は、交通状況を理解するために、自律運転にますます使われている。
VLMは幻覚を発生させるが、これは視覚入力に基づかない偽の細部である。
本稿では,幻覚レベルに基づいて複数の候補キャプションを自動的にランク付けする,自己完結型低ランク手法を提案する。
- 参考スコア(独自算出の注目度): 18.863791958956625
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Language Models (VLMs) are increasingly used in autonomous driving to help understand traffic scenes, but they sometimes produce hallucinations, which are false details not grounded in the visual input. Detecting and mitigating hallucinations is challenging when ground-truth references are unavailable and model internals are inaccessible. This paper proposes a novel self-contained low-rank approach to automatically rank multiple candidate captions generated by multiple VLMs based on their hallucination levels, using only the captions themselves without requiring external references or model access. By constructing a sentence-embedding matrix and decomposing it into a low-rank consensus component and a sparse residual, we use the residual magnitude to rank captions: selecting the one with the smallest residual as the most hallucination-free. Experiments on the NuScenes dataset demonstrate that our approach achieves 87% selection accuracy in identifying hallucination-free captions, representing a 19% improvement over the unfiltered baseline and a 6-10% improvement over multi-agent debate method. The sorting produced by sparse error magnitudes shows strong correlation with human judgments of hallucinations, validating our scoring mechanism. Additionally, our method, which can be easily parallelized, reduces inference time by 51-67% compared to debate approaches, making it practical for real-time autonomous driving applications.
- Abstract(参考訳): 視覚言語モデル(VLM)は、交通シーンを理解するために自律運転で使われることが多いが、視覚入力に根ざしていない誤った詳細である幻覚を生じることもある。
グランド・トゥルース・リファレンスが利用できず、モデル内部がアクセスできない場合、幻覚の検出と緩和は困難である。
本稿では,複数のVLMが生成する複数の候補キャプションを,外部参照やモデルアクセスを必要とせずに,幻覚レベルに基づいて自動的にランク付けする,自己完結型低ランクアプローチを提案する。
文埋め込み行列を構築し,それを低ランクのコンセンサス成分とスパース残差に分解することにより,残差等級を格付けする。
NuScenesデータセットを用いた実験では, 幻覚のない字幕の同定において, 87%の選択精度が得られ, 未フィルタリングベースラインよりも19%, マルチエージェントディベート法より6-10%向上した。
スパース誤差等級によるソートは幻覚の人的判断と強い相関を示し,評価機構を検証した。
さらに,提案手法は並列化が容易であり,議論のアプローチに比べて推論時間を51~67%削減し,リアルタイム自動運転アプリケーションに実用的である。
関連論文リスト
- Exposing Hallucinations To Suppress Them: VLMs Representation Editing With Generative Anchors [8.089908150148554]
マルチモーダル大規模言語モデル (MLLM) は様々な視覚言語タスクにおいて顕著な成功を収めている。
MLLMは幻覚に非常に敏感であり、視覚的証拠とは相容れない内容を生み出す。
本研究では,幻覚の緩和のための訓練不要で自己指導的な方法を提案する。
論文 参考訳(メタデータ) (2025-09-26T07:24:28Z) - Mitigating Hallucinations in Multimodal LLMs via Object-aware Preference Optimization [55.543583937522804]
MLLM(Multimodal Large Language Models)は、様々なタスクに対処するための統一インターフェースとして登場した。
多くのベンチマークで最先端の結果が誇示されているにもかかわらず、長年の問題はMLLMが幻覚を起こす傾向にある。
本稿では,幻覚の問題をアライメント問題として取り上げ,幻覚を伴わないコンテンツを生成するためのMLLMのステアリングを試みる。
論文 参考訳(メタデータ) (2025-08-27T18:02:04Z) - Generate, but Verify: Reducing Hallucination in Vision-Language Models with Retrospective Resampling [78.78822033285938]
VLM(Vision-Language Models)は視覚的理解に優れ、視覚幻覚に悩まされることが多い。
本研究では,幻覚を意識したトレーニングとオンザフライの自己検証を統合した統合フレームワークREVERSEを紹介する。
論文 参考訳(メタデータ) (2025-04-17T17:59:22Z) - Efficient Contrastive Decoding with Probabilistic Hallucination Detection - Mitigating Hallucinations in Large Vision Language Models - [1.2499537119440245]
効率的なコントラストデコーディング(ECD)は、確率的幻覚検出を利用して、推定時に出力分布を文脈的に正確な解へとシフトする単純な方法である。
実験の結果,LCDは幻覚を効果的に軽減し,LVLMベンチマークの性能や計算時間に対して最先端の手法より優れることがわかった。
論文 参考訳(メタデータ) (2025-04-16T14:50:25Z) - AutoHallusion: Automatic Generation of Hallucination Benchmarks for Vision-Language Models [91.78328878860003]
視覚言語モデル(LVLM)は幻覚の傾向が強い。
ベンチマークは多くの場合、障害パターンが一般化できない手作りのコーナーケースに依存します。
最初の自動ベンチマーク生成手法であるAutoHallusionを開発した。
論文 参考訳(メタデータ) (2024-06-16T11:44:43Z) - Detecting and Mitigating Hallucination in Large Vision Language Models via Fine-Grained AI Feedback [40.930238150365795]
我々は,LVLM(Large Vision Language Models)における幻覚の検出と緩和について,きめ細かいAIフィードバックを用いて提案する。
プロプライエタリモデルによる小型幻覚アノテーションデータセットを生成する。
そこで本研究では,幻覚緩和モデルの訓練のための選好データセットを自動構築する検出テーマ書き換えパイプラインを提案する。
論文 参考訳(メタデータ) (2024-04-22T14:46:10Z) - AutoHall: Automated Hallucination Dataset Generation for Large Language Models [56.92068213969036]
本稿では,AutoHallと呼ばれる既存のファクトチェックデータセットに基づいて,モデル固有の幻覚データセットを自動的に構築する手法を提案する。
また,自己コントラディションに基づくゼロリソース・ブラックボックス幻覚検出手法を提案する。
論文 参考訳(メタデータ) (2023-09-30T05:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。