論文の概要: Strategic Fusion of Vision Language Models: Shapley-Credited Context-Aware Dawid-Skene for Multi-Label Tasks in Autonomous Driving
- arxiv url: http://arxiv.org/abs/2510.01126v1
- Date: Wed, 01 Oct 2025 17:14:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 14:32:17.223355
- Title: Strategic Fusion of Vision Language Models: Shapley-Credited Context-Aware Dawid-Skene for Multi-Label Tasks in Autonomous Driving
- Title(参考訳): 視覚言語モデルのストラテジック融合:自律運転におけるマルチラベルタスクのためのシェープ付きコンテキスト対応ダウケン
- Authors: Yuxiang Feng, Keyang Zhang, Hassane Ouchouid, Ashwil Kaniamparambil, Ioannis Souflas, Panagiotis Angeloudis,
- Abstract要約: 大規模視覚言語モデル(VLM)は、自律車載スタックでの使用が増えているが、幻覚によって安全クリティカルパイプラインの信頼性が制限されている。
本稿では,エゴビュー・ダシュカムビデオのマルチラベル理解のためのゲーム理論融合法である,Shapley-credited Context-Aware Dawid-Skene with Agreementを提案する。
- 参考スコア(独自算出の注目度): 5.508731861264645
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large vision-language models (VLMs) are increasingly used in autonomous-vehicle (AV) stacks, but hallucination limits their reliability in safety-critical pipelines. We present Shapley-credited Context-Aware Dawid-Skene with Agreement, a game-theoretic fusion method for multi-label understanding of ego-view dashcam video. It learns per-model, per-label, context-conditioned reliabilities from labelled history and, at inference, converts each model's report into an agreement-guardrailed log-likelihood ratio that is combined with a contextual prior and a public reputation state updated via Shapley-based team credit. The result is calibrated, thresholdable posteriors that (i) amplify agreement among reliable models, (ii) preserve uniquely correct single-model signals, and (iii) adapt to drift. To specialise general VLMs, we curate 1,000 real-world dashcam clips with structured annotations (scene description, manoeuvre recommendation, rationale) via an automatic pipeline that fuses HDD ground truth, vehicle kinematics, and YOLOv11 + BoT-SORT tracking, guided by a three-step chain-of-thought prompt; three heterogeneous VLMs are then fine-tuned with LoRA. We evaluate with Hamming distance, Micro-Macro-F1, and average per-video latency. Empirically, the proposed method achieves a 23% reduction in Hamming distance, 55% improvement in Macro-F1, and 47% improvement in Micro-F1 when comparing with the best single model, supporting VLM fusion as a calibrated, interpretable, and robust decision-support component for AV pipelines.
- Abstract(参考訳): 大規模な視覚言語モデル(VLM)は、自律車(AV)スタックでの使用が増えているが、幻覚によって安全クリティカルパイプラインの信頼性が制限されている。
本稿では,エゴビュー・ダシュカムビデオのマルチラベル理解のためのゲーム理論融合法である,Shapley-credited Context-Aware Dawid-Skene with Agreementを提案する。
ラベル付き履歴からモデルごと、ラベルごと、コンテキスト条件付き信頼度を学び、推測すると、各モデルのレポートを、コンテキスト前とShapleyベースのチームクレジットで更新されたパブリックな評価状態を組み合わせた合意付きログライクな比率に変換する。
結果は、キャリブレーションされ、しきい値可能な後部です。
一 信頼あるモデル間の合意を増幅すること。
(二)一意に正しい単モデル信号を保持し、
(三)漂流に適応する。
一般的なVLMを専門にするために,構造化アノテーション(シーン記述,操作レコメンデーション,合理性)を用いた実世界のダシュカムクリップ1,000本を,HDD地上真実,車体キネマティクス,YOLOv11+BoT-SORT追跡を3ステップチェーン・オブ・シートプロンプトでガイドした自動パイプラインでキュレートし,さらに3本の不均一なVLMをLoRAで微調整する。
我々は,ハミング距離,マイクロマクロF1,ビデオ毎の遅延平均を用いて評価を行った。
実験により,提案手法はハミング距離を23%削減し,マクロF1を55%改善し,マイクロF1を47%改善した。
関連論文リスト
- Vehicle-to-Infrastructure Collaborative Spatial Perception via Multimodal Large Language Models [41.00138090010061]
大型言語モデル (MLLM) の限界を克服するために, 軽量でプラグアンドプレイの鳥眼ビュー (BEV) インジェクションコネクタを提案する。
レイトレーシングはRGB、LiDAR、GPS、無線信号データを様々なセンシングシナリオで生成するために開発された。
シミュレーションの結果,提案したBEVインジェクションフレームワークは全タスクのパフォーマンスを継続的に改善していることがわかった。
論文 参考訳(メタデータ) (2025-09-04T02:57:47Z) - KEPT: Knowledge-Enhanced Prediction of Trajectories from Consecutive Driving Frames with Vision-Language Models [19.625631486595505]
本稿では,知識に富んだ視覚言語フレームワークであるKEPTを紹介する。
連続するフロントビュー駆動フレームから直接エゴ軌道を予測する。
オープンループプロトコル間の最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-09-03T03:10:42Z) - Discrete Diffusion VLA: Bringing Discrete Diffusion to Action Decoding in Vision-Language-Action Policies [64.20587321033149]
本稿では、離散化作用チャンクを離散拡散でモデル化し、VLMバックボーンと同じエントロピー目的で訓練するシングルトランスフォーマーポリシーを提案する。
本手法は, 簡単な動作要素をハードなものよりも先に解決する適応的復号法を実現する。
この統合デコーダは、事前訓練された視覚言語を保存し、並列デコードをサポートし、自己回帰的ボトルネックを破り、機能評価の回数を減らす。
論文 参考訳(メタデータ) (2025-08-27T17:39:11Z) - Test-Time Consistency in Vision Language Models [26.475993408532304]
VLM(Vision-Language Models)は、様々なマルチモーダルタスクにおいて優れたパフォーマンスを実現している。
MM-R3のような最近のベンチマークでは、最先端のVLMでさえ意味論的に等価な入力にまたがって分岐予測をもたらすことが強調されている。
教師付き再学習なしにセマンティックな一貫性を高める,シンプルで効果的なテスト時間一貫性フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-27T17:09:44Z) - TS-VLM: Text-Guided SoftSort Pooling for Vision-Language Models in Multi-View Driving Reasoning [1.4087249809872509]
VLM(Vision-Language Models)は、シーン認識、推論、意思決定を強化する可能性を示している。
既存のモデルは、計算オーバーヘッドとマルチビューセンサーデータの非効率な統合に悩まされている。
本稿では,新しいテキストガイドソフトソートプール(TGSSP)モジュールを組み込んだ,TS-VLMという軽量なVLMを提案する。
論文 参考訳(メタデータ) (2025-05-19T03:37:15Z) - SafeAuto: Knowledge-Enhanced Safe Autonomous Driving with Multimodal Foundation Models [63.71984266104757]
我々は、構造化されていない知識と構造化されていない知識の両方を取り入れることで、MLLMベースの自動運転を強化するフレームワークであるSafeAutoを提案する。
安全知識を明示的に統合するため,交通ルールを一階述語論理に変換する推論コンポーネントを開発した。
我々のマルチモーダル検索・拡張生成モデルは、過去の運転経験から学ぶために、ビデオ、制御信号、環境特性を活用する。
論文 参考訳(メタデータ) (2025-02-28T21:53:47Z) - RAC3: Retrieval-Augmented Corner Case Comprehension for Autonomous Driving with Vision-Language Models [9.304973961799359]
視覚言語モデル(VLM)はシナリオ理解の促進に重要な役割を果たしている。
幻覚や現実世界の接地不足といった課題に直面している。
本研究では, コーナーケース理解におけるVLMの性能向上を目的としたRAC3を提案する。
論文 参考訳(メタデータ) (2024-12-15T04:51:30Z) - Can SAM Boost Video Super-Resolution? [78.29033914169025]
単純な有効モジュールであるSAM-guidEd refinEment Module (SEEM)を提案する。
この軽量プラグインモジュールは、セマンティック・アウェア機能の生成にアテンションメカニズムを活用するように設計されている。
我々はSEEMをEDVRとBasicVSRの2つの代表的手法に適用し、最小限の実装労力で継続的に性能を向上する。
論文 参考訳(メタデータ) (2023-05-11T02:02:53Z) - Sparse Conditional Hidden Markov Model for Weakly Supervised Named
Entity Recognition [68.68300358332156]
雑音ラベリング機能を評価するために,スパース条件付き隠れマルコフモデル(Sparse-CHMM)を提案する。
Sparse-CHMMは、3段階のトレーニングパイプラインで教師なし学習によって最適化される。
5つの包括的なデータセットで平均F1スコアが3.01向上する。
論文 参考訳(メタデータ) (2022-05-27T20:47:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。