論文の概要: SCoOP: Semantic Consistent Opinion Pooling for Uncertainty Quantification in Multiple Vision-Language Model Systems
- arxiv url: http://arxiv.org/abs/2603.23853v1
- Date: Wed, 25 Mar 2026 02:30:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.091516
- Title: SCoOP: Semantic Consistent Opinion Pooling for Uncertainty Quantification in Multiple Vision-Language Model Systems
- Title(参考訳): SCoOP:マルチビジョン言語モデルシステムにおける不確実性定量のためのセマンティック一貫性オピニオンプール
- Authors: Chung-En Johnny Yu, Brian Jalaian, Nathaniel D. Bastian,
- Abstract要約: 本研究では,不確実性重み付き線形意見プールによるマルチVLMシステムであるSCoOP(Semantic-Consistent Opinion Pooling)を提案する。
シングルモデル用に設計された以前のUQメソッドとは異なり、SCoOPは複数のVLMをまたいだ集合的、システムレベルの不確実性を明示的に測定する。
SCoOPは、不確実性を認識したアグリゲーションのための効率的で原則化されたメカニズムを提供し、マルチモーダルAIシステムの信頼性を向上する。
- 参考スコア(独自算出の注目度): 6.96926551349545
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Combining multiple Vision-Language Models (VLMs) can enhance multimodal reasoning and robustness, but aggregating heterogeneous models' outputs amplifies uncertainty and increases the risk of hallucinations. We propose SCoOP (Semantic-Consistent Opinion Pooling), a training-free uncertainty quantification (UQ) framework multi-VLM systems through uncertainty-weighted linear opinion pooling. Unlike prior UQ methods designed for single models, SCoOP explicitly measures collective, system-level uncertainty across multiple VLMs, enabling effective hallucination detection and abstention for highly uncertain samples. On ScienceQA, SCoOP achieves an AUROC of 0.866 for hallucination detection, outperforming baselines (0.732-0.757) by approximately 10-13%. For abstention, it attains an AURAC of 0.907, exceeding baselines (0.818-0.840) by 7-9%. Despite these gains, SCoOP introduces only microsecond-level aggregation overhead relative to the baselines, which is trivial compared to typical VLM inference time (on the order of seconds). These results demonstrate that SCoOP provides an efficient and principled mechanism for uncertainty-aware aggregation, advancing the reliability of multimodal AI systems.
- Abstract(参考訳): 複数のビジョンランゲージモデル(VLM)を組み合わせることで、マルチモーダル推論とロバスト性を高めることができるが、異種モデルの出力の集約は不確実性を増幅し、幻覚のリスクを増大させる。
SCoOP(Semantic-Consistent Opinion Pooling)は,不確実性重み付き線形意見プールによるトレーニング不要不確実性定量化(UQ)フレームワークである。
シングルモデル用に設計された以前のUQ手法とは異なり、SCoOPは複数のVLMにわたる集合的、システムレベルの不確実性を明示的に測定し、非常に不確実なサンプルに対して効果的な幻覚検出と棄権を可能にする。
ScienceQAでは、SCoOPは幻覚検出のための0.866のAUROCを達成し、ベースライン(0.732-0.757)を約10-13%上回る。
禁忌の場合、AURACは0.907で、ベースライン(0.818-0.840)を7-9%上回る。
これらのゲインにもかかわらず、SCoOPはベースラインに対してマイクロ秒レベルのアグリゲーションしか導入していない。
これらの結果から、SCoOPは不確実性を認識したアグリゲーションのための効率的かつ原則化されたメカニズムを提供し、マルチモーダルAIシステムの信頼性を向上することを示した。
関連論文リスト
- Enhancing the Outcome Reward-based RL Training of MLLMs with Self-Consistency Sampling [90.87033586963828]
マルチモーダル大言語モデル(MLLM)のステップ・バイ・ステップ推論を洗練させる手段としては,アウトカム・リワード強化学習(RL)が一般的であり,ますます重要になっている。
この問題を修正するために,自己整合サンプリング(SCS)を提案する。
Qwen2.5-VL-7B-インストラクトに基づいて、SCSは、無視できる余分な計算を伴う6つのマルチモーダルベンチマークにおいて、最大7.7ポイントの精度を向上する。
論文 参考訳(メタデータ) (2025-11-13T18:59:57Z) - CoT-Saliency: Unified Chain-of-Thought Reasoning for Heterogeneous Saliency Tasks [96.64597365827046]
本稿では,3つの運用上不均一なサリエンシタスクを共同で処理する,最初の統合フレームワークを提案する。
タスクの不均一性を橋渡しする視覚言語モデル(VLM)において、チェーン・オブ・ソート(CoT)推論プロセスを導入する。
我々は,全タスクにまたがる特別なSOTA手法と強力なクローズドソースVLMの整合性を示す。
論文 参考訳(メタデータ) (2025-11-01T04:37:01Z) - HARMONY: Hidden Activation Representations and Model Output-Aware Uncertainty Estimation for Vision-Language Models [42.91752946934796]
不確実性推定は、モデル出力の信頼性の定量化において中心的な役割を果たす。
既存の確率に基づくUEアプローチの多くは、単一不確実性スコアにトークン確率を集約する出力確率分布に依存している。
本稿では,モデルアクティベーションにおける融合マルチモーダル情報とVLMの出力分布を協調的に活用する新しいUEフレームワークHARMONYを提案する。
論文 参考訳(メタデータ) (2025-10-25T05:45:18Z) - Token-Level Inference-Time Alignment for Vision-Language Models [58.41370989069588]
VLM(Vision-Language Models)は、現代のマルチモーダルインテリジェンスの重要なバックボーンとなっている。
本稿では,基本VLMを凍結し,その分布を近似する報酬モデルをトレーニングする軽量フレームワークTITAを提案する。
推測中、暗黙の選好信号は報酬モデルと目標VLMの対数確率比として抽出され、密集した自己回帰フィードバックが得られる。
論文 参考訳(メタデータ) (2025-10-20T09:58:03Z) - MMR1: Enhancing Multimodal Reasoning with Variance-Aware Sampling and Open Resources [113.33902847941941]
VAS (Variance-Aware Sampling) は、Variance Promotion Score (VPS) によって導かれるデータ選択戦略である。
我々は、1.6MのCoT冷間開始データと15kのRLQAペアを含む大規模かつ慎重にキュレートされたリソースをリリースする。
数学的推論ベンチマークによる実験では、キュレートされたデータと提案されたVASの有効性が示されている。
論文 参考訳(メタデータ) (2025-09-25T14:58:29Z) - Data-Driven Calibration of Prediction Sets in Large Vision-Language Models Based on Inductive Conformal Prediction [0.0]
動的しきい値キャリブレーションとクロスモーダル整合性検証を統合したモデル非依存不確実性定量化法を提案する。
このフレームワークは、様々なキャリブレーションとテストの分割比で安定したパフォーマンスを実現し、医療、自律システム、その他の安全に敏感な領域における現実的な展開の堅牢性を強調している。
この研究は、マルチモーダルAIシステムにおける理論的信頼性と実用性の間のギャップを埋め、幻覚検出と不確実性を考慮した意思決定のためのスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2025-04-24T15:39:46Z) - AVTrustBench: Assessing and Enhancing Reliability and Robustness in Audio-Visual LLMs [70.4578433679737]
我々は9つの細工されたタスクにまたがる600万のサンプルからなるAudio-Visual Trustworthiness Assessment Benchmark (AVTrustBench)を紹介する。
ベンチマークを用いて、13の最先端AVLLMを広範囲に評価した。
その結果、既存のモデルのほとんどは、人間のような理解を達成できないことが判明した。
論文 参考訳(メタデータ) (2025-01-03T23:03:24Z) - Unconditional Truthfulness: Learning Unconditional Uncertainty of Large Language Models [104.55763564037831]
我々は、注意マップ、現在の生成ステップにおける確率、および以前に生成されたトークンから繰り返し計算された不確実性スコアを利用する回帰モデルを訓練する。
評価の結果,提案手法は選択的生成に極めて有効であり,教師なしアプローチと教師なしアプローチに比較して大幅な改善が得られた。
論文 参考訳(メタデータ) (2024-08-20T09:42:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。