論文の概要: Leveraging Visual Signals for Robust Token-Level Uncertainty in Vision-Language Generation
- arxiv url: http://arxiv.org/abs/2605.27136v1
- Date: Tue, 26 May 2026 15:04:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:42.296924
- Title: Leveraging Visual Signals for Robust Token-Level Uncertainty in Vision-Language Generation
- Title(参考訳): 視覚言語生成におけるロバストなトーケンレベル不確実性のための視覚信号の活用
- Authors: Joseph Hoche, David Brellmann, Gianni Franchi,
- Abstract要約: 不確実性定量化(UQ)は、LVLM(Large Vision Language Models)において重要な課題である。
VIG-TUQ(Visual-Grounded Token UQ)を提案する。
- 参考スコア(独自算出の注目度): 10.212763020484092
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Uncertainty quantification (UQ) remains a critical challenge in Large Vision Language Models (LVLMs) for reliable predictions and real-world deployment. However, most existing methods are adapted from the LLM literature and primarily focus on the language modality, leaving the contribution of visual information to LVLM uncertainty largely underexplored. In this paper, we investigate how LVLMs process visual information and whether this process can be used to improve uncertainty estimation. By analyzing hidden representations after the integration of visual features during the generation process, we observe that high-confidence predictions rely more heavily on visual content than uncertain ones. Building on this insight, we propose Visual-Grounded Token UQ (VIG-TUQ), a training-free framework that explicitly incorporates visual grounding into uncertainty estimation by weighting token-level language uncertainty with visual grounding scores. We evaluate VIG-TUQ on multiple datasets and across diverse LVLM architectures, including early-fusion, late-fusion, and native-fusion models. Results indicate that our method often improves upon existing token-level uncertainty approaches. Code and data will be made available upon acceptance.
- Abstract(参考訳): 不確実性定量化(UQ)は、信頼性のある予測と実世界の展開において、LVLM(Large Vision Language Models)において重要な課題である。
しかし、既存のほとんどの手法はLLMの文献から適応しており、言語モダリティに重点を置いており、視覚情報のLVLMへの貢献は未解明のままである。
本稿では,LVLMが視覚情報をどのように処理し,この処理が不確実性評価の改善に有効かを検討する。
生成過程における視覚的特徴の統合後の隠れ表現を解析することにより、高い信頼度予測が不確実性よりも視覚的内容に強く依存していることを確認する。
この知見に基づいて,トークンレベルの言語不確実性の重み付けと視覚的グラウンドスコアの重み付けにより,視覚的グラウンドリングを不確実性推定に明示的に組み込む,トレーニング不要なフレームワークであるVisual-Grounded Token UQ (VIG-TUQ)を提案する。
VIG-TUQは、早期融合、後期融合、ネイティブ融合モデルを含む多種多様なLVLMアーキテクチャで評価する。
その結果,既存のトークンレベルの不確実性アプローチにおいて,提案手法がしばしば改善されることが示唆された。
コードとデータは受け入れ次第利用可能になる。
関連論文リスト
- Unleashing Vision-Language Semantics for Deepfake Video Detection [78.7562836979696]
ディープフェイクビデオ検出(DFD)研究は、事前訓練されたビジョンランゲージモデル(VLM)が、異なるアイデンティティにわたるアーティファクトの検出において強力な一般化能力を示すことを示した。
VLAForgeは、深度検出におけるモデルの識別可能性を高めるために、そのようなクロスモーダルセマンティクスの可能性を解き放つ新しいDFDフレームワークである。
論文 参考訳(メタデータ) (2026-03-25T16:05:35Z) - VAUQ: Vision-Aware Uncertainty Quantification for LVLM Self-Evaluation [22.921677603408188]
LVLM(Large Vision-Language Models)はしばしば幻覚を呈し、現実世界のアプリケーションに安全な配置を制限している。
LVLM自己評価のための視覚対応不確実性定量化フレームワークVAUQを提案する。
VAUQは、モデルの出力が視覚的証拠に依存するかを明確に測定する。
論文 参考訳(メタデータ) (2026-02-24T16:11:14Z) - ViLU: Learning Vision-Language Uncertainties for Failure Prediction [42.22422504877948]
我々は、新しいビジョンランゲージ不確実性定量化フレームワークであるViLUを紹介する。
ViLUは、視覚埋め込み、予測されたテキスト埋め込み、およびクロスアテンションによる画像条件付きテキスト表現を統合することで、不確実性を考慮したマルチモーダル表現を構築する。
提案手法は,視覚とテキストの埋め込みのみをモデル自体に直接アクセスすることなく利用できる,ポストホックな設定に適している。
論文 参考訳(メタデータ) (2025-07-10T10:41:13Z) - Post-hoc Probabilistic Vision-Language Models [54.05237186168399]
視覚言語モデル(VLM)は、分類、検索、生成タスクにおいて顕著な成功を収めている。
追加トレーニングを必要としないVLMにおけるポストホック不確実性評価を提案する。
この結果から,大規模モデルの安全性クリティカルな応用が期待できることがわかった。
論文 参考訳(メタデータ) (2024-12-08T18:16:13Z) - Beyond Sight: Towards Cognitive Alignment in LVLM via Enriched Visual Knowledge [24.538839144639653]
LVLM(Large Vision-Language Models)は、学習済みのビジョンと言語コンポーネントを個別に統合する。
これらのモデルはしばしば、視覚エンコーダ(VE)と大言語モデル(LLM)の「認知的不整合」の中核的な問題に遭遇する。
論文 参考訳(メタデータ) (2024-11-25T18:33:14Z) - CLUE: Concept-Level Uncertainty Estimation for Large Language Models [49.92690111618016]
大規模言語モデル(LLM)のための概念レベル不確実性推定のための新しいフレームワークを提案する。
LLMを利用して、出力シーケンスを概念レベルの表現に変換し、シーケンスを個別の概念に分解し、各概念の不確かさを個別に測定する。
我々は,文レベルの不確実性と比較して,CLUEがより解釈可能な不確実性推定結果を提供できることを示す実験を行った。
論文 参考訳(メタデータ) (2024-09-04T18:27:12Z) - Unconditional Truthfulness: Learning Unconditional Uncertainty of Large Language Models [104.55763564037831]
我々は、注意マップ、現在の生成ステップにおける確率、および以前に生成されたトークンから繰り返し計算された不確実性スコアを利用する回帰モデルを訓練する。
評価の結果,提案手法は選択的生成に極めて有効であり,教師なしアプローチと教師なしアプローチに比較して大幅な改善が得られた。
論文 参考訳(メタデータ) (2024-08-20T09:42:26Z) - Debiasing Multimodal Large Language Models via Penalization of Language Priors [38.97645845493758]
MLLM(Multimodal Large Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
生成されたコンテンツは、入力画像よりも、基礎となるLarge Language Models (LLMs) の本質的な先行性によって駆動されることが多い。
本稿では、これらのバイアスを補正し、視覚情報に対するモデルの焦点をリダイレクトするための、単純でトレーニングのない2つの戦略を提案する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。