論文の概要: ViLU: Learning Vision-Language Uncertainties for Failure Prediction
- arxiv url: http://arxiv.org/abs/2507.07620v1
- Date: Thu, 10 Jul 2025 10:41:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.360381
- Title: ViLU: Learning Vision-Language Uncertainties for Failure Prediction
- Title(参考訳): ViLU: 失敗予測のためのビジョンランゲージの不確実性を学ぶ
- Authors: Marc Lafon, Yannis Karmim, Julio Silva-Rodriguez, Paul Couairon, Clément Rambour, Raphaël Fournier-Sniehotta, Ismail Ben Ayed, Jose Dolz, Nicolas Thome,
- Abstract要約: 我々は、新しいビジョンランゲージ不確実性定量化フレームワークであるViLUを紹介する。
ViLUは、視覚埋め込み、予測されたテキスト埋め込み、およびクロスアテンションによる画像条件付きテキスト表現を統合することで、不確実性を考慮したマルチモーダル表現を構築する。
提案手法は,視覚とテキストの埋め込みのみをモデル自体に直接アクセスすることなく利用できる,ポストホックな設定に適している。
- 参考スコア(独自算出の注目度): 27.205969133060528
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reliable Uncertainty Quantification (UQ) and failure prediction remain open challenges for Vision-Language Models (VLMs). We introduce ViLU, a new Vision-Language Uncertainty quantification framework that contextualizes uncertainty estimates by leveraging all task-relevant textual representations. ViLU constructs an uncertainty-aware multi-modal representation by integrating the visual embedding, the predicted textual embedding, and an image-conditioned textual representation via cross-attention. Unlike traditional UQ methods based on loss prediction, ViLU trains an uncertainty predictor as a binary classifier to distinguish correct from incorrect predictions using a weighted binary cross-entropy loss, making it loss-agnostic. In particular, our proposed approach is well-suited for post-hoc settings, where only vision and text embeddings are available without direct access to the model itself. Extensive experiments on diverse datasets show the significant gains of our method compared to state-of-the-art failure prediction methods. We apply our method to standard classification datasets, such as ImageNet-1k, as well as large-scale image-caption datasets like CC12M and LAION-400M. Ablation studies highlight the critical role of our architecture and training in achieving effective uncertainty quantification. Our code is publicly available and can be found here: https://github.com/ykrmm/ViLU.
- Abstract(参考訳): 信頼性の不確実性定量化(UQ)と故障予測は、ビジョンランゲージモデル(VLM)のオープンな課題のままである。
タスク関係のテキスト表現をすべて活用して不確実性推定を文脈的に行う,視覚言語不確実性定量化フレームワークである ViLU を紹介する。
ViLUは、視覚埋め込み、予測されたテキスト埋め込み、およびクロスアテンションによる画像条件付きテキスト表現を統合することで、不確実性を考慮したマルチモーダル表現を構築する。
損失予測に基づく従来のUQ手法とは異なり、ViLUは不確かさ予測器を二項分類器として訓練し、重み付き二項クロスエントロピー損失を用いた誤予測とを区別し、損失を認識しない。
特に,提案手法は,視覚とテキストの埋め込みのみをモデル自体に直接アクセスすることなく利用できるような,ポストホックな設定に適している。
多様なデータセットに対する大規模な実験は、最先端の故障予測手法と比較して、我々の手法の顕著な利得を示している。
本稿では,ImageNet-1kなどの標準分類データセットや,CC12MやLAION-400Mといった大規模画像キャプチャデータセットに適用する。
アブレーション研究は、効果的な不確実性定量化を達成する上でのアーキテクチャとトレーニングの重要な役割を浮き彫りにする。
私たちのコードは公開されており、https://github.com/ykrmm/ViLU。
関連論文リスト
- Words or Vision: Do Vision-Language Models Have Blind Faith in Text? [34.88114876390461]
VLM(Vision-Language Models)は、視覚中心のタスクに対する視覚情報とテキスト情報の統合に優れる。
視覚中心設定における視覚データや様々なテキスト入力に直面するVLMのモダリティ嗜好について検討する。
不整合が発生した場合、VLMは視覚的データよりもテキストデータを不均等に信頼する。
論文 参考訳(メタデータ) (2025-03-04T02:21:07Z) - Adaptive Prompt Tuning: Vision Guided Prompt Tuning with Cross-Attention for Fine-Grained Few-Shot Learning [5.242869847419834]
コンピュータビジョンにおける微妙な分類は、限られたデータで微妙な分類を区別する必要があるため、大きな課題となる。
本稿では,適応的なプロンプトチューニングにより,コントラスト言語画像事前学習モデルを強化する手法を提案する。
論文 参考訳(メタデータ) (2024-12-19T08:51:01Z) - Sample-agnostic Adversarial Perturbation for Vision-Language Pre-training Models [7.350203999073509]
AIセキュリティに関する最近の研究は、画像やテキストの微妙で意図的に設計された摂動に対するビジョンランゲージ事前学習モデルの脆弱性を強調している。
私たちの知る限りでは、どんな画像にも当てはまる普遍的でサンプルに依存しない摂動の生成を探索する、マルチモーダルな決定境界による最初の研究である。
論文 参考訳(メタデータ) (2024-08-06T06:25:39Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - MAP: Multimodal Uncertainty-Aware Vision-Language Pre-training Model [35.52349231889843]
確率分布 (Probability Distribution, PDE) を用いて, 確率分布として全てのモダリティの表現を投影する。
既存の決定論的手法と比較して、そのような不確実性モデリングはよりリッチなマルチモーダル意味情報を伝達することができる。
本稿では,D-VLC(Dis Distribution-based Vision-Language Contrastive Learning),D-MLM(Dis Distribution-based Masked Language Modeling),D-ITM(Dis Distribution-based Image-Text Matching)を提案する。
論文 参考訳(メタデータ) (2022-10-11T10:54:54Z) - Loss re-scaling VQA: Revisiting the LanguagePrior Problem from a
Class-imbalance View [129.392671317356]
本稿では,クラス不均衡の観点から,VQAにおける言語先行問題を理解することを提案する。
これは、なぜVQAモデルが頻繁に、そして明らかに間違った答えをもたらすのかを明確に示している。
また,顔認識や画像分類などの他のコンピュータビジョンタスクに対して,クラス不均衡解釈方式の有効性を正当化する。
論文 参考訳(メタデータ) (2020-10-30T00:57:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。