論文の概要: ViLU: Learning Vision-Language Uncertainties for Failure Prediction
- arxiv url: http://arxiv.org/abs/2507.07620v3
- Date: Thu, 24 Jul 2025 09:03:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 15:10:41.934526
- Title: ViLU: Learning Vision-Language Uncertainties for Failure Prediction
- Title(参考訳): ViLU: 失敗予測のためのビジョンランゲージの不確実性を学ぶ
- Authors: Marc Lafon, Yannis Karmim, Julio Silva-Rodríguez, Paul Couairon, Clément Rambour, Raphaël Fournier-Sniehotta, Ismail Ben Ayed, Jose Dolz, Nicolas Thome,
- Abstract要約: 我々は、新しいビジョンランゲージ不確実性定量化フレームワークであるViLUを紹介する。
ViLUは、視覚埋め込み、予測されたテキスト埋め込み、およびクロスアテンションによる画像条件付きテキスト表現を統合することで、不確実性を考慮したマルチモーダル表現を構築する。
提案手法は,視覚とテキストの埋め込みのみをモデル自体に直接アクセスすることなく利用できる,ポストホックな設定に適している。
- 参考スコア(独自算出の注目度): 28.439422629957424
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reliable Uncertainty Quantification (UQ) and failure prediction remain open challenges for Vision-Language Models (VLMs). We introduce ViLU, a new Vision-Language Uncertainty quantification framework that contextualizes uncertainty estimates by leveraging all task-relevant textual representations. ViLU constructs an uncertainty-aware multi-modal representation by integrating the visual embedding, the predicted textual embedding, and an image-conditioned textual representation via cross-attention. Unlike traditional UQ methods based on loss prediction, ViLU trains an uncertainty predictor as a binary classifier to distinguish correct from incorrect predictions using a weighted binary cross-entropy loss, making it loss-agnostic. In particular, our proposed approach is well-suited for post-hoc settings, where only vision and text embeddings are available without direct access to the model itself. Extensive experiments on diverse datasets show the significant gains of our method compared to state-of-the-art failure prediction methods. We apply our method to standard classification datasets, such as ImageNet-1k, as well as large-scale image-caption datasets like CC12M and LAION-400M. Ablation studies highlight the critical role of our architecture and training in achieving effective uncertainty quantification. Our code is publicly available and can be found here: https://github.com/ykrmm/ViLU.
- Abstract(参考訳): 信頼性の不確実性定量化(UQ)と故障予測は、ビジョンランゲージモデル(VLM)のオープンな課題のままである。
タスク関係のテキスト表現をすべて活用して不確実性推定を文脈的に行う,視覚言語不確実性定量化フレームワークである ViLU を紹介する。
ViLUは、視覚埋め込み、予測されたテキスト埋め込み、およびクロスアテンションによる画像条件付きテキスト表現を統合することで、不確実性を考慮したマルチモーダル表現を構築する。
損失予測に基づく従来のUQ手法とは異なり、ViLUは不確かさ予測器を二項分類器として訓練し、重み付き二項クロスエントロピー損失を用いた誤予測とを区別し、損失を認識しない。
特に,提案手法は,視覚とテキストの埋め込みのみをモデル自体に直接アクセスすることなく利用できるような,ポストホックな設定に適している。
多様なデータセットに対する大規模な実験は、最先端の故障予測手法と比較して、我々の手法の顕著な利得を示している。
本稿では,ImageNet-1kなどの標準分類データセットや,CC12MやLAION-400Mといった大規模画像キャプチャデータセットに適用する。
アブレーション研究は、効果的な不確実性定量化を達成する上でのアーキテクチャとトレーニングの重要な役割を浮き彫りにする。
私たちのコードは公開されており、https://github.com/ykrmm/ViLU。
関連論文リスト
- Audio-Driven Talking Face Video Generation with Joint Uncertainty Learning [11.551314848756107]
高品質な音声合成のための統合不確実性学習ネットワーク(JULNet)を提案する。
まず、生成した画像を得た後にエラーマップと不確実性マップを個別に予測する不確実性モジュールを設計する。
エラーと不確実性を共同で最適化することにより、モデルの性能と堅牢性を向上させることができる。
論文 参考訳(メタデータ) (2025-04-26T05:45:38Z) - Words or Vision: Do Vision-Language Models Have Blind Faith in Text? [34.88114876390461]
VLM(Vision-Language Models)は、視覚中心のタスクに対する視覚情報とテキスト情報の統合に優れる。
視覚中心設定における視覚データや様々なテキスト入力に直面するVLMのモダリティ嗜好について検討する。
不整合が発生した場合、VLMは視覚的データよりもテキストデータを不均等に信頼する。
論文 参考訳(メタデータ) (2025-03-04T02:21:07Z) - Adaptive Prompt Tuning: Vision Guided Prompt Tuning with Cross-Attention for Fine-Grained Few-Shot Learning [5.242869847419834]
コンピュータビジョンにおける微妙な分類は、限られたデータで微妙な分類を区別する必要があるため、大きな課題となる。
本稿では,適応的なプロンプトチューニングにより,コントラスト言語画像事前学習モデルを強化する手法を提案する。
論文 参考訳(メタデータ) (2024-12-19T08:51:01Z) - Sample-agnostic Adversarial Perturbation for Vision-Language Pre-training Models [7.350203999073509]
AIセキュリティに関する最近の研究は、画像やテキストの微妙で意図的に設計された摂動に対するビジョンランゲージ事前学習モデルの脆弱性を強調している。
私たちの知る限りでは、どんな画像にも当てはまる普遍的でサンプルに依存しない摂動の生成を探索する、マルチモーダルな決定境界による最初の研究である。
論文 参考訳(メタデータ) (2024-08-06T06:25:39Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - ProbVLM: Probabilistic Adapter for Frozen Vision-Language Models [69.50316788263433]
本稿では,事前学習された視覚言語モデルの埋め込みに対する確率分布を推定する確率的アダプタProbVLMを提案する。
本稿では,検索タスクにおける不確実性埋め込みのキャリブレーションを定量化し,ProbVLMが他の手法よりも優れていることを示す。
本稿では,大規模な事前学習型潜伏拡散モデルを用いて,埋め込み分布を可視化する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-01T18:16:06Z) - MAP: Multimodal Uncertainty-Aware Vision-Language Pre-training Model [35.52349231889843]
確率分布 (Probability Distribution, PDE) を用いて, 確率分布として全てのモダリティの表現を投影する。
既存の決定論的手法と比較して、そのような不確実性モデリングはよりリッチなマルチモーダル意味情報を伝達することができる。
本稿では,D-VLC(Dis Distribution-based Vision-Language Contrastive Learning),D-MLM(Dis Distribution-based Masked Language Modeling),D-ITM(Dis Distribution-based Image-Text Matching)を提案する。
論文 参考訳(メタデータ) (2022-10-11T10:54:54Z) - Loss re-scaling VQA: Revisiting the LanguagePrior Problem from a
Class-imbalance View [129.392671317356]
本稿では,クラス不均衡の観点から,VQAにおける言語先行問題を理解することを提案する。
これは、なぜVQAモデルが頻繁に、そして明らかに間違った答えをもたらすのかを明確に示している。
また,顔認識や画像分類などの他のコンピュータビジョンタスクに対して,クラス不均衡解釈方式の有効性を正当化する。
論文 参考訳(メタデータ) (2020-10-30T00:57:17Z) - An Uncertainty-based Human-in-the-loop System for Industrial Tool Wear
Analysis [68.8204255655161]
人間のループシステムにおけるモンテカルロのドロップアウトに基づく不確実性対策により,システムの透明性と性能が向上することを示す。
シミュレーション研究により、不確実性に基づく「ループ内人間システム」は、様々なレベルの人間の関与に対する性能を高めることが示されている。
論文 参考訳(メタデータ) (2020-07-14T15:47:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。