論文の概要: Are foundation models for computer vision good conformal predictors?
- arxiv url: http://arxiv.org/abs/2412.06082v1
- Date: Sun, 08 Dec 2024 22:05:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:54:55.969403
- Title: Are foundation models for computer vision good conformal predictors?
- Title(参考訳): コンピュータビジョンのための基礎モデルは適合予測器か?
- Authors: Leo Fillioux, Julio Silva-Rodríguez, Ismail Ben Ayed, Paul-Henry Cournède, Maria Vakalopoulou, Stergios Christodoulidis, Jose Dolz,
- Abstract要約: コンフォーマル予測(CP)に基づく視覚・視覚言語基礎モデルの振る舞いについて検討する。
この結果から, 基礎モデルはコンフォーマライズ手順, 特にビジョントランスフォーマーの統合に適していることが判明した。
- 参考スコア(独自算出の注目度): 17.53651859360999
- License:
- Abstract: Recent advances in self-supervision and constrastive learning have brought the performance of foundation models to unprecedented levels in a variety of tasks. Fueled by this progress, these models are becoming the prevailing approach for a wide array of real-world vision problems, including risk-sensitive and high-stakes applications. However, ensuring safe deployment in these scenarios requires a more comprehensive understanding of their uncertainty modeling capabilities, which has been barely explored. In this work, we delve into the behavior of vision and vision-language foundation models under Conformal Prediction (CP), a statistical framework that provides theoretical guarantees of marginal coverage of the true class. Across extensive experiments including popular vision classification benchmarks, well-known foundation vision models, and three CP methods, our findings reveal that foundation models are well-suited for conformalization procedures, particularly those integrating Vision Transformers. Furthermore, we show that calibrating the confidence predictions of these models leads to efficiency degradation of the conformal set on adaptive CP methods. In contrast, few-shot adaptation to downstream tasks generally enhances conformal scores, where we identify Adapters as a better conformable alternative compared to Prompt Learning strategies. Our empirical study identifies APS as particularly promising in the context of vision foundation models, as it does not violate the marginal coverage property across multiple challenging, yet realistic scenarios.
- Abstract(参考訳): 近年の自己スーパービジョンとコンストラッシブラーニングの進歩により、基礎モデルの性能は様々なタスクにおいて前例のないレベルに向上した。
この進歩によって、これらのモデルは、リスクに敏感かつ高リスクなアプリケーションを含む、幅広い現実世界の視覚問題に対する一般的なアプローチになりつつある。
しかし、これらのシナリオに安全なデプロイを保証するには、ほとんど調査されていない不確実性モデリング機能をより包括的に理解する必要がある。
本研究は,真のクラスに対する限界被覆の理論的保証を提供する統計フレームワークであるConformal Prediction (CP) の下で,視覚と視覚言語基礎モデルの振る舞いを探索する。
一般的な視覚分類ベンチマーク,よく知られた基礎視覚モデル,および3つのCP手法を含む広範囲な実験の結果,基礎モデルはコンフォーマル化処理,特にビジョン変換器の統合に適していることが判明した。
さらに、これらのモデルの信頼性予測を校正すると、適応CP法における共形集合の効率が低下することを示す。
対照的に、下流タスクへの少数ショット適応は、一般的にコンフォメーションスコアを高め、そこでは、AdapterをPrompt Learning戦略よりも優れたコンフォメーション可能な代替手段として認識する。
我々の実証研究は、APSが視覚基礎モデルの文脈において特に有望であると認識している。
関連論文リスト
- Explanatory Model Monitoring to Understand the Effects of Feature Shifts on Performance [61.06245197347139]
そこで本研究では,機能シフトによるブラックボックスモデルの振る舞いを説明する新しい手法を提案する。
本稿では,最適輸送と共有値の概念を組み合わせた提案手法について,説明的性能推定として紹介する。
論文 参考訳(メタデータ) (2024-08-24T18:28:19Z) - Bayesian Exploration of Pre-trained Models for Low-shot Image Classification [14.211305168954594]
本研究はガウス過程に基づくシンプルで効果的な確率的モデルアンサンブルフレームワークを提案する。
平均関数をCLIPとカーネル関数で指定することで,事前知識の統合を実現する。
提案手法は,予測性能に関する競争アンサンブルベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2024-03-30T10:25:28Z) - Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - ReCoRe: Regularized Contrastive Representation Learning of World Model [21.29132219042405]
対照的な教師なし学習と介入不変正規化器を用いて不変特徴を学習する世界モデルを提案する。
提案手法は,現状のモデルベースおよびモデルフリーのRL法より優れ,iGibsonベンチマークで評価された分布外ナビゲーションタスクを大幅に改善する。
論文 参考訳(メタデータ) (2023-12-14T15:53:07Z) - On the Out of Distribution Robustness of Foundation Models in Medical
Image Segmentation [47.95611203419802]
視覚と言語の基礎は、様々な自然画像とテキストデータに基づいて事前訓練されており、有望なアプローチとして現れている。
一般化性能を,同じ分布データセット上で微調整した後,事前学習した各種モデルの未確認領域と比較した。
さらに,凍結モデルに対する新しいベイズ不確実性推定法を開発し,分布外データに基づくモデルの性能評価指標として利用した。
論文 参考訳(メタデータ) (2023-11-18T14:52:10Z) - Group-Conditional Conformal Prediction via Quantile Regression
Calibration for Crop and Weed Classification [0.0]
本稿では,ブラックボックス予測装置の予測性能について,統計的に妥当な保証を提供する共形予測フレームワークを提案する。
このフレームワークは、実践的な側面と、Adaptive Prediction Sets (APS) アプローチに沿った特別な注意を払って公開されている。
この欠点に対処するため、群-条件共形アプローチが提示される。
論文 参考訳(メタデータ) (2023-08-29T08:02:41Z) - Uncertainty Estimation of Transformers' Predictions via Topological Analysis of the Attention Matrices [3.1466086042810884]
トランスフォーマーベースの言語モデルは、幅広いNLPタスクに新しいベンチマークを設定している。
予測の不確実性を確実に見積もるのは 重要な課題です
モデル信頼度を評価するために,複数の頭部・層にまたがるアテンションマップの幾何学的特徴を活用することで,これらの制約に対処する。
提案手法は,アクセプタビリティ判定と人工テキスト検出のためのベンチマークにおいて,既存の不確実性推定手法を著しく上回っている。
論文 参考訳(メタデータ) (2023-08-22T09:17:45Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Characterizing Fairness Over the Set of Good Models Under Selective
Labels [69.64662540443162]
同様の性能を実現するモデルセットに対して,予測公正性を特徴付けるフレームワークを開発する。
到達可能なグループレベルの予測格差の範囲を計算するためのトラクタブルアルゴリズムを提供します。
選択ラベル付きデータの実証的な課題に対処するために、我々のフレームワークを拡張します。
論文 参考訳(メタデータ) (2021-01-02T02:11:37Z) - On the model-based stochastic value gradient for continuous
reinforcement learning [50.085645237597056]
モデルベースエージェントは,サンプル効率と最終報酬の両方の観点から,最先端のモデルフリーエージェントより優れていることを示す。
以上の結果から,モデルに基づく政策評価がより注目に値することが示唆された。
論文 参考訳(メタデータ) (2020-08-28T17:58:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。