論文の概要: RaVL: Discovering and Mitigating Spurious Correlations in Fine-Tuned Vision-Language Models
- arxiv url: http://arxiv.org/abs/2411.04097v1
- Date: Wed, 06 Nov 2024 18:25:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-07 19:24:23.280291
- Title: RaVL: Discovering and Mitigating Spurious Correlations in Fine-Tuned Vision-Language Models
- Title(参考訳): RaVL:微調整視覚言語モデルにおけるスパーラス相関の発見と緩和
- Authors: Maya Varma, Jean-Benoit Delbrouck, Zhihong Chen, Akshay Chaudhari, Curtis Langlotz,
- Abstract要約: 微調整された視覚言語モデル(VLM)は、画像の特徴とテキスト属性の間に急激な相関関係を捉え、テスト時にゼロショット性能が劣化する。
本稿では,局所像特徴を用いた突発的相関の発見と緩和により,VLMの微細な視点を捉えたRaVLを提案する。
- 参考スコア(独自算出の注目度): 18.984025219051404
- License:
- Abstract: Fine-tuned vision-language models (VLMs) often capture spurious correlations between image features and textual attributes, resulting in degraded zero-shot performance at test time. Existing approaches for addressing spurious correlations (i) primarily operate at the global image-level rather than intervening directly on fine-grained image features and (ii) are predominantly designed for unimodal settings. In this work, we present RaVL, which takes a fine-grained perspective on VLM robustness by discovering and mitigating spurious correlations using local image features rather than operating at the global image level. Given a fine-tuned VLM, RaVL first discovers spurious correlations by leveraging a region-level clustering approach to identify precise image features contributing to zero-shot classification errors. Then, RaVL mitigates the identified spurious correlation with a novel region-aware loss function that enables the VLM to focus on relevant regions and ignore spurious relationships during fine-tuning. We evaluate RaVL on 654 VLMs with various model architectures, data domains, and learned spurious correlations. Our results show that RaVL accurately discovers (191% improvement over the closest baseline) and mitigates (8.2% improvement on worst-group image classification accuracy) spurious correlations. Qualitative evaluations on general-domain and medical-domain VLMs confirm our findings.
- Abstract(参考訳): 微調整された視覚言語モデル(VLM)は、画像の特徴とテキスト属性の間に急激な相関関係を捉え、テスト時にゼロショット性能が劣化する。
突発的相関に対処する既存のアプローチ
(i)主に細かな画像の特徴に直接介入するのではなく、グローバルな画像レベルで運用する。
(ii)は、主に単調な設定のために設計されている。
本研究では,グローバルな画像レベルでの操作ではなく,局所的な画像特徴を用いた突発的相関の発見と緩和により,VLMのロバスト性を詳細に把握したRaVLを提案する。
微調整されたVLMを与えられたRaVLは、まず、領域レベルのクラスタリングアプローチを活用して、ゼロショット分類エラーに寄与する正確な画像特徴を特定することで、素早い相関を発見する。
そして、RaVLは、特定されたスプリアス相関を、VLMが関連する領域に集中し、微調整中にスプリアス関係を無視できる新しい領域認識損失関数と緩和する。
各種モデルアーキテクチャ,データドメイン,およびスプリアス相関を学習した654VLM上でのRaVLの評価を行った。
以上の結果から,RaVLは精度が高く(最寄りのベースラインよりも191%改善),最大グループ画像分類精度が8.2%向上した),相関関係を緩和することがわかった。
一般領域および医療領域のVLMの質的評価は,本研究の成果を裏付けるものである。
関連論文リスト
- DECIDER: Leveraging Foundation Model Priors for Improved Model Failure Detection and Explanation [18.77296551727931]
本稿では,大規模言語モデル (LLM) と視覚言語モデル (VLM) の先行情報を利用した画像モデルの故障検出手法であるDECIDERを提案する。
DECIDERは一貫して最先端の故障検出性能を達成し、マシューズ相関係数全体のベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2024-08-01T07:08:11Z) - Contrastive Region Guidance: Improving Grounding in Vision-Language
Models without Training [79.27663870280038]
Contrastive Region Guidance (CRG) は、オープンソースの視覚言語モデルで視覚的プロンプトに応答できる訓練不要のガイダンス手法である。
領域アノテーションが提供されると、CRGはViP-Benchで最大11.1%精度が向上する。
また,空間推論へのCRGの適用性を示すとともに,What'sUpでは10%の改善が見られた。
論文 参考訳(メタデータ) (2024-03-04T18:55:30Z) - ViLLA: Fine-Grained Vision-Language Representation Learning from
Real-World Data [8.905439446173503]
視覚言語モデル(VLM)は一般的に、Webから取得した画像キャプチャペアからなるデータセットに基づいて訓練される。
医療データなどの実世界のマルチモーダルデータセットは、はるかに複雑です。
ViLLAは、複雑なデータセットからきめ細かい領域属性関係をキャプチャするために訓練されている。
論文 参考訳(メタデータ) (2023-08-22T05:03:09Z) - Debiasing Counterfactuals In the Presence of Spurious Correlations [0.98342301244574]
我々は、(i)人気のデバイアス分類器と(ii)対実画像生成の両方を統合した、最初のエンドツーエンドトレーニングフレームワークを紹介する。
以上の結果から, 人口全体にわたる一般化可能なマーカーを学習し, (ii) 急激な相関を無視し, 根底にある疾患の病理に焦点をあてる脱バイアス法が実証された。
論文 参考訳(メタデータ) (2023-08-21T19:01:45Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - DeVLBert: Learning Deconfounded Visio-Linguistic Representations [111.93480424791613]
ドメイン外ビオ言語事前学習の問題点について検討する。
この問題の既存の方法は、純粋に確率ベースである。
介入に基づく学習を行うために,Decon-Linguistic Bertフレームワーク(略称:DeVLBert)を提案する。
論文 参考訳(メタデータ) (2020-08-16T11:09:22Z) - Cross-Domain Facial Expression Recognition: A Unified Evaluation
Benchmark and Adversarial Graph Learning [85.6386289476598]
我々は,クロスドメイン全体的特徴共適応のための新しい逆グラフ表現適応(AGRA)フレームワークを開発した。
我々は,いくつかの一般的なベンチマークで広範囲かつ公平な評価を行い,提案したAGRAフレームワークが従来の最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-08-03T15:00:31Z) - Out-of-distribution Generalization via Partial Feature Decorrelation [72.96261704851683]
本稿では,特徴分解ネットワークと対象画像分類モデルとを協調的に最適化する,PFDL(Partial Feature Deorrelation Learning)アルゴリズムを提案する。
実世界のデータセットを用いた実験により,OOD画像分類データセットにおけるバックボーンモデルの精度が向上することを示した。
論文 参考訳(メタデータ) (2020-07-30T05:48:48Z) - High-Order Information Matters: Learning Relation and Topology for
Occluded Person Re-Identification [84.43394420267794]
本稿では,高次関係とトポロジ情報を識別的特徴とロバストなアライメントのために学習し,新しい枠組みを提案する。
我々のフレームワークはOccluded-Dukeデータセットで最先端の6.5%mAPスコアを大幅に上回っている。
論文 参考訳(メタデータ) (2020-03-18T12:18:35Z) - AVR: Attention based Salient Visual Relationship Detection [5.844015313757266]
視覚的関係検出は、画像中のオブジェクトを検出し、オブジェクト間の関係を認識することを目的としている。
従来の方法では、画像内のすべての観測された関係を等しく扱うため、豊富な視覚的対象と様々な関係を持つ複雑な画像上の検出タスクにおいて、相対的にパフォーマンスが低下する。
そこで本稿では,局所的・グローバル的な関係の文脈に基づく視覚的健全性を実現するためのアテンションベースモデルを提案する。
論文 参考訳(メタデータ) (2020-03-16T04:12:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。