論文の概要: Black Sheep in the Herd: Playing with Spuriously Correlated Attributes for Vision-Language Recognition
- arxiv url: http://arxiv.org/abs/2502.15809v1
- Date: Wed, 19 Feb 2025 12:05:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:52:13.593212
- Title: Black Sheep in the Herd: Playing with Spuriously Correlated Attributes for Vision-Language Recognition
- Title(参考訳): 群れの黒いシープ : 視覚・言語認識のための多彩な関連属性による演奏
- Authors: Xinyu Tian, Shu Zou, Zhaoyuan Yang, Mengqi He, Jing Zhang,
- Abstract要約: VLM(Vision-Language Models)は、分布内精度と分布外一般化のバランスをとるジレンマを示す。
近年の研究では、視覚属性などの低レベル概念を活用して一般化を高めている。
この研究は、VLMが、カテゴリと同一であるが本質的にはその一部ではないが、突発的に相関する属性である意思決定に、小さな属性のサブセットを過度に依存していることを明らかにする。
- 参考スコア(独自算出の注目度): 8.950906917573986
- License:
- Abstract: Few-shot adaptation for Vision-Language Models (VLMs) presents a dilemma: balancing in-distribution accuracy with out-of-distribution generalization. Recent research has utilized low-level concepts such as visual attributes to enhance generalization. However, this study reveals that VLMs overly rely on a small subset of attributes on decision-making, which co-occur with the category but are not inherently part of it, termed spuriously correlated attributes. This biased nature of VLMs results in poor generalization. To address this, 1) we first propose Spurious Attribute Probing (SAP), identifying and filtering out these problematic attributes to significantly enhance the generalization of existing attribute-based methods; 2) We introduce Spurious Attribute Shielding (SAS), a plug-and-play module that mitigates the influence of these attributes on prediction, seamlessly integrating into various Parameter-Efficient Fine-Tuning (PEFT) methods. In experiments, SAP and SAS significantly enhance accuracy on distribution shifts across 11 datasets and 3 generalization tasks without compromising downstream performance, establishing a new state-of-the-art benchmark.
- Abstract(参考訳): VLM(Vision-Language Models)は、分布内精度と分布外一般化のバランスをとるジレンマを示す。
近年の研究では、視覚属性などの低レベル概念を活用して一般化を高めている。
しかしながら、本研究では、VLMはカテゴリと共起するが本質的にその一部ではない、決定に関する属性の小さなサブセットを過度に頼っていることが明らかとなり、突発的に相関する属性と呼ばれる。
このVLMの偏りの性質は、一般化の欠如をもたらす。
この問題に対処する。
1) SAP(Spurious Attribute Probing)をまず提案し, 既存の属性に基づく手法の一般化を著しく促進するために, これらの問題属性を特定し, フィルタリングする。
2) Spurious Attribute Shielding (SAS)は,これらの属性が予測に与える影響を軽減し,パラメータ効率の良い細調整(PEFT)手法にシームレスに統合するプラグイン・アンド・プレイモジュールである。
実験では、SAPとSASは、下流のパフォーマンスを損なうことなく11のデータセットと3つの一般化タスク間の分散シフトの精度を著しく向上させ、新しい最先端ベンチマークを確立した。
関連論文リスト
- Editable Fairness: Fine-Grained Bias Mitigation in Language Models [52.66450426729818]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - Leveraging vision-language models for fair facial attribute classification [19.93324644519412]
汎用視覚言語モデル(英: General-purpose Vision-Language Model, VLM)は、共通感性属性のための豊富な知識源である。
我々は,VLM予測値と人間定義属性分布の対応関係を解析した。
複数のベンチマークの顔属性分類データセットの実験は、既存の教師なしベースラインよりもモデルの公平性の向上を示している。
論文 参考訳(メタデータ) (2024-03-15T18:37:15Z) - Distributionally Generative Augmentation for Fair Facial Attribute Classification [69.97710556164698]
Facial Attribute Classification (FAC) は広く応用されている。
従来の手法で訓練されたFACモデルは、様々なデータサブポピュレーションにまたがる精度の不整合を示すことによって不公平である可能性がある。
本研究は,付加アノテーションなしでバイアスデータ上で公正なFACモデルをトレーニングするための,新しい世代ベースの2段階フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-11T10:50:53Z) - SSPNet: Scale and Spatial Priors Guided Generalizable and Interpretable
Pedestrian Attribute Recognition [23.55622798950833]
Pedestrian Attribute Recognition(PAR)モデルに対して,SSPNet(Scale and Spatial Priors Guided Network)を提案する。
SSPNetは、異なる属性グループに対して適切なスケールの事前情報を提供することを学び、モデルが異なるレベルの機能マップに集中できるようにする。
Weakly-supervised Pedestrian Attribute Localization (WPAL) に対して, 属性応答マスクのGrad-CAMの改良に基づく新しいIoU属性ローカライゼーション指標を提案する。
論文 参考訳(メタデータ) (2023-12-11T00:41:40Z) - ArGue: Attribute-Guided Prompt Tuning for Vision-Language Models [9.261590575715669]
本稿では,ビジョンランゲージ(V&L)モデルのための anAttribute-Guided Prompt Tuning (ArGue) を開発した。
大規模言語モデル(LLM)によって生成された原始的な視覚属性とモデルを一致させる。
提案手法は,新しいクラス予測とアウト・オブ・ディストリビューション一般化タスクの両方において,最先端のプロンプトチューニング手法を著しく上回っている。
論文 参考訳(メタデータ) (2023-11-27T10:34:44Z) - Hierarchical Visual Primitive Experts for Compositional Zero-Shot
Learning [52.506434446439776]
合成ゼロショット学習(CZSL)は、既知のプリミティブ(属性とオブジェクト)の事前知識で構成を認識することを目的としている。
このような問題に対処するために,コンポジショントランスフォーマー(CoT)と呼ばれるシンプルでスケーラブルなフレームワークを提案する。
提案手法は,MIT-States,C-GQA,VAW-CZSLなど,いくつかのベンチマークでSoTA性能を実現する。
論文 参考訳(メタデータ) (2023-08-08T03:24:21Z) - A Solution to Co-occurrence Bias: Attributes Disentanglement via Mutual
Information Minimization for Pedestrian Attribute Recognition [10.821982414387525]
そこで本研究では,現在の手法が,データセット分布のシーンやアイデンティティに適合する属性の相互依存性の一般化に実際に苦慮していることを示す。
現実的な場面で頑健なモデルをレンダリングするために,属性不整形特徴学習を提案し,属性の認識が他者の存在に依存しないことを保証する。
論文 参考訳(メタデータ) (2023-07-28T01:34:55Z) - SFP: Spurious Feature-targeted Pruning for Out-of-Distribution
Generalization [38.37530720506389]
本研究では,不均一な部分構造を自動探索するために,SFPと呼ばれる新しいSpurious Feature-targeted Model Pruningフレームワークを提案する。
SFP は構造ベースおよび非構造ベース OOD 一般化 SOTA をそれぞれ4.72% と 23.35% に向上させることができる。
論文 参考訳(メタデータ) (2023-05-19T11:46:36Z) - Calibrated Feature Decomposition for Generalizable Person
Re-Identification [82.64133819313186]
Calibrated Feature Decomposition (CFD)モジュールは、人物の再識別の一般化能力の向上に焦点を当てている。
キャリブレーション・アンド・スタンダード化されたバッチ正規化(CSBN)は、キャリブレーションされた人物表現を学習するために設計されている。
論文 参考訳(メタデータ) (2021-11-27T17:12:43Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - Causal Feature Selection for Algorithmic Fairness [61.767399505764736]
データ管理の統合コンポーネントにおける公平性について検討する。
本稿では,データセットの公平性を保証する特徴のサブコレクションを同定する手法を提案する。
論文 参考訳(メタデータ) (2020-06-10T20:20:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。