論文の概要: SAGE: Spuriousness-Aware Guided Prompt Exploration for Mitigating Multimodal Bias
- arxiv url: http://arxiv.org/abs/2511.13005v1
- Date: Mon, 17 Nov 2025 05:52:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.701942
- Title: SAGE: Spuriousness-Aware Guided Prompt Exploration for Mitigating Multimodal Bias
- Title(参考訳): SAGE : マルチモーダルバイアスの緩和のためのスプリアスネスを意識したプロンプト探索
- Authors: Wenqian Ye, Di Wang, Guangtao Zheng, Bohan Liu, Aidong Zhang,
- Abstract要約: CLIPのような大規模視覚言語モデルは、画像とテキストを共有埋め込み空間で整列することで、ゼロショット分類性能が強い。
しかし、CLIPモデルは、しばしば多重モーダルなスプリアスバイアスを生じさせ、これはスプリアス機能に依存する好ましくない傾向である。
SAGE(Spuriousness-Aware Guided Exploration)を提案する。
- 参考スコア(独自算出の注目度): 43.06550296269926
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large vision-language models, such as CLIP, have shown strong zero-shot classification performance by aligning images and text in a shared embedding space. However, CLIP models often develop multimodal spurious biases, which is the undesirable tendency to rely on spurious features. For example, CLIP may infer object types in images based on frequently co-occurring backgrounds rather than the object's core features. This bias significantly impairs the robustness of pre-trained CLIP models on out-of-distribution data, where such cross-modal associations no longer hold. Existing methods for mitigating multimodal spurious bias typically require fine-tuning on downstream data or prior knowledge of the bias, which undermines the out-of-the-box usability of CLIP. In this paper, we first theoretically analyze the impact of multimodal spurious bias in zero-shot classification. Based on this insight, we propose Spuriousness-Aware Guided Exploration (SAGE), a simple and effective method that mitigates spurious bias through guided prompt selection. SAGE requires no training, fine-tuning, or external annotations. It explores a space of prompt templates and selects the prompts that induce the largest semantic separation between classes, thereby improving worst-group robustness. Extensive experiments on four real-world benchmark datasets and five popular backbone models demonstrate that SAGE consistently improves zero-shot performance and generalization, outperforming previous zero-shot approaches without any external knowledge or model updates.
- Abstract(参考訳): CLIPのような大規模視覚言語モデルは、画像とテキストを共有埋め込み空間で整列することで、ゼロショット分類性能が強い。
しかし、CLIPモデルは、しばしば多重モーダルなスプリアスバイアスを生じさせ、これはスプリアス機能に依存する好ましくない傾向である。
例えば、CLIPは、オブジェクトのコア機能ではなく、頻繁に共起するバックグラウンドに基づいて、イメージ内のオブジェクトタイプを推論することができる。
このバイアスは、事前訓練されたCLIPモデルの配布外データに対する堅牢性を著しく損なう。
既存のマルチモーダルスプリアスバイアスの緩和方法は、通常、下流のデータやバイアスの事前知識を微調整する必要がある。
本稿ではまず,ゼロショット分類におけるマルチモーダルスプリアスバイアスの影響を理論的に分析する。
そこで本研究では,Spuriousness-Aware Guided Exploration (SAGE)を提案する。
SAGEは、トレーニング、微調整、外部アノテーションを必要としない。
プロンプトテンプレートの空間を探索し、クラス間の最大のセマンティックな分離を引き起こすプロンプトを選択し、最悪のグループロバスト性を改善する。
4つの実世界のベンチマークデータセットと5つの人気のあるバックボーンモデルに対する大規模な実験は、SAGEがゼロショットのパフォーマンスと一般化を一貫して改善し、外部の知識やモデル更新なしに以前のゼロショットアプローチより優れていることを示している。
関連論文リスト
- Importance Sampling for Multi-Negative Multimodal Direct Preference Optimization [68.64764778089229]
MISP-DPOはマルチモーダルDPOに複数の意味的に多様な負の画像を組み込む最初のフレームワークである。
提案手法は,CLIP空間にプロンプトと候補画像を埋め込んで,意味的偏差を解釈可能な因子に発見するためにスパースオートエンコーダを適用する。
5つのベンチマーク実験により、MISP-DPOは従来手法よりも常にマルチモーダルアライメントを改善することが示された。
論文 参考訳(メタデータ) (2025-09-30T03:24:09Z) - ShortcutProbe: Probing Prediction Shortcuts for Learning Robust Models [26.544938760265136]
ディープラーニングモデルは、必然的にターゲットと非本質的な特徴の間の急激な相関を学習する。
本稿では,グループラベルを必要とせず,新たなポストホックスプリアスバイアス緩和フレームワークを提案する。
我々のフレームワークであるShortcutProbeは、与えられたモデルの潜在空間における予測の非破壊性を反映した予測ショートカットを識別する。
論文 参考訳(メタデータ) (2025-05-20T04:21:17Z) - Intrinsic Bias is Predicted by Pretraining Data and Correlates with Downstream Performance in Vision-Language Encoders [13.474737752636608]
本稿は,CLIPモデルの上流事前学習要因と下流性能が内在バイアスにどのように関係しているかを,これまでで最大の包括的分析結果として提示する。
55のアーキテクチャを使用して,26のデータセットでトレーニングされた131のCLIPモデルを,さまざまなサイズで検討した。
事前トレーニングデータセットの選択がバイアスの上流で最も重要な予測要因であることに気付きました。
論文 参考訳(メタデータ) (2025-02-11T21:11:47Z) - Salvaging the Overlooked: Leveraging Class-Aware Contrastive Learning for Multi-Class Anomaly Detection [18.797864512898787]
異常検出では、初期のアプローチは個々のクラスの別々のモデルを訓練し、高いパフォーマンスを得るが、スケーラビリティとリソース管理の課題を提起する。
本研究は, 階層間混乱を解消する手法として, 再構築手法で観測されたこの性能について検討する。
この混乱は、マルチクラスのシナリオで訓練されたモデルが、あるクラスのサンプルを別のクラスとして誤って再構成すると、再構成エラーが悪化する。
原対象のカテゴリ情報(例えばカーペットや木)を明示的に活用することにより、局所CLを導入し、マルチスケールの高密度特徴を洗練させ、グローバルCLを導入し、通常のパターンのよりコンパクトな特徴表現を得ることにより、モデルをマルチクラスに効果的に適応させる。
論文 参考訳(メタデータ) (2024-12-06T04:31:09Z) - Regularized Contrastive Partial Multi-view Outlier Detection [76.77036536484114]
RCPMOD(Regularized Contrastive partial Multi-view Outlier Detection)と呼ばれる新しい手法を提案する。
このフレームワークでは、コントラスト学習を利用して、ビュー一貫性のある情報を学び、一貫性の度合いでアウトレイラを識別する。
4つのベンチマークデータセットによる実験結果から,提案手法が最先端の競合より優れていることが示された。
論文 参考訳(メタデータ) (2024-08-02T14:34:27Z) - Mitigating Shortcut Learning with Diffusion Counterfactuals and Diverse Ensembles [104.60508550106618]
拡散確率モデル(DPM)を利用したアンサンブル多様化フレームワークDiffDivを提案する。
DPMは、相関した入力特徴を示すサンプルを用いて訓練しても、新しい特徴の組み合わせで画像を生成することができることを示す。
そこで本研究では,DPM誘導の多様化は,教師付き信号の追加を必要とせず,ショートカットキューへの依存を取り除くのに十分であることを示す。
論文 参考訳(メタデータ) (2023-11-23T15:47:33Z) - RanPAC: Random Projections and Pre-trained Models for Continual Learning [59.07316955610658]
継続学習(CL)は、古いタスクを忘れずに、非定常データストリームで異なるタスク(分類など)を学習することを目的としている。
本稿では,事前学習モデルを用いたCLの簡潔かつ効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-07-05T12:49:02Z) - Zero-Shot Temporal Action Detection via Vision-Language Prompting [134.26292288193298]
視覚言語プロンプト(STALE)を用いた新しいゼロショット時間行動検出モデルを提案する。
我々のモデルは最先端の代替品を著しく上回っている。
我々のモデルは、近年の強力な競合相手よりも監督的TADにおいて優れた結果をもたらす。
論文 参考訳(メタデータ) (2022-07-17T13:59:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。