論文の概要: BiPrompt: Bilateral Prompt Optimization for Visual and Textual Debiasing in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2601.02147v1
- Date: Mon, 05 Jan 2026 14:22:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:23.173406
- Title: BiPrompt: Bilateral Prompt Optimization for Visual and Textual Debiasing in Vision-Language Models
- Title(参考訳): BiPrompt:視覚・言語モデルにおける視覚・テキストの偏りの両面的プロンプト最適化
- Authors: Sunny Gupta, Shounak Das, Amit Sethi,
- Abstract要約: テスト時間適応時の両モード間の非因果的特徴依存を緩和する二元的プロンプト最適化フレームワーク(BiPrompt)を提案する。
視覚面では、背景のアクティベーションを抑制し、因果領域と突発領域の間の予測一貫性を強制するために、構造化された注意誘導消去を用いる。
テキスト側では、クラス埋め込みを等方的意味空間に整合させる学習可能な再中心化機構である、バランスの取れたプロンプト正規化を導入している。
- 参考スコア(独自算出の注目度): 7.174865411448373
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision language foundation models such as CLIP exhibit impressive zero-shot generalization yet remain vulnerable to spurious correlations across visual and textual modalities. Existing debiasing approaches often address a single modality either visual or textual leading to partial robustness and unstable adaptation under distribution shifts. We propose a bilateral prompt optimization framework (BiPrompt) that simultaneously mitigates non-causal feature reliance in both modalities during test-time adaptation. On the visual side, it employs structured attention-guided erasure to suppress background activations and enforce orthogonal prediction consistency between causal and spurious regions. On the textual side, it introduces balanced prompt normalization, a learnable re-centering mechanism that aligns class embeddings toward an isotropic semantic space. Together, these modules jointly minimize conditional mutual information between spurious cues and predictions, steering the model toward causal, domain invariant reasoning without retraining or domain supervision. Extensive evaluations on real-world and synthetic bias benchmarks demonstrate consistent improvements in both average and worst-group accuracies over prior test-time debiasing methods, establishing a lightweight yet effective path toward trustworthy and causally grounded vision-language adaptation.
- Abstract(参考訳): CLIPのような視覚言語基盤モデルは、印象的なゼロショットの一般化を示すが、視覚的およびテキスト的モダリティ間の急激な相関に弱いままである。
既存の偏見のアプローチは、視覚的またはテキスト的のいずれかの単一のモダリティに対処し、部分的な頑健さと分布シフトの下で不安定な適応をもたらす。
テスト時間適応時の両モード間の非因果的特徴依存を緩和する二元的プロンプト最適化フレームワーク(BiPrompt)を提案する。
視覚面では、背景の活性化を抑制し、因果領域と突発領域の間の直交予測一貫性を強制するために、構造化された注意誘導消去を用いる。
テキスト側では、クラス埋め込みを等方的意味空間に整合させる学習可能な再中心化機構である、バランスの取れたプロンプト正規化を導入している。
これらのモジュールは、刺激的な手がかりと予測の間の条件付き相互情報を共同で最小化し、再訓練やドメインの監督なしに因果的、ドメイン不変な推論に向けてモデルを操る。
実世界および合成バイアスベンチマークの広範囲な評価は、平均的および最悪のグループ精度を以前のテスト時間偏差法よりも一貫した改善を示し、信頼性と因果的に基礎付けられた視覚言語適応への軽量で効果的な経路を確立した。
関連論文リスト
- Representation-Level Counterfactual Calibration for Debiased Zero-Shot Recognition [36.36218470387896]
私たちはこの問題を因果推論問題として再考し、次のような質問をした。
推測時にこれを答えるために、CLIPの表現空間内のオブジェクトと背景の期待値を推定し、反ファクトの埋め込みを合成する。
提案手法は,再訓練や即時設計を伴わず,文脈に敏感なベンチマークにおいて,最悪のグループと平均精度の両方を著しく改善する。
論文 参考訳(メタデータ) (2025-10-30T13:11:23Z) - Enhancing CLIP Robustness via Cross-Modality Alignment [54.01929554563447]
視覚言語モデルのための最適なトランスポートベースフレームワークであるクロスモダリティアライメントを提案する。
COLAは、グローバルな画像テキストアライメントと特徴空間における局所的な構造的一貫性を復元する。
COLAはトレーニングフリーで、既存の微調整モデルと互換性がある。
論文 参考訳(メタデータ) (2025-10-28T03:47:44Z) - Beacon: Single-Turn Diagnosis and Mitigation of Latent Sycophancy in Large Language Models [0.0]
大きな言語モデルは、真理と曖昧な平らさの間の構造的なトレードオフを内部化する。
この潜伏バイアスは、梅毒(sycophancy)として知られるもので、原則的推論よりもユーザ合意を優先している。
我々は,このバイアスを会話の文脈とは無関係に分離する,単ターン強制選択ベンチマークであるBeaconを紹介した。
論文 参考訳(メタデータ) (2025-10-19T06:36:57Z) - Perception-Consistency Multimodal Large Language Models Reasoning via Caption-Regularized Policy Optimization [72.30168853571216]
マルチモーダルな言語モデルは、視覚知覚と象徴的推論を統合するタスクに優れています。
CapPO は,(1) 原画像上の条件付き応答とキャプション上の条件付き応答のばらつきを最小限に抑えるキャプションベース整合性正規化,(2) KL 重み付き優位性推定スキームを適応的に拡張して知覚整合性トラジェクトリを強化するキャプションベース整合性正規化という2つの重要なメカニズムを統合した。
論文 参考訳(メタデータ) (2025-09-26T04:32:26Z) - Constrained Prompt Enhancement for Improving Zero-Shot Generalization of Vision-Language Models [57.357091028792325]
ウェブスケールのデータに基づいて事前訓練された視覚言語モデル(VLM)は、ゼロショットの一般化を約束するが、しばしば意味的ミスアライメントに悩まされる。
視覚・テクストアライメントを改善するために,制約付きプロンプトエンハンスメント(CPE)法を提案する。
提案手法はTGSSG(Topology-Guided Synonymous Semantic Generation)とCADRS(Calegory-Agnostic Discriminative Region Selection)の2つの重要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2025-08-24T15:45:22Z) - Rebalancing Contrastive Alignment with Bottlenecked Semantic Increments in Text-Video Retrieval [48.85977777168096]
Gap-Aware Retrievalフレームワークは、テキスト$t_i$とビデオ$v_j$の間で、学習可能なペア固有のインクリメント$Delta_ij$を導入している。
セマンティックギャップに条件付けされた軽量なニューラルモジュールは、構造認識の修正のためにバッチ間で増分する。
4つのベンチマークの実験は、GAREが一貫してアライメント精度とロバスト性を改善することを示した。
論文 参考訳(メタデータ) (2025-05-18T17:18:06Z) - Anticipating the Unseen Discrepancy for Vision and Language Navigation [63.399180481818405]
視覚言語ナビゲーションでは、エージェントは特定のターゲットに到達するために自然言語命令に従う必要がある。
目に見える環境と目に見えない環境の間に大きな違いがあるため、エージェントがうまく一般化することは困難である。
本研究では,テストタイムの視覚的整合性を促進することによって,未知の環境への一般化を学習する,未知の離散性予測ビジョンと言語ナビゲーション(DAVIS)を提案する。
論文 参考訳(メタデータ) (2022-09-10T19:04:40Z) - Learning Relation Alignment for Calibrated Cross-modal Retrieval [52.760541762871505]
言語的・視覚的関係のセマンティックな距離を計測し,関係の一貫性を定量化するための新しい指標ISD(Intra-modal Self-attention Distance)を提案する。
ISDを最適化し、モダル間アライメントを介してモダル内アライメントを相互に調整するための正規化訓練法である、モダル内アライメント(IAIS)について述べる。
論文 参考訳(メタデータ) (2021-05-28T14:25:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。