論文の概要: Birds of a Feather Flock Together: Background-Invariant Representations via Linear Structure in VLMs
- arxiv url: http://arxiv.org/abs/2605.11107v1
- Date: Mon, 11 May 2026 18:13:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.348767
- Title: Birds of a Feather Flock Together: Background-Invariant Representations via Linear Structure in VLMs
- Title(参考訳): 羽毛の群れ:VLMの線形構造による背景不変表現
- Authors: Youssef Zaazou, Mark Thomas,
- Abstract要約: 我々は,前景オブジェクトとその背景との相関関係が,スプリアス依存関係の健全かつ事実上重要なクラスであることを示す。
合成データを用いて背景不変表現を構築するために,この特性を利用する事前学習手法を提案する。
我々の知る限り、最初の最悪のグループ精度は、完全な(100%)スプリアス相関の下で、Waterbirds上で90%以上である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs), such as CLIP and SigLIP 2, are widely used for image classification, yet their vision encoders remain vulnerable to systematic biases that undermine robustness. In particular, correlations between foreground objects and their backgrounds constitute a salient and practically important class of spurious dependencies. In this work, we revisit the well-known property of high linear additivity in VLM embedding spaces and show that it enables a decomposition of scene representations into foreground and background components. Leveraging this insight, we introduce a pre-training approach that exploits this property to construct background-invariant representations using synthetic data. Our method achieves, to our knowledge, the first worst-group accuracy exceeding $90\%$ on Waterbirds under perfect ($100\%$) spurious correlation (i.e., no minority-group examples in the training data). Furthermore, it demonstrates strong sim-to-real transfer and requires no access to real-world debiased data, making it practical for real-world deployment.
- Abstract(参考訳): CLIPやSigLIP 2のような視覚言語モデル(VLM)は画像分類に広く用いられているが、その視覚エンコーダは、堅牢性を損なう系統的バイアスに弱いままである。
特に、フォアグラウンドオブジェクトとその背景の間の相関は、スプリアス依存関係の健全かつ事実上重要なクラスを構成する。
本研究では,VLMの埋め込み空間における高線形付加率のよく知られた性質を再検討し,シーン表現を前景および背景成分に分解可能であることを示す。
この知見を生かして、合成データを用いて背景不変表現を構築するために、この特性を利用する事前学習手法を導入する。
我々の知る限り、ウォーターバードにおける最初の最悪のグループ精度は、完全な(100 %$)刺激的な相関(トレーニングデータにマイノリティグループ例がない)の下で90 %$を超える。
さらに、強力なsim-to-realトランスファーを示し、現実世界のデバイアスドデータへのアクセスを必要としないため、現実のデプロイメントに実用的である。
関連論文リスト
- Dual-Foundation Models for Unsupervised Domain Adaptation [2.279449016085348]
セグメンテーションモデルのトレーニングには、現実世界のデータセットにコストがかかる、労働集約的なアノテーションが必要です。
Unsupervised Domain Adaptation (UDA)は、ラベル付き合成データ上でモデルをトレーニングし、ラベルなしの実画像に適用することによって、この問題に対処する。
本稿では,2つの相補的基礎モデルを利用する二重境界 UDA フレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-05T04:52:08Z) - Fine-tuning MLLMs Without Forgetting Is Easier Than You Think [72.59321247529975]
分布内および分布外画像およびテキスト入力のモデル性能を評価するための2x2実験フレームワークを設計する。
その結果、トレーニング可能なパラメータの数を制限したり、低学習率を採用するなど、適切な正規化が、アウト・オブ・ディストリビューション・イメージを扱う際の忘れを効果的に防止できることが示唆された。
我々は、このことをタスク固有のオーバーフィッティングとみなし、データハイブリッドトレーニング戦略を導入することでこの問題に対処する。
論文 参考訳(メタデータ) (2026-03-15T17:16:19Z) - Toward Generalizable Deblurring: Leveraging Massive Blur Priors with Linear Attention for Real-World Scenarios [9.82847623835017]
GLOWDeblurは、畳み込みベースの事前再構成とドメインアライメントモジュールと軽量な拡散バックボーンを組み合わせた、一般化可能なreaL-wOrld Light Weight Deblurモデルである。
本稿では,Blur Pattern Pretraining (BPP)を提案する。
我々はさらに、高度劣化下でぼやけた前兆を強化するためにMoSeG(MoSeG)を導入し、それをGLOWDeblur(GLOWDeblur)に統合する。
論文 参考訳(メタデータ) (2026-01-10T11:01:31Z) - Refining Skewed Perceptions in Vision-Language Contrastive Models through Visual Representations [0.033483662989441935]
大規模視覚言語コントラストモデル(VLCM)は、様々な下流タスクで顕著な成功を収めている。
それらの利点にもかかわらず、これらのモデルは現実のデータの不均等な分布からバイアスを受け継ぎ、実際の環境に関する誤解を招く。
本研究では,CLIPの下流アプリケーションへの埋め込みから,単純な線形プローブを用いてタスク固有のコア特徴を効果的に抽出する方法について検討する。
論文 参考訳(メタデータ) (2024-05-22T22:03:11Z) - Mitigating the Effect of Incidental Correlations on Part-based Learning [50.682498099720114]
部分ベースの表現は、より解釈可能で、限られたデータでより一般化できる。
パートベース表現のための2つの革新的な正規化手法を提案する。
我々は、ベンチマークデータセット上の数ショットの学習タスクに対して、最先端(SoTA)パフォーマンスを示す。
論文 参考訳(メタデータ) (2023-09-30T13:44:48Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - Imposing Consistency for Optical Flow Estimation [73.53204596544472]
プロキシタスクによる一貫性の導入は、データ駆動学習を強化することが示されている。
本稿では,光フロー推定のための新しい,効果的な整合性戦略を提案する。
論文 参考訳(メタデータ) (2022-04-14T22:58:30Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。