論文の概要: Is CLIP Cross-Eyed? Revealing and Mitigating Center Bias in the CLIP Family
- arxiv url: http://arxiv.org/abs/2604.05971v1
- Date: Tue, 07 Apr 2026 15:04:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.902542
- Title: Is CLIP Cross-Eyed? Revealing and Mitigating Center Bias in the CLIP Family
- Title(参考訳): CLIPはクロスイードか?CLIPファミリーにおけるセンターバイアスの発見と緩和
- Authors: Oscar Chew, Hsiao-Ying Huang, Kunal Jain, Tai-I Chen, Khoa D Doan, Kuan-Hao Huang,
- Abstract要約: CLIPのような対照的な視覚言語モデルでは、視覚内容のきめ細やかな理解が欠如していることがよく示される。
特に、CLIPは画像の中心領域に不均等に集中し、境界付近にある重要なオブジェクトを見渡す傾向にある。
このバイアスは、視覚的プロンプトや注意再分配のようなトレーニング不要の戦略によって緩和できることを示す。
- 参考スコア(独自算出の注目度): 14.941271473863466
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent research has shown that contrastive vision-language models such as CLIP often lack fine-grained understanding of visual content. While a growing body of work has sought to address this limitation, we identify a distinct failure mode in the CLIP family, which we term center bias, that persists even in recent model variants. Specifically, CLIP tends to disproportionately focus on the central region of an image, overlooking important objects located near the boundaries. This limitation is fundamental as failure to recognize relevant objects makes it difficult to perform any sophisticated tasks that depend on those objects. To understand the underlying causes of the limitation, we conduct analyses from both representation and attention perspectives. Using interpretability methods, i.e., embedding decomposition and attention map analysis, we find that relevant concepts especially those associated with off-center objects vanish from the model's embedding in the final representation due to information loss during the aggregation of visual embeddings, particularly the reliance on pooling mechanisms. Finally, we show that this bias can be alleviated with training-free strategies such as visual prompting and attention redistribution by redirecting models' attention to off-center regions.
- Abstract(参考訳): 近年の研究では、CLIPのような対照的な視覚言語モデルでは、視覚内容のきめ細かい理解が欠けていることが示されている。
この制限に対処するための作業が増えている一方で、CLIPファミリでは、最近のモデル変種においても継続する中心バイアスと呼ばれる、個別の障害モードが特定されている。
特に、CLIPは画像の中心領域に不均等に集中し、境界付近にある重要なオブジェクトを見渡す傾向にある。
この制限は、関連するオブジェクトを認識できないため、それらのオブジェクトに依存する高度なタスクを実行するのが難しくなるため、基本的なものである。
制限の根底にある原因を理解するために,表現と注意の両方の観点から分析を行う。
解釈可能性法,すなわち,分解の埋め込みとアテンションマップ解析を用いて,特にオフセンタオブジェクトに関連する概念が,視覚的埋め込みの集約時の情報損失,特にプール機構への依存によって最終表現への埋め込みから消えることを見出した。
最後に、このバイアスは、モデルの注意をオフセンタ領域にリダイレクトすることで、視覚的プロンプトや注意再分配のようなトレーニング不要の戦略で緩和できることを示す。
関連論文リスト
- MentisOculi: Revealing the Limits of Reasoning with Mental Imagery [63.285794947638614]
視覚的解決が可能な多段階推論問題の組である MentisOculi を開発した。
遅延トークンから明示的な生成画像まで,視覚的戦略を評価すると,一般的にはパフォーマンス向上に失敗する。
以上の結果から,視覚的思考がモデル推論の恩恵を受けていないことが示唆された。
論文 参考訳(メタデータ) (2026-02-02T18:49:06Z) - Target Refocusing via Attention Redistribution for Open-Vocabulary Semantic Segmentation: An Explainability Perspective [47.99651635870674]
本研究では,人間の注意を標的領域へ向けて注意を向けるために,注意喚起行動のエミュレートを行うトレーニングフリーアプローチを提案する。
提案手法は,高い推論効率を維持しつつ,8つのベンチマーク上でのSOTA性能を実現する。
論文 参考訳(メタデータ) (2025-11-20T09:16:33Z) - Generalized Decoupled Learning for Enhancing Open-Vocabulary Dense Perception [71.26728044621458]
DeCLIPは、CLIPを強化する新しいフレームワークで、自己認識モジュールを分離して、それぞれコンテンツ’と“コンテキスト’の機能を取得する。
2D検出とセグメンテーション、3Dインスタンスのセグメンテーション、ビデオインスタンスのセグメンテーション、6Dオブジェクトのポーズ推定など、幅広いタスクにわたる最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2025-08-15T06:43:51Z) - Debiasing CLIP: Interpreting and Correcting Bias in Attention Heads [29.880490526874876]
我々は,刺激的な注意を識別し,ターゲットアブレーションによって軽減する,コントラスト的なフレームワークであるtextsc-Then-Correct (LTC) を導入する。
我々は,背景性バイアスのあるベンチマークでLCCを評価し,非トレーニング後ベースラインと比較して,最低グループ精度が50%以上向上した。
我々は,選択した頭部の表現を可視化し,提示された解釈が,刺激的な頭部と快楽な頭部の両方を識別するコントラスト的なメカニズムを裏付けていることを見出した。
論文 参考訳(メタデータ) (2025-05-23T03:13:42Z) - Why Is Spatial Reasoning Hard for VLMs? An Attention Mechanism Perspective on Focus Areas [69.56484419619919]
機械的解釈可能性のレンズによる空間的推論の課題について検討する。
空間的推論の成功は、実際の物体の位置と注意を一致させるモデルの能力と強く相関している。
本研究の目的は,ADAPTVISを用いて,信頼性の高い地域への注意を喚起することである。
論文 参考訳(メタデータ) (2025-03-03T17:57:03Z) - Unveiling Glitches: A Deep Dive into Image Encoding Bugs within CLIP [0.0]
私たちは、視覚と言語処理の統合で有名なCLIP(CLIP)に焦点を当てています。
私たちの目的は、CLIPの画像理解における繰り返し発生する問題と盲点を明らかにすることである。
画像に対するCLIPの解釈と人間の知覚との相違について明らかにした。
論文 参考訳(メタデータ) (2024-06-30T05:23:11Z) - A Closer Look at the Explainability of Contrastive Language-Image Pre-training [16.10032166963232]
Contrastive Language-image Pre-training (CLIP)は、様々なタスクに対して大きなメリットを示す強力なビジョン言語モデルである。
我々は,その信頼性を損なうような説明可能性の問題と,関連するタスクのキャパシティの制限を指摘した。
本稿では,CLIP surgery for reliable CAMを提案する。
論文 参考訳(メタデータ) (2023-04-12T07:16:55Z) - Knowledge-guided Causal Intervention for Weakly-supervised Object
Localization [32.99508048913356]
KG-CI-CAMは知識誘導因果介入法である。
我々は、因果介入による共起コンテキスト共同設立問題に取り組む。
分類知識の吸収と局所化知識のバランスをとるための多元的知識指導フレームワークを提案する。
論文 参考訳(メタデータ) (2023-01-03T12:02:19Z) - Dual Contrastive Learning for General Face Forgery Detection [64.41970626226221]
本稿では,正と負のペアデータを構成するDCL (Dual Contrastive Learning) という新しい顔偽造検出フレームワークを提案する。
本研究は, 事例内コントラスト学習(Intra-ICL)において, 偽造顔における局所的内容の不整合に焦点をあてる。
論文 参考訳(メタデータ) (2021-12-27T05:44:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。