論文の概要: CLIP Is Shortsighted: Paying Attention Beyond the First Sentence
- arxiv url: http://arxiv.org/abs/2602.22419v1
- Date: Wed, 25 Feb 2026 21:27:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.411595
- Title: CLIP Is Shortsighted: Paying Attention Beyond the First Sentence
- Title(参考訳): CLIPが近づいた:最初の文を超えて注意を払う
- Authors: Marc-Antoine Lavoie, Anas Mahmoud, Aldo Zaimi, Arsene Fansi Tchango, Steven L. Waslander,
- Abstract要約: トレーニング中に要約文を削除するDeBias-CLIPを導入し,全トークン位置を分散するために文サブサンプリングとテキストトークンパディングを適用した。
DeBias-CLIPは、最先端の長文検索を実現し、短文検索を改善し、文順置換に敏感でない。
- 参考スコア(独自算出の注目度): 13.197160495980318
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: CLIP models learn transferable multi-modal features via image-text contrastive learning on internet-scale data. They are widely used in zero-shot classification, multi-modal retrieval, text-to-image diffusion, and as image encoders in large vision-language models. However, CLIP's pretraining is dominated by images paired with short captions, biasing the model toward encoding simple descriptions of salient objects and leading to coarse alignment on complex scenes and dense descriptions. While recent work mitigates this by fine-tuning on small-scale long-caption datasets, we identify an important common bias: both human- and LLM-generated long captions typically begin with a one-sentence summary followed by a detailed description. We show that this acts as a shortcut during training, concentrating attention on the opening sentence and early tokens and weakening alignment over the rest of the caption. To resolve this, we introduce DeBias-CLIP, which removes the summary sentence during training and applies sentence sub-sampling and text token padding to distribute supervision across all token positions. DeBias-CLIP achieves state-of-the-art long-text retrieval, improves short-text retrieval, and is less sensitive to sentence order permutations. It is a drop-in replacement for Long-CLIP with no additional trainable parameters.
- Abstract(参考訳): CLIPモデルは、インターネットスケールのデータに対する画像テキストコントラスト学習を通じて、転送可能なマルチモーダル特徴を学習する。
ゼロショット分類、マルチモーダル検索、テキスト・ツー・イメージ拡散、および大きな視覚言語モデルにおける画像エンコーダとして広く使われている。
しかし、CLIPの事前訓練は短いキャプションと組み合わせたイメージによって支配されており、モデルが有能なオブジェクトの単純な記述を符号化する方向に偏り、複雑なシーンと密な記述に粗いアライメントをもたらす。
最近の研究は、小規模の長文長文データセットを微調整することによってこれを緩和しているが、我々は重要な共通のバイアスを特定する: 人間とLLMの生成した長文キャプションは、通常、一文要約から始まり、その後詳細な説明が続く。
これは訓練中のショートカットとして機能し,開始文と初期トークンに注意を集中させ,キャプションの残りの部分のアライメントを弱めることを示す。
これを解決するために,DeBias-CLIPを導入し,訓練中の要約文を取り除き,すべてのトークン位置を分散するために文サブサンプリングとテキストトークンパディングを適用した。
DeBias-CLIPは、最先端の長文検索を実現し、短文検索を改善し、文順置換に敏感でない。
これはLong-CLIPの代替であり、追加のトレーニング可能なパラメータはない。
関連論文リスト
- SuperCLIP: CLIP with Simple Classification Supervision [88.86549733903314]
Contrastive Language-Image Pretrainingは、画像とテキストを共有埋め込み空間に整列させることにより、視覚言語タスクの強力な一般化を実現する。
近年,CLIP様モデルでは,テキスト中の微細なセマンティック信号が依然として使われていないことが報告されている。
分類に基づく教師付きコントラスト学習のフレームワークであるSuperCLIPを提案する。
論文 参考訳(メタデータ) (2025-12-16T15:11:53Z) - SILC: Improving Vision Language Pretraining with Self-Distillation [113.50400246862056]
本稿では,視覚言語事前学習のための新しいフレームワークであるSILCを紹介する。
SILCは、局所-言語対応学習を自己蒸留で簡単に追加することで、画像テキストのコントラスト学習を改善する。
指数移動平均(EMA)教師モデルから局所像の特徴を抽出することにより,検出やセグメンテーションといった密集した予測タスクにおけるモデル性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-10-20T08:44:47Z) - CgT-GAN: CLIP-guided Text GAN for Image Captioning [48.276753091051035]
本稿では,CLIP-Guided text GAN (CgT-GAN) を提案する。
我々は,外部テキストコーパスのフレーズを模倣するために,CgT-GANの教育に逆行訓練を用いる。
CgT-GANは、すべてのメトリクスで最先端のメソッドを著しく上回る。
論文 参考訳(メタデータ) (2023-08-23T10:25:37Z) - Fine-grained Image Captioning with CLIP Reward [104.71533106301598]
ウェブから大量の画像テキストペアをトレーニングしたマルチモーダルエンコーダであるCLIPを用いて、マルチモーダル類似性を計算し、報酬関数として利用する。
また、追加のテキストアノテーションを必要としない文法を改善するために、CLIPテキストエンコーダの簡単な微調整戦略を提案する。
テキスト・ツー・イメージ検索とFineCapEvalの実験において、提案したCLIP誘導モデルは、CIDEr最適化モデルよりも顕著なキャプションを生成する。
論文 参考訳(メタデータ) (2022-05-26T02:46:09Z) - VT-CLIP: Enhancing Vision-Language Models with Visual-guided Texts [2.0434814235659555]
コントラスト言語-画像事前学習(CLIP)は近年,伝達可能な視覚表現学習において注目を集めている。
VT-CLIPと呼ばれる視覚誘導テキストによるCLIPの強化を提案する。
少数の設定では、よく知られた11の分類データセット上でVT-CLIPを評価し、その効果を実証する。
論文 参考訳(メタデータ) (2021-12-04T18:34:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。