Fugu-MT 論文翻訳(概要): CLIP Is Shortsighted: Paying Attention Beyond the First Sentence

論文の概要: CLIP Is Shortsighted: Paying Attention Beyond the First Sentence

arxiv url: http://arxiv.org/abs/2602.22419v1
Date: Wed, 25 Feb 2026 21:27:00 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-27 18:41:22.411595
Title: CLIP Is Shortsighted: Paying Attention Beyond the First Sentence
Title（参考訳）: CLIPが近づいた:最初の文を超えて注意を払う
Authors: Marc-Antoine Lavoie, Anas Mahmoud, Aldo Zaimi, Arsene Fansi Tchango, Steven L. Waslander,
Abstract要約: トレーニング中に要約文を削除するDeBias-CLIPを導入し,全トークン位置を分散するために文サブサンプリングとテキストトークンパディングを適用した。 DeBias-CLIPは、最先端の長文検索を実現し、短文検索を改善し、文順置換に敏感でない。
参考スコア（独自算出の注目度）: 13.197160495980318
License: http://creativecommons.org/licenses/by/4.0/
Abstract: CLIP models learn transferable multi-modal features via image-text contrastive learning on internet-scale data. They are widely used in zero-shot classification, multi-modal retrieval, text-to-image diffusion, and as image encoders in large vision-language models. However, CLIP's pretraining is dominated by images paired with short captions, biasing the model toward encoding simple descriptions of salient objects and leading to coarse alignment on complex scenes and dense descriptions. While recent work mitigates this by fine-tuning on small-scale long-caption datasets, we identify an important common bias: both human- and LLM-generated long captions typically begin with a one-sentence summary followed by a detailed description. We show that this acts as a shortcut during training, concentrating attention on the opening sentence and early tokens and weakening alignment over the rest of the caption. To resolve this, we introduce DeBias-CLIP, which removes the summary sentence during training and applies sentence sub-sampling and text token padding to distribute supervision across all token positions. DeBias-CLIP achieves state-of-the-art long-text retrieval, improves short-text retrieval, and is less sensitive to sentence order permutations. It is a drop-in replacement for Long-CLIP with no additional trainable parameters.
Abstract（参考訳）: CLIPモデルは、インターネットスケールのデータに対する画像テキストコントラスト学習を通じて、転送可能なマルチモーダル特徴を学習する。ゼロショット分類、マルチモーダル検索、テキスト・ツー・イメージ拡散、および大きな視覚言語モデルにおける画像エンコーダとして広く使われている。しかし、CLIPの事前訓練は短いキャプションと組み合わせたイメージによって支配されており、モデルが有能なオブジェクトの単純な記述を符号化する方向に偏り、複雑なシーンと密な記述に粗いアライメントをもたらす。最近の研究は、小規模の長文長文データセットを微調整することによってこれを緩和しているが、我々は重要な共通のバイアスを特定する: 人間とLLMの生成した長文キャプションは、通常、一文要約から始まり、その後詳細な説明が続く。これは訓練中のショートカットとして機能し,開始文と初期トークンに注意を集中させ,キャプションの残りの部分のアライメントを弱めることを示す。これを解決するために,DeBias-CLIPを導入し,訓練中の要約文を取り除き,すべてのトークン位置を分散するために文サブサンプリングとテキストトークンパディングを適用した。 DeBias-CLIPは、最先端の長文検索を実現し、短文検索を改善し、文順置換に敏感でない。これはLong-CLIPの代替であり、追加のトレーニング可能なパラメータはない。

関連論文リスト

SuperCLIP: CLIP with Simple Classification Supervision [88.86549733903314]
Contrastive Language-Image Pretrainingは、画像とテキストを共有埋め込み空間に整列させることにより、視覚言語タスクの強力な一般化を実現する。近年,CLIP様モデルでは,テキスト中の微細なセマンティック信号が依然として使われていないことが報告されている。分類に基づく教師付きコントラスト学習のフレームワークであるSuperCLIPを提案する。
論文参考訳（メタデータ） (2025-12-16T15:11:53Z)
Text-Only Training for Image Captioning with Retrieval Augmentation and Modality Gap Correction [3.8722109816646864]
TOMCapは改良されたテキストのみのトレーニング手法で、画像キャプチャペアをアライメントすることなくキャプションを実行する。 TOMCapは、他のトレーニングフリーおよびテキストオンリーメソッドよりも優れていることを示す。
論文参考訳（メタデータ） (2025-12-03T22:54:15Z)
FineLIP: Extending CLIP's Reach via Fine-Grained Alignment with Longer Text Inputs [0.351124620232225]
FineLIPは textbfFine の粒度のアライメントと textbfLonger のテキスト入力を組み込むことで、クロスモーダルなテキストイメージマッピングを強化する。 FineLIPはまず、より長いテキストを扱うために位置埋め込みを拡張し、続いてローカル画像とテキストトークンの動的集約を行う。我々は、ゼロショット・クロスモーダル検索とテキスト・ツー・イメージ生成という2つのタスクにまたがって、長い詳細なキャプションを持つデータセット上でモデルを検証した。
論文参考訳（メタデータ） (2025-04-02T17:19:59Z)
LoTLIP: Improving Language-Image Pre-training for Long Text Understanding [71.04947115945349]
データを長いキャプションで再現するが、それを直接学習することで、短い文章の理解においてパフォーマンスが低下する可能性がある。そして、モデルが元の短いテキスト理解レベルに追いつくのを手助けしますが、長いテキスト理解の能力を大幅に向上させます。本手法は,長文画像検索タスクにおいて優れた性能を示す。
論文参考訳（メタデータ） (2024-10-07T17:52:56Z)
SILC: Improving Vision Language Pretraining with Self-Distillation [113.50400246862056]
本稿では,視覚言語事前学習のための新しいフレームワークであるSILCを紹介する。 SILCは、局所-言語対応学習を自己蒸留で簡単に追加することで、画像テキストのコントラスト学習を改善する。指数移動平均(EMA)教師モデルから局所像の特徴を抽出することにより,検出やセグメンテーションといった密集した予測タスクにおけるモデル性能が大幅に向上することを示す。
論文参考訳（メタデータ） (2023-10-20T08:44:47Z)
CgT-GAN: CLIP-guided Text GAN for Image Captioning [48.276753091051035]
本稿では,CLIP-Guided text GAN (CgT-GAN) を提案する。我々は,外部テキストコーパスのフレーズを模倣するために,CgT-GANの教育に逆行訓練を用いる。 CgT-GANは、すべてのメトリクスで最先端のメソッドを著しく上回る。
論文参考訳（メタデータ） (2023-08-23T10:25:37Z)
Improving CLIP Training with Language Rewrites [57.935517901210225]
言語書き換えによるCLIPトレーニングを強化するために,Language augmented CLIP (LaCLIP)を導入した。また,LaCLIPは,学習中に計算やメモリオーバーヘッドを伴わずに転送性能を大幅に向上することを示した。 ImageNetゼロショット精度では、LaCLIPはCC12MでCLIPを8.2%、LAION-400Mで2.4%上回る。
論文参考訳（メタデータ） (2023-05-31T17:59:04Z)
Fine-grained Image Captioning with CLIP Reward [104.71533106301598]
ウェブから大量の画像テキストペアをトレーニングしたマルチモーダルエンコーダであるCLIPを用いて、マルチモーダル類似性を計算し、報酬関数として利用する。また、追加のテキストアノテーションを必要としない文法を改善するために、CLIPテキストエンコーダの簡単な微調整戦略を提案する。テキスト・ツー・イメージ検索とFineCapEvalの実験において、提案したCLIP誘導モデルは、CIDEr最適化モデルよりも顕著なキャプションを生成する。
論文参考訳（メタデータ） (2022-05-26T02:46:09Z)
VT-CLIP: Enhancing Vision-Language Models with Visual-guided Texts [2.0434814235659555]
コントラスト言語-画像事前学習(CLIP)は近年,伝達可能な視覚表現学習において注目を集めている。 VT-CLIPと呼ばれる視覚誘導テキストによるCLIPの強化を提案する。少数の設定では、よく知られた11の分類データセット上でVT-CLIPを評価し、その効果を実証する。
論文参考訳（メタデータ） (2021-12-04T18:34:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。