論文の概要: No Hard Negatives Required: Concept Centric Learning Leads to Compositionality without Degrading Zero-shot Capabilities of Contrastive Models
- arxiv url: http://arxiv.org/abs/2603.25722v1
- Date: Thu, 26 Mar 2026 17:58:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.418935
- Title: No Hard Negatives Required: Concept Centric Learning Leads to Compositionality without Degrading Zero-shot Capabilities of Contrastive Models
- Title(参考訳): 難しい否定は不要:概念中心学習はコントラストモデルのゼロショット能力を低下させることなく構成性に導く
- Authors: Hai X. Pham, David T. Hoffmann, Ricardo Guerrero, Brais Martinez,
- Abstract要約: V&Lの合成性能を制限する2つの根本原因を同定する。
長いトレーニングキャプションは、構成表現を必要としない。
テキストと画像エンコーダにおける最後のグローバルプールは、必要な情報の完全なロスにつながる。
- 参考スコア(独自算出の注目度): 6.490370760894767
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Contrastive vision-language (V&L) models remain a popular choice for various applications. However, several limitations have emerged, most notably the limited ability of V&L models to learn compositional representations. Prior methods often addressed this limitation by generating custom training data to obtain hard negative samples. Hard negatives have been shown to improve performance on compositionality tasks, but are often specific to a single benchmark, do not generalize, and can cause substantial degradation of basic V&L capabilities such as zero-shot or retrieval performance, rendering them impractical. In this work we follow a different approach. We identify two root causes that limit compositionality performance of V&Ls: 1) Long training captions do not require a compositional representation; and 2) The final global pooling in the text and image encoders lead to a complete loss of the necessary information to learn binding in the first place. As a remedy, we propose two simple solutions: 1) We obtain short concept centric caption parts using standard NLP software and align those with the image; and 2) We introduce a parameter-free cross-modal attention-pooling to obtain concept centric visual embeddings from the image encoder. With these two changes and simple auxiliary contrastive losses, we obtain SOTA performance on standard compositionality benchmarks, while maintaining or improving strong zero-shot and retrieval capabilities. This is achieved without increasing inference cost. We release the code for this work at https://github.com/SamsungLabs/concept_centric_clip.
- Abstract(参考訳): コントラスト視覚言語(V&L)モデルは、様々なアプリケーションで一般的な選択肢である。
しかしながら、V&Lモデルの合成表現学習能力の制限など、いくつかの制限が出現している。
以前の手法では、厳しい負のサンプルを得るためにカスタムトレーニングデータを生成することで、この制限に対処することが多かった。
強陰性は構成性タスクのパフォーマンスを改善することが示されているが、しばしば単一のベンチマークに特有であり、一般化せず、ゼロショットや検索性能などの基本的なV&L能力を著しく劣化させ、それらを非現実的なものにする可能性がある。
この作業では、別のアプローチを採用しています。
V&Lの合成性能を制限する2つの根本原因を同定する。
1) 長期トレーニングキャプションは,構成表現を必要としない。
2) テキストと画像エンコーダにおける最終グローバルプールは, そもそもバインディングを学ぶために必要な情報の完全な喪失につながる。
対策として、我々は2つの簡単な解決策を提案する。
1) 標準NLPソフトウェアを用いて短い概念中心の字幕部分を取得し、それらを画像と整合させる。
2) 画像エンコーダから概念中心の視覚埋め込みを得るためにパラメータフリーのクロスモーダルアテンションプールを導入する。
これら2つの変更と単純な補助的コントラスト損失により、強いゼロショットと検索能力を維持・改善しつつ、標準構成性ベンチマーク上でのSOTA性能を得る。
これは推論コストを増大させることなく達成される。
この作業のコードはhttps://github.com/SamsungLabs/concept_centric_clip.comで公開しています。
関連論文リスト
- Vision-Free Retrieval: Rethinking Multimodal Search with Textual Scene Descriptions [81.33113485830711]
視覚言語モデルに対して,視覚のない単一エンコーダ検索パイプラインを導入する。
VLLM生成した構造化画像記述の助けを借りてテキストからテキストへ移行する。
提案手法は,複数検索および構成性ベンチマークにおいて,最先端のゼロショット性能を実現する。
論文 参考訳(メタデータ) (2025-09-23T16:22:27Z) - Reason-before-Retrieve: One-Stage Reflective Chain-of-Thoughts for Training-Free Zero-Shot Composed Image Retrieval [28.018754406453937]
Composed Image Retrieval (CIR) は、参照画像によく似たターゲット画像を取得することを目的としている。
我々は、ZS-CIR(OSrCIR)の1段階反射鎖推論を提案する。
OSrCIRは、複数のタスクにわたる既存のトレーニングフリーメソッドよりも、パフォーマンスが1.80%から6.44%向上している。
論文 参考訳(メタデータ) (2024-12-15T06:22:20Z) - Text encoders bottleneck compositionality in contrastive vision-language
models [76.2406963762722]
単一ベクトルのテキスト表現からキャプションを再構築することを目的としたテキストのみのリカバリプローブを訓練する。
CLIPのテキストエンコーダは、より構成的な入力では不十分であることがわかった。
結果は、テキストのみの回復性は、構成因子をモデル化するのに必要である(しかし十分ではない)ことを示唆している。
論文 参考訳(メタデータ) (2023-05-24T08:48:44Z) - TVTSv2: Learning Out-of-the-box Spatiotemporal Visual Representations at
Scale [59.01246141215051]
言語指導の観点から,その劣化要因を分析した。
本稿では,テキストエンコーダの一般化能力を維持するために,教師なし事前学習戦略を提案する。
最大10億のパラメータを持つTVTSv2と呼ばれる一連のモデルを作成します。
論文 参考訳(メタデータ) (2023-05-23T15:44:56Z) - Black Box Few-Shot Adaptation for Vision-Language models [41.49584259596654]
ヴィジュアル・ランゲージ(V-L)モデルは、視覚的・言語的モダリティを整合させるために、対照的な学習で訓練された。
本稿では,プリコンパイルされた画像とテキストの特徴に基づいて,V-L小ショット適応のためのブラックボックス手法について述べる。
対象領域におけるV-L再アライメントに対する単純な線形アプローチである線形特徴アライメント(LFA)を提案する。
論文 参考訳(メタデータ) (2023-04-04T12:42:29Z) - Teaching CLIP to Count to Ten [18.703050317383322]
大規模視覚言語モデル(VLM)の定量的理解を改善するための,シンプルで効果的な手法を提案する。
そこで本研究では,既存のVLMを本来の目的に合わせて微調整するために,新たな計数コントラスト損失を提案する。
私たちの知る限りでは、この作業はCLIPの機能をオブジェクトカウントに拡張した最初のものです。
論文 参考訳(メタデータ) (2023-02-23T14:43:53Z) - Generative Negative Text Replay for Continual Vision-Language
Pretraining [95.2784858069843]
視覚言語による事前学習が近年注目を集めている。
大量のデータは、通常ストリーミング形式で収集される。
本稿では,画像とテキスト間のマルチモーダルな知識蒸留手法を提案する。
論文 参考訳(メタデータ) (2022-10-31T13:42:21Z) - Reducing Predictive Feature Suppression in Resource-Constrained
Contrastive Image-Caption Retrieval [65.33981533521207]
我々は、リソース制約のあるICR手法における予測的特徴抑圧を減らすアプローチを提案する:潜在目標デコーディング(LTD)
LTDは、汎用文エンコーダの潜時空間で入力キャプションを再構成し、画像及びキャプションエンコーダが予測的特徴を抑制するのを防止する。
実験の結果,入力空間における入力キャプションの再構成とは異なり,LTDはリコール@k,r精度,nDCGスコアを高くすることで,予測的特徴抑制を低減できることがわかった。
論文 参考訳(メタデータ) (2022-04-28T09:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。