論文の概要: CyCLIP: Cyclic Contrastive Language-Image Pretraining
- arxiv url: http://arxiv.org/abs/2205.14459v1
- Date: Sat, 28 May 2022 15:31:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-31 14:45:47.985286
- Title: CyCLIP: Cyclic Contrastive Language-Image Pretraining
- Title(参考訳): CyCLIP: サイクルコントラスト言語-画像事前学習
- Authors: Shashank Goel, Hritik Bansal, Sumit Bhatia, Ryan A. Rossi, Vishwa
Vinay, Aditya Grover
- Abstract要約: ペア画像テキストデータに対するコントラスト表現学習の最近の進歩は、ゼロショット分類と分布ロバスト性のための最先端性能を達成するCLIPのようなモデルにつながっている。
我々は、標準のコントラスト目的によって学習された画像とテキストの表現が交換不可能であり、不整合な下流予測につながることを実証した。
画像やテキスト空間で幾何学的に一貫した表現を明示的に最適化するコントラスト表現学習フレームワークであるCyCLIPを提案する。
- 参考スコア(独自算出の注目度): 34.588147979731374
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in contrastive representation learning over paired image-text
data have led to models such as CLIP that achieve state-of-the-art performance
for zero-shot classification and distributional robustness. Such models
typically require joint reasoning in the image and text representation spaces
for downstream inference tasks. Contrary to prior beliefs, we demonstrate that
the image and text representations learned via a standard contrastive objective
are not interchangeable and can lead to inconsistent downstream predictions. To
mitigate this issue, we formalize consistency and propose CyCLIP, a framework
for contrastive representation learning that explicitly optimizes for the
learned representations to be geometrically consistent in the image and text
space. In particular, we show that consistent representations can be learned by
explicitly symmetrizing (a) the similarity between the two mismatched
image-text pairs (cross-modal consistency); and (b) the similarity between the
image-image pair and the text-text pair (in-modal consistency). Empirically, we
show that the improved consistency in CyCLIP translates to significant gains
over CLIP, with gains ranging from 10%-24% for zero-shot classification
accuracy on standard benchmarks (CIFAR-10, CIFAR-100, ImageNet1K) and 10%-27%
for robustness to various natural distribution shifts. The code is available at
https://github.com/goel-shashank/CyCLIP.
- Abstract(参考訳): ペア画像テキストデータに対するコントラスト表現学習の最近の進歩は、ゼロショット分類と分布ロバスト性のための最先端性能を達成するCLIPのようなモデルにつながっている。
このようなモデルは通常、下流推論タスクのために画像とテキスト表現空間で共同推論を必要とする。
従来の信念とは対照的に,標準のコントラスト目標で学習した画像表現とテキスト表現は交換可能ではなく,一貫性のない下流予測につながる可能性がある。
この問題を軽減するために,画像空間とテキスト空間において幾何的整合性を持つように学習された表現を明示的に最適化するコントラスト表現学習フレームワークであるCyCLIPを提案する。
特に,一貫した表現は明示的対称性によって学習可能であることを示す。
(a)2つの不一致な画像テキスト対(相互整合性)と類似性
b)画像-画像対とテキスト-テキスト対(モーダル整合性)の類似性。
実験により,CLIPに比べてCyCLIPの一貫性が向上し,標準ベンチマーク(CIFAR-10, CIFAR-100, ImageNet1K)のゼロショット分類精度が10%-24%,様々な自然分布シフトに対するロバストネスが10%-27%に向上したことを示す。
コードはhttps://github.com/goel-shashank/CyCLIPで入手できる。
関連論文リスト
- TripletCLIP: Improving Compositional Reasoning of CLIP via Synthetic Vision-Language Negatives [65.82577305915643]
Contrastive Language-Image Pretraining (CLIP) モデルは、表現を学ぶためにテキストと視覚的モダリティ間の相互情報を最大化する。
そこで本研究では,テキスト・ツー・イメージ・ジェネレータを用いて,文脈内学習による「ハード」の負の字幕生成と,それに対応する負のイメージ生成が解となることを示す。
提案手法はTripletCLIPと呼ばれ,CLIPの構成能力を向上し,SugarCrepeベンチマークでは9%以上向上した。
論文 参考訳(メタデータ) (2024-11-04T19:24:59Z) - Finetuning CLIP to Reason about Pairwise Differences [52.028073305958074]
本稿では,CLIPのような視覚言語モデルの学習手法を提案する。
我々はまず,ある属性による画像のランク付け能力を大幅に向上させることを実証した。
また、得られる埋め込みは埋め込み空間においてより大きな幾何学的性質に従うことを示す。
論文 参考訳(メタデータ) (2024-09-15T13:02:14Z) - Semantic Compositions Enhance Vision-Language Contrastive Learning [46.985865191341944]
CLIPのようなモデルのゼロショット分類と検索能力は、事前学習中に意味論的に複合的な例を導入することで大幅に向上できることを示す。
本手法はキャプションを融合させ,各画像の50%をブレンドして新しい複合試料を作成する。
CLIP-Cの利点は、特に比較的限られた事前学習データを持つ設定で顕著である。
論文 参考訳(メタデータ) (2024-07-01T15:58:20Z) - Improving Cross-modal Alignment with Synthetic Pairs for Text-only Image
Captioning [13.357749288588039]
以前の作業では、教師なし設定下でのテキスト情報のみに依存して、画像キャプションのためのCLIPのクロスモーダルアソシエーション機能を活用していた。
本稿では,合成画像とテキストのペアを組み込むことにより,これらの問題に対処する新しい手法を提案する。
テキストデータに対応する画像を得るために、事前訓練されたテキスト・ツー・イメージモデルが配置され、CLIP埋め込み空間の実際の画像に対して、生成された画像の擬似特徴を最適化する。
論文 参考訳(メタデータ) (2023-12-14T12:39:29Z) - STAIR: Learning Sparse Text and Image Representation in Grounded Tokens [84.14528645941128]
疎結合なセマンティック表現を構築することは、密度の高いプレゼンテーションと同程度、あるいはそれ以上に強力であることを示す。
CLIPモデルを拡張してスパーステキストと画像表現(STAIR)を構築し、画像とテキストをスパーストークン空間にマッピングする。
CLIPモデルでは、+4.9%$と+4.3%$絶対リコール@1の改善で大幅にパフォーマンスが向上した。
論文 参考訳(メタデータ) (2023-01-30T17:21:30Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - Hierarchical Text-Conditional Image Generation with CLIP Latents [20.476720970770128]
画像表現を明示的に生成することで、フォトリアリズムとキャプションの類似性が最小限に抑えられ、画像の多様性が向上することを示す。
画像表現に条件付けされたデコーダは、その意味とスタイルの両方を保存した画像のバリエーションを生成できる。
論文 参考訳(メタデータ) (2022-04-13T01:10:33Z) - No Token Left Behind: Explainability-Aided Image Classification and
Generation [79.4957965474334]
ここでは、CLIPが入力のすべての関連する意味的部分に焦点を当てることを保証するために、損失項を追加する新しい説明可能性に基づくアプローチを提案する。
本手法は, 追加訓練や微調整を伴わずに, 認識率の向上を図っている。
論文 参考訳(メタデータ) (2022-04-11T07:16:39Z) - Seed the Views: Hierarchical Semantic Alignment for Contrastive
Representation Learning [116.91819311885166]
一つの画像から生成されたビューをtextbfCross-samples や Multi-level representation に拡張することで,階層的なセマンティックアライメント戦略を提案する。
提案手法はCsMlと呼ばれ,サンプル間の多層視覚表現を堅牢な方法で統合する機能を備えている。
論文 参考訳(メタデータ) (2020-12-04T17:26:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。