論文の概要: RankCLIP: Ranking-Consistent Language-Image Pretraining
- arxiv url: http://arxiv.org/abs/2404.09387v1
- Date: Mon, 15 Apr 2024 00:12:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 14:09:06.922941
- Title: RankCLIP: Ranking-Consistent Language-Image Pretraining
- Title(参考訳): RankCLIP: Ranking-Consistent Language- Image Pretraining
- Authors: Yiming Zhang, Zhuokai Zhao, Zhaorun Chen, Zhili Feng, Zenghui Ding, Yining Sun,
- Abstract要約: 対照的に、CLIP(Contrastive Language-image Pretraining)は、多くの下流タスクで新しいベンチマークを設定している。
しかし、厳密な1対1マッピングへの依存は、テキストと画像の間の複雑な関係を見落としている。
RankCLIPは,厳密な1対1のマッチングフレームワークを超えて拡張された,新しい事前学習手法である。
- 参考スコア(独自算出の注目度): 7.92247304974314
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Among the ever-evolving development of vision-language models, contrastive language-image pretraining (CLIP) has set new benchmarks in many downstream tasks such as zero-shot classifications by leveraging self-supervised contrastive learning on large amounts of text-image pairs. However, its dependency on rigid one-to-one mappings overlooks the complex and often multifaceted relationships between and within texts and images. To this end, we introduce RankCLIP, a novel pretraining method that extends beyond the rigid one-to-one matching framework of CLIP and its variants. By leveraging both in-modal and cross-modal ranking consistency, RankCLIP improves the alignment process, enabling it to capture the nuanced many-to-many relationships between and within each modality. Through comprehensive experiments, we demonstrate the enhanced capability of RankCLIP to effectively improve performance across various downstream tasks, notably achieving significant gains in zero-shot classifications over state-of-the-art methods, underscoring the potential of RankCLIP in further advancing vision-language pretraining.
- Abstract(参考訳): 視覚言語モデルの開発が絶え間なく進んでいる中、CLIP(Contrative Language-image Pretraining)は、大量のテキストイメージ対に自己教師付きコントラスト学習を活用することで、ゼロショット分類のような多くの下流タスクに新しいベンチマークを設定している。
しかし、厳密な1対1マッピングへの依存は、テキストと画像の間の複雑な、しばしば多面的な関係を見落としている。
この目的のために我々は,CLIPの厳格な1対1マッチングフレームワークとその変種を超えた,新しい事前学習手法である RankCLIP を導入する。
インモーダルとクロスモーダルの両方のランキング整合性を活用することで、RancCLIPはアライメントプロセスを改善し、各モダリティ内および各モダリティ間のニュアンスな多対多の関係をキャプチャする。
総合的な実験を通じて、さまざまな下流タスクにおけるパフォーマンス向上のためのRanCLIPの強化能力を実証し、特に最先端の手法よりもゼロショット分類において顕著な向上を実現し、さらに先進的な視覚言語事前訓練におけるRanCLIPの可能性を示す。
関連論文リスト
- UMG-CLIP: A Unified Multi-Granularity Vision Generalist for Open-World
Understanding [93.45067274442881]
本稿では,マルチグラニュラリティアライメントを備えたコントラスト言語画像事前学習(CLIP)を拡張した。
UMG-CLIPと呼ばれる統一された多粒性学習フレームワークを開発し、異なるレベルの詳細で多目的知覚能力を持つモデルを同時に強化する。
論文 参考訳(メタデータ) (2024-01-12T06:35:09Z) - Understanding Transferable Representation Learning and Zero-shot
Transfer in CLIP [92.7485653161698]
CLIPの基盤となるトランスファーブル表現学習について検討し、異なるモダリティの特徴の整合性を実証する。
そこで本研究では,ベンチマークデータセット上でのCLIPや他の最先端手法よりも優れた性能を実現するCLIP型アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-02T06:41:30Z) - HiCLIP: Contrastive Language-Image Pretraining with Hierarchy-aware
Attention [38.9792837990585]
階層対応のCLIP(Hierarchy-aware CLIP:HiCLIP)という,階層対応のCLIPの視覚と言語の両方を装備する。
HiCLIPは、画像とテキストの両方から階層構造を、教師なしの方法で徐々に発見する。
結果として、このような階層的な集約は、クロスモーダルアライメントを著しく改善する。
論文 参考訳(メタデータ) (2023-03-06T09:44:01Z) - CPL: Counterfactual Prompt Learning for Vision and Language Models [76.18024920393245]
本稿では、視覚と言語モデルのための新しいアンダーラインテキストbfCounterfactual underlinetextbfPrompt underlinetextbfLearning (CPL)法を提案する。
CPLは、共同最適化フレームワークにおいて、反ファクト生成とコントラスト学習を同時に採用している。
実験により、CPLは異なるビジョンと言語タスクにおいて優れた数ショットのパフォーマンスを得ることができることが示された。
論文 参考訳(メタデータ) (2022-10-19T08:06:39Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - Learning Visual Representation from Modality-Shared Contrastive
Language-Image Pre-training [88.80694147730883]
本稿では,多種多様なモダリティ共有コントラスト言語-画像事前学習(MS-CLIP)フレームワークについて検討する。
学習条件下では、視覚と言語信号のためのほとんど統一されたエンコーダが、より多くのパラメータを分離する他のすべてのバリエーションより優れていることが観察された。
我々のアプローチは、24の下流視覚タスクのコレクションに基づいて、線形探索においてバニラCLIPを1.6ポイント上回ります。
論文 参考訳(メタデータ) (2022-07-26T05:19:16Z) - COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for
Cross-Modal Retrieval [59.15034487974549]
画像テキスト検索のための新しいコラボレーティブな2ストリームビジョン言語事前学習モデルCOTSを提案する。
我々のCOTSは,2ストリーム方式の中で最も高い性能を達成し,推論の速度は10,800倍に向上した。
重要なことは、我々のCOTSはテキストからビデオへの検索にも適用でき、広く使われているMSR-VTTデータセットに新たな最先端技術をもたらすことである。
論文 参考訳(メタデータ) (2022-04-15T12:34:47Z) - HiCLRE: A Hierarchical Contrastive Learning Framework for Distantly
Supervised Relation Extraction [24.853265244512954]
雑音の少ない文を抽出するための階層的コントラスト学習フレームワーク (HiCLRE) を提案する。
具体的には,3段階の階層型学習フレームワークを提案する。
実験により、HiCLREは様々なメインストリームDSREデータセットにおいて、強いベースラインを著しく上回っていることが示された。
論文 参考訳(メタデータ) (2022-02-27T12:48:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。