論文の概要: RankCLIP: Ranking-Consistent Language-Image Pretraining
- arxiv url: http://arxiv.org/abs/2404.09387v1
- Date: Mon, 15 Apr 2024 00:12:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 14:09:06.922941
- Title: RankCLIP: Ranking-Consistent Language-Image Pretraining
- Title(参考訳): RankCLIP: Ranking-Consistent Language- Image Pretraining
- Authors: Yiming Zhang, Zhuokai Zhao, Zhaorun Chen, Zhili Feng, Zenghui Ding, Yining Sun,
- Abstract要約: 対照的に、CLIP(Contrastive Language-image Pretraining)は、多くの下流タスクで新しいベンチマークを設定している。
しかし、厳密な1対1マッピングへの依存は、テキストと画像の間の複雑な関係を見落としている。
RankCLIPは,厳密な1対1のマッチングフレームワークを超えて拡張された,新しい事前学習手法である。
- 参考スコア(独自算出の注目度): 7.92247304974314
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Among the ever-evolving development of vision-language models, contrastive language-image pretraining (CLIP) has set new benchmarks in many downstream tasks such as zero-shot classifications by leveraging self-supervised contrastive learning on large amounts of text-image pairs. However, its dependency on rigid one-to-one mappings overlooks the complex and often multifaceted relationships between and within texts and images. To this end, we introduce RankCLIP, a novel pretraining method that extends beyond the rigid one-to-one matching framework of CLIP and its variants. By leveraging both in-modal and cross-modal ranking consistency, RankCLIP improves the alignment process, enabling it to capture the nuanced many-to-many relationships between and within each modality. Through comprehensive experiments, we demonstrate the enhanced capability of RankCLIP to effectively improve performance across various downstream tasks, notably achieving significant gains in zero-shot classifications over state-of-the-art methods, underscoring the potential of RankCLIP in further advancing vision-language pretraining.
- Abstract(参考訳): 視覚言語モデルの開発が絶え間なく進んでいる中、CLIP(Contrative Language-image Pretraining)は、大量のテキストイメージ対に自己教師付きコントラスト学習を活用することで、ゼロショット分類のような多くの下流タスクに新しいベンチマークを設定している。
しかし、厳密な1対1マッピングへの依存は、テキストと画像の間の複雑な、しばしば多面的な関係を見落としている。
この目的のために我々は,CLIPの厳格な1対1マッチングフレームワークとその変種を超えた,新しい事前学習手法である RankCLIP を導入する。
インモーダルとクロスモーダルの両方のランキング整合性を活用することで、RancCLIPはアライメントプロセスを改善し、各モダリティ内および各モダリティ間のニュアンスな多対多の関係をキャプチャする。
総合的な実験を通じて、さまざまな下流タスクにおけるパフォーマンス向上のためのRanCLIPの強化能力を実証し、特に最先端の手法よりもゼロショット分類において顕著な向上を実現し、さらに先進的な視覚言語事前訓練におけるRanCLIPの可能性を示す。
関連論文リスト
- CMAL: A Novel Cross-Modal Associative Learning Framework for Vision-Language Pre-Training [17.27516384073838]
本稿では,係留点検出と相互関連学習を併用したクロスモーダル・アソシエイト学習フレームワークCMALを提案する。
CMALは、4つの共通下流視覚言語タスクにおいて、従来のCMCLベースの手法と競合する性能を達成している。
論文 参考訳(メタデータ) (2024-10-16T14:12:26Z) - Constrained Multi-Layer Contrastive Learning for Implicit Discourse Relationship Recognition [9.644808110078833]
我々は,教師付きコントラスト学習(CL)手法,ラベルとインスタンス中心のCLを適用し,表現学習を強化する。
PDTB 2.0 と PDTB 3.0 の実験結果から,本手法は多クラス分類とバイナリ分類の両方において,性能を著しく向上させることができることがわかった。
論文 参考訳(メタデータ) (2024-09-07T17:55:41Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - Learning Visual Representation from Modality-Shared Contrastive
Language-Image Pre-training [88.80694147730883]
本稿では,多種多様なモダリティ共有コントラスト言語-画像事前学習(MS-CLIP)フレームワークについて検討する。
学習条件下では、視覚と言語信号のためのほとんど統一されたエンコーダが、より多くのパラメータを分離する他のすべてのバリエーションより優れていることが観察された。
我々のアプローチは、24の下流視覚タスクのコレクションに基づいて、線形探索においてバニラCLIPを1.6ポイント上回ります。
論文 参考訳(メタデータ) (2022-07-26T05:19:16Z) - COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for
Cross-Modal Retrieval [59.15034487974549]
画像テキスト検索のための新しいコラボレーティブな2ストリームビジョン言語事前学習モデルCOTSを提案する。
我々のCOTSは,2ストリーム方式の中で最も高い性能を達成し,推論の速度は10,800倍に向上した。
重要なことは、我々のCOTSはテキストからビデオへの検索にも適用でき、広く使われているMSR-VTTデータセットに新たな最先端技術をもたらすことである。
論文 参考訳(メタデータ) (2022-04-15T12:34:47Z) - Fine-grained Temporal Contrastive Learning for Weakly-supervised
Temporal Action Localization [87.47977407022492]
本稿では,シーケンス・ツー・シーケンスの区別を文脈的に比較することで学習が,弱い教師付き行動の局所化に不可欠な帰納的バイアスをもたらすことを論じる。
微分可能な動的プログラミングの定式化の下では、FSD(Fen-fine Sequence Distance)とLCS(Longest Common Subsequence)の2つの相補的コントラストが設計されている。
提案手法は,2つのベンチマークにおいて最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-31T05:13:50Z) - HiCLRE: A Hierarchical Contrastive Learning Framework for Distantly
Supervised Relation Extraction [24.853265244512954]
雑音の少ない文を抽出するための階層的コントラスト学習フレームワーク (HiCLRE) を提案する。
具体的には,3段階の階層型学習フレームワークを提案する。
実験により、HiCLREは様々なメインストリームDSREデータセットにおいて、強いベースラインを著しく上回っていることが示された。
論文 参考訳(メタデータ) (2022-02-27T12:48:26Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - Contrastive Learning with Adversarial Examples [79.39156814887133]
コントラスト学習(Contrastive Learning, CL)は、視覚表現の自己教師型学習(SSL)において一般的な手法である。
本稿では,コンストラクティブ・ラーニングのための新しい逆例群を紹介し,これらの例を用いてCLAEと表記されるSSLの新しい逆トレーニングアルゴリズムを定義する。
論文 参考訳(メタデータ) (2020-10-22T20:45:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。