Fugu-MT 論文翻訳(概要): RankCLIP: Ranking-Consistent Language-Image Pretraining

論文の概要: RankCLIP: Ranking-Consistent Language-Image Pretraining

arxiv url: http://arxiv.org/abs/2404.09387v1
Date: Mon, 15 Apr 2024 00:12:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-16 14:09:06.922941
Title: RankCLIP: Ranking-Consistent Language-Image Pretraining
Title（参考訳）: RankCLIP: Ranking-Consistent Language- Image Pretraining
Authors: Yiming Zhang, Zhuokai Zhao, Zhaorun Chen, Zhili Feng, Zenghui Ding, Yining Sun,
Abstract要約: 対照的に、CLIP(Contrastive Language-image Pretraining)は、多くの下流タスクで新しいベンチマークを設定している。しかし、厳密な1対1マッピングへの依存は、テキストと画像の間の複雑な関係を見落としている。 RankCLIPは,厳密な1対1のマッチングフレームワークを超えて拡張された,新しい事前学習手法である。
参考スコア（独自算出の注目度）: 7.92247304974314
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Among the ever-evolving development of vision-language models, contrastive language-image pretraining (CLIP) has set new benchmarks in many downstream tasks such as zero-shot classifications by leveraging self-supervised contrastive learning on large amounts of text-image pairs. However, its dependency on rigid one-to-one mappings overlooks the complex and often multifaceted relationships between and within texts and images. To this end, we introduce RankCLIP, a novel pretraining method that extends beyond the rigid one-to-one matching framework of CLIP and its variants. By leveraging both in-modal and cross-modal ranking consistency, RankCLIP improves the alignment process, enabling it to capture the nuanced many-to-many relationships between and within each modality. Through comprehensive experiments, we demonstrate the enhanced capability of RankCLIP to effectively improve performance across various downstream tasks, notably achieving significant gains in zero-shot classifications over state-of-the-art methods, underscoring the potential of RankCLIP in further advancing vision-language pretraining.
Abstract（参考訳）: 視覚言語モデルの開発が絶え間なく進んでいる中、CLIP(Contrative Language-image Pretraining)は、大量のテキストイメージ対に自己教師付きコントラスト学習を活用することで、ゼロショット分類のような多くの下流タスクに新しいベンチマークを設定している。しかし、厳密な1対1マッピングへの依存は、テキストと画像の間の複雑な、しばしば多面的な関係を見落としている。この目的のために我々は,CLIPの厳格な1対1マッチングフレームワークとその変種を超えた,新しい事前学習手法である RankCLIP を導入する。インモーダルとクロスモーダルの両方のランキング整合性を活用することで、RancCLIPはアライメントプロセスを改善し、各モダリティ内および各モダリティ間のニュアンスな多対多の関係をキャプチャする。総合的な実験を通じて、さまざまな下流タスクにおけるパフォーマンス向上のためのRanCLIPの強化能力を実証し、特に最先端の手法よりもゼロショット分類において顕著な向上を実現し、さらに先進的な視覚言語事前訓練におけるRanCLIPの可能性を示す。

関連論文リスト

Continual Learning on CLIP via Incremental Prompt Tuning with Intrinsic Textual Anchors [50.7383184560431]
連続学習(CL)は、破滅的な忘れ込みを避けながら、ディープネットワークが新たな知識を得ることを可能にする。インクリメンタルなプロンプトチューニングに基づくCLIPのための簡潔なCLアプローチを提案する。我々の双方向監視戦略は、忘れを減らしながら、新しい知識をより効果的に学習することを可能にする。
論文参考訳（メタデータ） (2025-05-27T03:51:37Z)
Post-pre-training for Modality Alignment in Vision-Language Foundation Models [12.110530026601968]
本稿では,CLIPモデルの事前学習と微調整の段階における事前学習手法であるCLIP-Refineを提案する。ゼロショットのパフォーマンス劣化を伴わずに、小さな画像テキストデータセットに対する1エポックトレーニングとフィーチャースペースの整合性を目指す。
論文参考訳（メタデータ） (2025-04-17T07:46:19Z)
Revisiting Self-Supervised Heterogeneous Graph Learning from Spectral Clustering Perspective [52.662463893268225]
自己教師付きヘテロジニアスグラフ学習(SHGL)は様々なシナリオにおいて有望な可能性を示している。既存のSHGLメソッドには2つの大きな制限がある。ランクと二重整合性制約によって強化された新しいフレームワークを導入する。
論文参考訳（メタデータ） (2024-12-01T09:33:20Z)
CMAL: A Novel Cross-Modal Associative Learning Framework for Vision-Language Pre-Training [17.27516384073838]
本稿では,係留点検出と相互関連学習を併用したクロスモーダル・アソシエイト学習フレームワークCMALを提案する。 CMALは、4つの共通下流視覚言語タスクにおいて、従来のCMCLベースの手法と競合する性能を達成している。
論文参考訳（メタデータ） (2024-10-16T14:12:26Z)
Constrained Multi-Layer Contrastive Learning for Implicit Discourse Relationship Recognition [9.644808110078833]
我々は,教師付きコントラスト学習(CL)手法,ラベルとインスタンス中心のCLを適用し,表現学習を強化する。 PDTB 2.0 と PDTB 3.0 の実験結果から,本手法は多クラス分類とバイナリ分類の両方において,性能を著しく向上させることができることがわかった。
論文参考訳（メタデータ） (2024-09-07T17:55:41Z)
SLCA++: Unleash the Power of Sequential Fine-tuning for Continual Learning with Pre-training [68.7896349660824]
本稿では,Seq FTのレンズからの進行オーバーフィッティング問題を詳細に解析する。過度に高速な表現学習と偏りのある分類層がこの問題を構成することを考慮し、先進的なSlow Learner with Alignment(S++)フレームワークを導入する。提案手法は,バックボーンパラメータの学習率を選択的に減少させるスローラーナーと,ポストホック方式で不規則な分類層を整列させるアライメントを含む。
論文参考訳（メタデータ） (2024-08-15T17:50:07Z)
HiCL: Hierarchical Contrastive Learning of Unsupervised Sentence Embeddings [31.50124610417377]
HiCLは、訓練効率と効率を改善するために、局所的なセグメントレベルとグローバルなシーケンスレベルの関係を考慮する。実験では、HiCLは7つの広範囲に評価されたSTSタスクに対して、以前のトップパフォーマンスSNCSEモデルを強化する。
論文参考訳（メタデータ） (2023-10-15T03:14:33Z)
Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文参考訳（メタデータ） (2022-10-17T17:57:46Z)
Learning Visual Representation from Modality-Shared Contrastive Language-Image Pre-training [88.80694147730883]
本稿では,多種多様なモダリティ共有コントラスト言語-画像事前学習(MS-CLIP)フレームワークについて検討する。学習条件下では、視覚と言語信号のためのほとんど統一されたエンコーダが、より多くのパラメータを分離する他のすべてのバリエーションより優れていることが観察された。我々のアプローチは、24の下流視覚タスクのコレクションに基づいて、線形探索においてバニラCLIPを1.6ポイント上回ります。
論文参考訳（メタデータ） (2022-07-26T05:19:16Z)
OrdinalCLIP: Learning Rank Prompts for Language-Guided Ordinal Regression [94.28253749970534]
我々は、リッチなセマンティックCLIP潜在空間からランクの概念を学ぶことを提案する。 OrdinalCLIPは学習可能なコンテキストトークンと学習可能なランク埋め込みで構成されている。実験結果から,本パラダイムは一般順序回帰タスクにおける競合性能を達成できることが示唆された。
論文参考訳（メタデータ） (2022-06-06T03:54:53Z)
COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval [59.15034487974549]
画像テキスト検索のための新しいコラボレーティブな2ストリームビジョン言語事前学習モデルCOTSを提案する。我々のCOTSは,2ストリーム方式の中で最も高い性能を達成し,推論の速度は10,800倍に向上した。重要なことは、我々のCOTSはテキストからビデオへの検索にも適用でき、広く使われているMSR-VTTデータセットに新たな最先端技術をもたらすことである。
論文参考訳（メタデータ） (2022-04-15T12:34:47Z)
Fine-grained Temporal Contrastive Learning for Weakly-supervised Temporal Action Localization [87.47977407022492]
本稿では,シーケンス・ツー・シーケンスの区別を文脈的に比較することで学習が,弱い教師付き行動の局所化に不可欠な帰納的バイアスをもたらすことを論じる。微分可能な動的プログラミングの定式化の下では、FSD(Fen-fine Sequence Distance)とLCS(Longest Common Subsequence)の2つの相補的コントラストが設計されている。提案手法は,2つのベンチマークにおいて最先端の性能を実現する。
論文参考訳（メタデータ） (2022-03-31T05:13:50Z)
HiCLRE: A Hierarchical Contrastive Learning Framework for Distantly Supervised Relation Extraction [24.853265244512954]
雑音の少ない文を抽出するための階層的コントラスト学習フレームワーク (HiCLRE) を提案する。具体的には,3段階の階層型学習フレームワークを提案する。実験により、HiCLREは様々なメインストリームDSREデータセットにおいて、強いベースラインを著しく上回っていることが示された。
論文参考訳（メタデータ） (2022-02-27T12:48:26Z)
Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文参考訳（メタデータ） (2021-09-24T07:20:13Z)
Contrastive Learning with Adversarial Examples [79.39156814887133]
コントラスト学習(Contrastive Learning, CL)は、視覚表現の自己教師型学習(SSL)において一般的な手法である。本稿では,コンストラクティブ・ラーニングのための新しい逆例群を紹介し,これらの例を用いてCLAEと表記されるSSLの新しい逆トレーニングアルゴリズムを定義する。
論文参考訳（メタデータ） (2020-10-22T20:45:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。