論文の概要: SoftCLIP: Softer Cross-modal Alignment Makes CLIP Stronger
- arxiv url: http://arxiv.org/abs/2303.17561v2
- Date: Sat, 16 Dec 2023 16:27:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 21:07:08.016024
- Title: SoftCLIP: Softer Cross-modal Alignment Makes CLIP Stronger
- Title(参考訳): よりソフトなクロスモーダルアライメントでCLIPが強化
- Authors: Yuting Gao, Jinfeng Liu, Zihan Xu, Tong Wu Enwei Zhang, Wei Liu, Jie
Yang, Ke Li, Xing Sun
- Abstract要約: 我々は厳密な1対1の制約を緩和し、ソフトなクロスモーダルアライメントを実現する新しいアプローチであるSoftCLIPを提案する。
特に、ImageNetゼロショット分類タスクでは、事前トレーニングデータセットとしてCC3M/CC12Mを使用して、SoftCLIPは6.8%/7.2%というトップ1の精度向上を実現している。
- 参考スコア(独自算出の注目度): 30.758184720183106
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: During the preceding biennium, vision-language pre-training has achieved
noteworthy success on several downstream tasks. Nevertheless, acquiring
high-quality image-text pairs, where the pairs are entirely exclusive of each
other, remains a challenging task, and noise exists in the commonly used
datasets. To address this issue, we propose SoftCLIP, a novel approach that
relaxes the strict one-to-one constraint and achieves a soft cross-modal
alignment by introducing a softened target, which is generated from the
fine-grained intra-modal self-similarity. The intra-modal guidance is
indicative to enable two pairs have some local similarities and model
many-to-many relationships between the two modalities. Besides, since the
positive still dominates in the softened target distribution, we disentangle
the negatives in the distribution to further boost the relation alignment with
the negatives in the cross-modal learning. Extensive experiments demonstrate
the effectiveness of SoftCLIP. In particular, on ImageNet zero-shot
classification task, using CC3M/CC12M as pre-training dataset, SoftCLIP brings
a top-1 accuracy improvement of 6.8%/7.2% over the CLIP baseline.
- Abstract(参考訳): 前年のビエンニアムの間、視覚言語の事前学習はいくつかの下流タスクで注目すべき成功を収めた。
それでも、ペアが完全に排他的な高品質な画像テキストペアを取得することは難しい課題であり、一般的に使用されるデータセットにはノイズが存在する。
この問題に対処するために,厳密な1対1制約を緩和し,細粒なモード内自己相似性から生じる軟化ターゲットを導入することで,軟化した相互アライメントを実現する,新しいアプローチであるSoftCLIPを提案する。
モード内指導は、2つのペアがいくつかの局所的な類似点を持ち、2つのモダリティ間の多対多関係をモデル化できることを示す。
さらに, ソフト化対象分布において正の静止が支配的であるため, 分布中の負を解離させ, クロスモーダル学習における負の関係性をさらに高める。
大規模な実験はSoftCLIPの有効性を示す。
特にImageNetのゼロショット分類タスクでは、CC3M/CC12Mを事前トレーニングデータセットとして使用することで、CLIPベースラインよりも6.8%/7.2%の精度向上を実現している。
関連論文リスト
- CMAL: A Novel Cross-Modal Associative Learning Framework for Vision-Language Pre-Training [17.27516384073838]
本稿では,係留点検出と相互関連学習を併用したクロスモーダル・アソシエイト学習フレームワークCMALを提案する。
CMALは、4つの共通下流視覚言語タスクにおいて、従来のCMCLベースの手法と競合する性能を達成している。
論文 参考訳(メタデータ) (2024-10-16T14:12:26Z) - Disentangled Noisy Correspondence Learning [56.06801962154915]
クロスモーダル検索は、モダリティ間の潜在対応を理解する上で重要である。
DisNCLはノイズ対応学習における特徴分散のための新しい情報理論フレームワークである。
論文 参考訳(メタデータ) (2024-08-10T09:49:55Z) - Set-CLIP: Exploring Aligned Semantic From Low-Alignment Multimodal Data Through A Distribution View [35.389116270077324]
マルチモーダル融合は様々なモダリティの境界を突破し、既に顕著な性能を達成している。
多くの専門分野において、トレーニングに十分なアライメントデータを得るのに苦労している。
本稿では,CLIPに基づく新しい手法であるSet-CLIPを提案する。
論文 参考訳(メタデータ) (2024-06-09T12:41:14Z) - Deep Boosting Learning: A Brand-new Cooperative Approach for Image-Text Matching [53.05954114863596]
画像テキストマッチングのための新しいDeep Boosting Learning (DBL)アルゴリズムを提案する。
アンカーブランチは、まずデータプロパティに関する洞察を提供するために訓練される。
ターゲットブランチは、一致したサンプルと未一致のサンプルとの相対距離をさらに拡大するために、より適応的なマージン制約を同時に課される。
論文 参考訳(メタデータ) (2024-04-28T08:44:28Z) - RankCLIP: Ranking-Consistent Language-Image Pretraining [7.92247304974314]
RANKCLIPは、CLIPの厳格な1対1マッチングフレームワークを超えて拡張される、新しい事前トレーニング手法である。
従来のペアワイズ損失をリストワイズに拡張することで、RANKCLIPはアライメントプロセスを改善し、各モダリティ内および各モダリティ間のニュアンス付き多対多の関係をキャプチャする。
論文 参考訳(メタデータ) (2024-04-15T00:12:27Z) - Domain Aligned CLIP for Few-shot Classification [3.5326413171911555]
Domain Aligned CLIP (DAC) は、メインモデルを微調整することなく、ターゲット分布上のモーダル内(イメージ)とモーダル間アライメントの両方を改善する。
画像分類におけるDACの有効性について検討し,16ショット分類の精度を約2.3%向上させるとともに,11種類の画像分類タスクのベンチマークを行った。
論文 参考訳(メタデータ) (2023-11-15T18:34:26Z) - CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。
ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。
さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-02T04:27:54Z) - VLMixer: Unpaired Vision-Language Pre-training via Cross-Modal CutMix [59.25846149124199]
本稿では,データ拡張手法,すなわちクロスモーダルCutMixを提案する。
CMCは自然文をテキストビューからマルチモーダルビューに変換する。
クロスモーダルノイズをユニモーダルデータにアタッチすることで、モダリティ間のトークンレベルの相互作用を学習し、より優れたデノゲーションを実現する。
論文 参考訳(メタデータ) (2022-06-17T17:56:47Z) - Robust Cross-Modal Representation Learning with Progressive
Self-Distillation [7.676408770854477]
CLIPの視覚言語アプローチの学習目的は、Webハーベスト画像キャプションデータセットに見られるノイズの多い多対多対応を効果的に考慮していない。
本研究では、進行的な自己蒸留とソフトな画像テキストアライメントを用いて、雑音の多いデータから頑健な表現をより効率的に学習するクロスモーダルコントラスト学習に基づく新しいトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-10T03:28:18Z) - Semi-supervised Domain Adaptive Structure Learning [72.01544419893628]
半教師付きドメイン適応 (SSDA) は,1) アノテーションの低いデータに過度に適合する手法と,2) ドメイン間の分散シフトの両方を克服しなければならない課題である。
SSLとDAの協調を正規化するための適応型構造学習手法を提案する。
論文 参考訳(メタデータ) (2021-12-12T06:11:16Z) - Semi-supervised Contrastive Learning with Similarity Co-calibration [72.38187308270135]
SsCL(Semi-supervised Contrastive Learning)と呼ばれる新しいトレーニング戦略を提案する。
ssclは、自己教師付き学習におけるよく知られたコントラスト損失と、半教師付き学習におけるクロスエントロピー損失を組み合わせる。
SsCLはより差別的な表現を生じさせ,ショット学習に有益であることを示す。
論文 参考訳(メタデータ) (2021-05-16T09:13:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。