論文の概要: CWCL: Cross-Modal Transfer with Continuously Weighted Contrastive Loss
- arxiv url: http://arxiv.org/abs/2309.14580v1
- Date: Tue, 26 Sep 2023 00:03:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-27 15:24:30.729431
- Title: CWCL: Cross-Modal Transfer with Continuously Weighted Contrastive Loss
- Title(参考訳): CWCL: 連続重み付きコントラスト損失を用いたクロスモーダルトランスファー
- Authors: Rakshith Sharma Srinivasa, Jaejin Cho, Chouchang Yang, Yashas Malur
Saidutta, Ching-Hua Lee, Yilin Shen, Hongxia Jin
- Abstract要約: 本稿では,クロスモーダル0ショット転送のためのコントラストトレーニングについて考察する。
1つのモダリティの事前学習モデルは、ペアデータを用いて別のドメインでの表現学習に使用される。
- 参考スコア(独自算出の注目度): 44.693331787654564
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper considers contrastive training for cross-modal 0-shot transfer
wherein a pre-trained model in one modality is used for representation learning
in another domain using pairwise data. The learnt models in the latter domain
can then be used for a diverse set of tasks in a zero-shot way, similar to
``Contrastive Language-Image Pre-training (CLIP)'' and ``Locked-image Tuning
(LiT)'' that have recently gained considerable attention. Most existing works
for cross-modal representation alignment (including CLIP and LiT) use the
standard contrastive training objective, which employs sets of positive and
negative examples to align similar and repel dissimilar training data samples.
However, similarity amongst training examples has a more continuous nature,
thus calling for a more `non-binary' treatment. To address this, we propose a
novel loss function called Continuously Weighted Contrastive Loss (CWCL) that
employs a continuous measure of similarity. With CWCL, we seek to align the
embedding space of one modality with another. Owing to the continuous nature of
similarity in the proposed loss function, these models outperform existing
methods for 0-shot transfer across multiple models, datasets and modalities.
Particularly, we consider the modality pairs of image-text and speech-text and
our models achieve 5-8% (absolute) improvement over previous state-of-the-art
methods in 0-shot image classification and 20-30% (absolute) improvement in
0-shot speech-to-intent classification and keyword classification.
- Abstract(参考訳): 本稿では,一方のモダリティにおける事前学習モデルを用いてペアワイズデータを用いた表現学習を行うクロスモーダル0ショットトランスファーのコントラストトレーニングについて検討する。
後者のドメインで学習されたモデルは、最近注目されている '`Contrastive Language- Image Pre-training (CLIP)'' や ' ``Locked-image Tuning (LiT)'' と同様に、ゼロショットで多様なタスクセットに使用できる。
既存のクロスモーダル表現アライメントのための作品の多くは(クリップやリットを含む)標準のコントラストトレーニング目的を使用しており、同様のトレーニングデータサンプルをアライメントするために、ポジティブな例とネガティブな例のセットを使用している。
しかし、訓練例間の類似性はより連続的な性質を持ち、より「非バイナリ」な治療を求める。
そこで本研究では,相似性の連続尺度を用いた連続重み付きコントラスト損失(cwcl)と呼ばれる新しい損失関数を提案する。
CWCLでは、あるモダリティの埋め込み空間を他のモダリティと整合させる。
損失関数の類似性の連続性により、これらのモデルは複数のモデル、データセット、モダリティ間で0ショット転送を行う既存の手法より優れている。
特に,画像テキストと音声テキストのモダリティペアを考慮し,0ショット画像分類における従来の最先端手法よりも5~8%(絶対)改善し,20~30%(絶対)の改善を0ショット音声対インテント分類とキーワード分類で達成した。
関連論文リスト
- Contrastive Learning with Synthetic Positives [11.932323457691945]
近隣住民との対比学習は、最も効率的な自己教師付き学習(SSL)技術の1つであることが証明されている。
本稿では,NCLP(Contrastive Learning with Synthetic Positives)という新しいアプローチを提案する。
NCLPは、無条件拡散モデルによって生成された合成画像を利用して、モデルが多様な正から学ぶのに役立つ追加の正として利用する。
論文 参考訳(メタデータ) (2024-08-30T01:47:43Z) - Semantic Compositions Enhance Vision-Language Contrastive Learning [46.985865191341944]
CLIPのようなモデルのゼロショット分類と検索能力は、事前学習中に意味論的に複合的な例を導入することで大幅に向上できることを示す。
本手法はキャプションを融合させ,各画像の50%をブレンドして新しい複合試料を作成する。
CLIP-Cの利点は、特に比較的限られた事前学習データを持つ設定で顕著である。
論文 参考訳(メタデータ) (2024-07-01T15:58:20Z) - Bayesian Learning-driven Prototypical Contrastive Loss for Class-Incremental Learning [42.14439854721613]
本稿では,クラス増分学習シナリオに特化して,ベイズ学習駆動型コントラスト損失(BLCL)を持つプロトタイプネットワークを提案する。
提案手法は,ベイズ学習手法を用いて,クロスエントロピーとコントラスト損失関数のバランスを動的に適用する。
論文 参考訳(メタデータ) (2024-05-17T19:49:02Z) - RanPAC: Random Projections and Pre-trained Models for Continual Learning [59.07316955610658]
継続学習(CL)は、古いタスクを忘れずに、非定常データストリームで異なるタスク(分類など)を学習することを目的としている。
本稿では,事前学習モデルを用いたCLの簡潔かつ効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-07-05T12:49:02Z) - Boosting Visual-Language Models by Exploiting Hard Samples [126.35125029639168]
HELIPは、既存のCLIPモデルの性能を高めるための費用対効果戦略である。
我々の方法では、既存のモデルのトレーニングパイプラインと懸命に統合できます。
包括的なベンチマークでは、HELIPはパフォーマンス向上のために既存のモデルを継続的に強化する。
論文 参考訳(メタデータ) (2023-05-09T07:00:17Z) - CyCLIP: Cyclic Contrastive Language-Image Pretraining [34.588147979731374]
ペア画像テキストデータに対するコントラスト表現学習の最近の進歩は、ゼロショット分類と分布ロバスト性のための最先端性能を達成するCLIPのようなモデルにつながっている。
我々は、標準のコントラスト目的によって学習された画像とテキストの表現が交換不可能であり、不整合な下流予測につながることを実証した。
画像やテキスト空間で幾何学的に一貫した表現を明示的に最適化するコントラスト表現学習フレームワークであるCyCLIPを提案する。
論文 参考訳(メタデータ) (2022-05-28T15:31:17Z) - No Token Left Behind: Explainability-Aided Image Classification and
Generation [79.4957965474334]
ここでは、CLIPが入力のすべての関連する意味的部分に焦点を当てることを保証するために、損失項を追加する新しい説明可能性に基づくアプローチを提案する。
本手法は, 追加訓練や微調整を伴わずに, 認識率の向上を図っている。
論文 参考訳(メタデータ) (2022-04-11T07:16:39Z) - Contrastive Learning of Visual-Semantic Embeddings [4.7464518249313805]
本稿では,正規化されたクロスエントロピーに基づく2つの損失関数を提案する。
本研究は,画像・テキスト・テキスト・画像検索タスクにおける既存のビジュアル・セマンティックな埋め込み手法と比較する。
論文 参考訳(メタデータ) (2021-10-17T17:28:04Z) - Semi-supervised Contrastive Learning with Similarity Co-calibration [72.38187308270135]
SsCL(Semi-supervised Contrastive Learning)と呼ばれる新しいトレーニング戦略を提案する。
ssclは、自己教師付き学習におけるよく知られたコントラスト損失と、半教師付き学習におけるクロスエントロピー損失を組み合わせる。
SsCLはより差別的な表現を生じさせ,ショット学習に有益であることを示す。
論文 参考訳(メタデータ) (2021-05-16T09:13:56Z) - Unleashing the Power of Contrastive Self-Supervised Visual Models via
Contrast-Regularized Fine-Tuning [94.35586521144117]
コントラスト学習を微調整に適用することでさらにメリットが得られるか検討する。
本研究では,コントラスト正規化調律(core-tuning)を提案する。
論文 参考訳(メタデータ) (2021-02-12T16:31:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。