論文の概要: UniCLIP: Unified Framework for Contrastive Language-Image Pre-training
- arxiv url: http://arxiv.org/abs/2209.13430v1
- Date: Tue, 27 Sep 2022 14:36:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 15:09:18.015387
- Title: UniCLIP: Unified Framework for Contrastive Language-Image Pre-training
- Title(参考訳): UniCLIP: コントラスト言語イメージ事前トレーニングのための統一フレームワーク
- Authors: Janghyeon Lee, Jongsuk Kim, Hyounguk Shon, Bumsoo Kim, Seung Hwan Kim,
Honglak Lee, Junmo Kim
- Abstract要約: コントラスト言語-画像事前学習のための統一フレームワークUniCLIPを提案する。
UniCLIPは、ドメイン間のペアとドメイン内のペアの対比的な損失を単一の普遍空間に統合する。
UniCLIPは、様々な単一モードおよび多モードダウンストリームタスクにおいて、以前の視覚言語事前学習方法より優れている。
- 参考スコア(独自算出の注目度): 62.97551575508387
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-training vision-language models with contrastive objectives has shown
promising results that are both scalable to large uncurated datasets and
transferable to many downstream applications. Some following works have
targeted to improve data efficiency by adding self-supervision terms, but
inter-domain (image-text) contrastive loss and intra-domain (image-image)
contrastive loss are defined on individual spaces in those works, so many
feasible combinations of supervision are overlooked. To overcome this issue, we
propose UniCLIP, a Unified framework for Contrastive Language-Image
Pre-training. UniCLIP integrates the contrastive loss of both inter-domain
pairs and intra-domain pairs into a single universal space. The discrepancies
that occur when integrating contrastive loss between different domains are
resolved by the three key components of UniCLIP: (1) augmentation-aware feature
embedding, (2) MP-NCE loss, and (3) domain dependent similarity measure.
UniCLIP outperforms previous vision-language pre-training methods on various
single- and multi-modality downstream tasks. In our experiments, we show that
each component that comprises UniCLIP contributes well to the final
performance.
- Abstract(参考訳): 対照的な目的を持った事前学習された視覚言語モデルは、大きな未処理データセットにスケーラブルで、多くの下流アプリケーションに転送可能な有望な結果を示している。
自己スーパービジョン項の追加によるデータ効率の向上を目的としている作品もあるが、ドメイン間(画像テキスト)のコントラスト損失とドメイン内(画像-画像)のコントラスト損失は、それらの作品の個々の空間で定義されているため、多くの監督の可能な組み合わせが見過ごされている。
この問題を解決するために,コントラスト言語画像事前学習のためのUniCLIPを提案する。
uniclipはドメイン間ペアとドメイン内ペアのコントラスト損失を単一の普遍空間に統合する。
異なるドメイン間のコントラスト損失を統合する際に生じる相違は、(1)拡張認識機能埋め込み、(2)MP-NCE損失、(3)ドメイン依存類似度測定の3つのキーコンポーネントによって解決される。
UniCLIPは、様々な単一モードおよび多モードダウンストリームタスクにおいて、以前の視覚言語事前学習方法より優れている。
実験では,UniCLIPを構成する各コンポーネントが最終性能によく寄与することを示した。
関連論文リスト
- Split to Merge: Unifying Separated Modalities for Unsupervised Domain
Adaptation [25.499205902426716]
教師なしドメイン適応のための統一モダリティ分離(UniMoS)フレームワークを導入する。
私たちは,CLIPの機能を言語関連コンポーネントと視覚関連コンポーネントに明確に分離する,スウィンブルなモダリティ分離ネットワークを構築した。
モダリティ・アンサンブル・トレーニング(MET)法は,モダリティ・アンサンブル情報の交換を促進する。
論文 参考訳(メタデータ) (2024-03-11T17:33:12Z) - UMG-CLIP: A Unified Multi-Granularity Vision Generalist for Open-World
Understanding [93.45067274442881]
本稿では,マルチグラニュラリティアライメントを備えたコントラスト言語画像事前学習(CLIP)を拡張した。
UMG-CLIPと呼ばれる統一された多粒性学習フレームワークを開発し、異なるレベルの詳細で多目的知覚能力を持つモデルを同時に強化する。
論文 参考訳(メタデータ) (2024-01-12T06:35:09Z) - One-for-All: Towards Universal Domain Translation with a Single StyleGAN [86.33216867136639]
視覚的に異なる領域間の表現を変換するための新しい翻訳モデルUniTranslatorを提案する。
提案したUniTranslatorは汎用的で、スタイルミキシング、スタイリゼーション、翻訳など様々なタスクを実行できる。
UniTranslatorは、既存の汎用モデルの性能を超越し、代表タスクの特殊モデルに対してよく機能する。
論文 参考訳(メタデータ) (2023-10-22T08:02:55Z) - GOPro: Generate and Optimize Prompts in CLIP using Self-Supervised
Learning [14.532939492926406]
我々は、CLIPの対照的な損失とSSLの損失の課題を克服するために、GOProと呼ばれる素早い学習ベースモデルを提案する。
GOroは、CLIPとSSLの長所を原則的に組み合わせて、3つの損失目標すべてに対してエンドツーエンドでトレーニングされている。
論文 参考訳(メタデータ) (2023-08-22T17:53:26Z) - Generalized Few-Shot Continual Learning with Contrastive Mixture of
Adapters [59.82088750033897]
我々は,クラスおよびドメインインクリメンタルな状況を含む汎用FSCL (GFSCL) プロトコルを構築した。
一般的な連続学習手法は、目に見えない領域に一般化能力が乏しいことが判明した。
このようにして、視覚変換器(ViT)に基づくリハーサルフリーフレームワークであるContrastive Mixture of Adapters(CMoA)を提案する。
論文 参考訳(メタデータ) (2023-02-12T15:18:14Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - Learning Visual Representation from Modality-Shared Contrastive
Language-Image Pre-training [88.80694147730883]
本稿では,多種多様なモダリティ共有コントラスト言語-画像事前学習(MS-CLIP)フレームワークについて検討する。
学習条件下では、視覚と言語信号のためのほとんど統一されたエンコーダが、より多くのパラメータを分離する他のすべてのバリエーションより優れていることが観察された。
我々のアプローチは、24の下流視覚タスクのコレクションに基づいて、線形探索においてバニラCLIPを1.6ポイント上回ります。
論文 参考訳(メタデータ) (2022-07-26T05:19:16Z) - ProtoCLIP: Prototypical Contrastive Language Image Pretraining [12.067061175987075]
このようなグループ化を強化するために,プロトタイプコントラスト言語画像事前学習(ProtoCLIP)を導入している。
ProtoCLIPは、画像空間とテキスト空間の間のプロトタイプレベルの識別を設定し、高いレベルの構造的知識を効率的に伝達する。
ProtoCLIPはオンラインのエピソードトレーニング戦略でトレーニングされており、無制限のデータまでスケールアップすることができる。
論文 参考訳(メタデータ) (2022-06-22T11:55:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。