Fugu-MT 論文翻訳(概要): UniCLIP: Unified Framework for Contrastive Language-Image Pre-training

論文の概要: UniCLIP: Unified Framework for Contrastive Language-Image Pre-training

arxiv url: http://arxiv.org/abs/2209.13430v1
Date: Tue, 27 Sep 2022 14:36:16 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-28 15:09:18.015387
Title: UniCLIP: Unified Framework for Contrastive Language-Image Pre-training
Title（参考訳）: UniCLIP: コントラスト言語イメージ事前トレーニングのための統一フレームワーク
Authors: Janghyeon Lee, Jongsuk Kim, Hyounguk Shon, Bumsoo Kim, Seung Hwan Kim, Honglak Lee, Junmo Kim
Abstract要約: コントラスト言語-画像事前学習のための統一フレームワークUniCLIPを提案する。 UniCLIPは、ドメイン間のペアとドメイン内のペアの対比的な損失を単一の普遍空間に統合する。 UniCLIPは、様々な単一モードおよび多モードダウンストリームタスクにおいて、以前の視覚言語事前学習方法より優れている。
参考スコア（独自算出の注目度）: 62.97551575508387
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Pre-training vision-language models with contrastive objectives has shown promising results that are both scalable to large uncurated datasets and transferable to many downstream applications. Some following works have targeted to improve data efficiency by adding self-supervision terms, but inter-domain (image-text) contrastive loss and intra-domain (image-image) contrastive loss are defined on individual spaces in those works, so many feasible combinations of supervision are overlooked. To overcome this issue, we propose UniCLIP, a Unified framework for Contrastive Language-Image Pre-training. UniCLIP integrates the contrastive loss of both inter-domain pairs and intra-domain pairs into a single universal space. The discrepancies that occur when integrating contrastive loss between different domains are resolved by the three key components of UniCLIP: (1) augmentation-aware feature embedding, (2) MP-NCE loss, and (3) domain dependent similarity measure. UniCLIP outperforms previous vision-language pre-training methods on various single- and multi-modality downstream tasks. In our experiments, we show that each component that comprises UniCLIP contributes well to the final performance.
Abstract（参考訳）: 対照的な目的を持った事前学習された視覚言語モデルは、大きな未処理データセットにスケーラブルで、多くの下流アプリケーションに転送可能な有望な結果を示している。自己スーパービジョン項の追加によるデータ効率の向上を目的としている作品もあるが、ドメイン間(画像テキスト)のコントラスト損失とドメイン内(画像-画像)のコントラスト損失は、それらの作品の個々の空間で定義されているため、多くの監督の可能な組み合わせが見過ごされている。この問題を解決するために,コントラスト言語画像事前学習のためのUniCLIPを提案する。 uniclipはドメイン間ペアとドメイン内ペアのコントラスト損失を単一の普遍空間に統合する。異なるドメイン間のコントラスト損失を統合する際に生じる相違は、(1)拡張認識機能埋め込み、(2)MP-NCE損失、(3)ドメイン依存類似度測定の3つのキーコンポーネントによって解決される。 UniCLIPは、様々な単一モードおよび多モードダウンストリームタスクにおいて、以前の視覚言語事前学習方法より優れている。実験では,UniCLIPを構成する各コンポーネントが最終性能によく寄与することを示した。

関連論文リスト

Disentangling CLIP for Multi-Object Perception [58.73850193789384]
CLIPのような視覚言語モデルは、シーン内の1つの顕著なオブジェクトを認識するのに優れていますが、複数のオブジェクトを含む複雑なシーンで苦労しています。 DCLIPはCLIP機能を2つの相補的な目的から切り離すフレームワークである。実験の結果,DCLIPはCLIPと比較してクラス間特徴類似度を30%削減できることがわかった。
論文参考訳（メタデータ） (2025-02-05T08:20:31Z)
Uni-Sign: Toward Unified Sign Language Understanding at Scale [90.76641997060513]
本稿では,事前学習と下流SLUタスクのギャップを解消する統合事前学習フレームワークを提案する。 Uni-Signは、複数の下流SLUタスクにまたがる最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-01-25T11:51:23Z)
Preserving Multi-Modal Capabilities of Pre-trained VLMs for Improving Vision-Linguistic Compositionality [69.76121008898677]
きめ細かい選択校正CLIPは局所的硬陰性損失と選択的校正正規化を統合している。評価の結果、FSC-CLIPは、最先端モデルと同等の合成性を達成できるだけでなく、強力なマルチモーダル能力を保っていることがわかった。
論文参考訳（メタデータ） (2024-10-07T17:16:20Z)
Joint semi-supervised and contrastive learning enables zero-shot domain-adaptation and multi-domain segmentation [1.5393913074555419]
SegCLRは、さまざまなドメインにまたがってボリューム画像を分割するために設計された汎用的なフレームワークである。総合評価により,SegCLRの優れた性能を示す。
論文参考訳（メタデータ） (2024-05-08T18:10:59Z)
RankCLIP: Ranking-Consistent Language-Image Pretraining [7.92247304974314]
RANKCLIPは、CLIPの厳格な1対1マッチングフレームワークを超えて拡張される、新しい事前トレーニング手法である。従来のペアワイズ損失をリストワイズに拡張することで、RANKCLIPはアライメントプロセスを改善し、各モダリティ内および各モダリティ間のニュアンス付き多対多の関係をキャプチャする。
論文参考訳（メタデータ） (2024-04-15T00:12:27Z)
Split to Merge: Unifying Separated Modalities for Unsupervised Domain Adaptation [25.499205902426716]
教師なしドメイン適応のための統一モダリティ分離(UniMoS)フレームワークを導入する。私たちは,CLIPの機能を言語関連コンポーネントと視覚関連コンポーネントに明確に分離する,スウィンブルなモダリティ分離ネットワークを構築した。モダリティ・アンサンブル・トレーニング(MET)法は,モダリティ・アンサンブル情報の交換を促進する。
論文参考訳（メタデータ） (2024-03-11T17:33:12Z)
One-for-All: Towards Universal Domain Translation with a Single StyleGAN [86.33216867136639]
視覚的に異なる領域間の表現を変換するための新しい翻訳モデルUniTranslatorを提案する。提案したUniTranslatorは汎用的で、スタイルミキシング、スタイリゼーション、翻訳など様々なタスクを実行できる。 UniTranslatorは、既存の汎用モデルの性能を超越し、代表タスクの特殊モデルに対してよく機能する。
論文参考訳（メタデータ） (2023-10-22T08:02:55Z)
Generalized Few-Shot Continual Learning with Contrastive Mixture of Adapters [59.82088750033897]
我々は,クラスおよびドメインインクリメンタルな状況を含む汎用FSCL (GFSCL) プロトコルを構築した。一般的な連続学習手法は、目に見えない領域に一般化能力が乏しいことが判明した。このようにして、視覚変換器(ViT)に基づくリハーサルフリーフレームワークであるContrastive Mixture of Adapters(CMoA)を提案する。
論文参考訳（メタデータ） (2023-02-12T15:18:14Z)
Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文参考訳（メタデータ） (2022-10-17T17:57:46Z)
Learning Visual Representation from Modality-Shared Contrastive Language-Image Pre-training [88.80694147730883]
本稿では,多種多様なモダリティ共有コントラスト言語-画像事前学習(MS-CLIP)フレームワークについて検討する。学習条件下では、視覚と言語信号のためのほとんど統一されたエンコーダが、より多くのパラメータを分離する他のすべてのバリエーションより優れていることが観察された。我々のアプローチは、24の下流視覚タスクのコレクションに基づいて、線形探索においてバニラCLIPを1.6ポイント上回ります。
論文参考訳（メタデータ） (2022-07-26T05:19:16Z)
ProtoCLIP: Prototypical Contrastive Language Image Pretraining [12.067061175987075]
このようなグループ化を強化するために,プロトタイプコントラスト言語画像事前学習(ProtoCLIP)を導入している。 ProtoCLIPは、画像空間とテキスト空間の間のプロトタイプレベルの識別を設定し、高いレベルの構造的知識を効率的に伝達する。 ProtoCLIPはオンラインのエピソードトレーニング戦略でトレーニングされており、無制限のデータまでスケールアップすることができる。
論文参考訳（メタデータ） (2022-06-22T11:55:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。