論文の概要: Understanding Transferable Representation Learning and Zero-shot
Transfer in CLIP
- arxiv url: http://arxiv.org/abs/2310.00927v1
- Date: Mon, 2 Oct 2023 06:41:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-04 23:13:32.442937
- Title: Understanding Transferable Representation Learning and Zero-shot
Transfer in CLIP
- Title(参考訳): CLIPにおける伝達可能な表現学習とゼロショット変換の理解
- Authors: Zixiang Chen and Yihe Deng and Yuanzhi Li and Quanquan Gu
- Abstract要約: CLIPの基盤となるトランスファーブル表現学習について検討し、異なるモダリティの特徴の整合性を実証する。
そこで本研究では,ベンチマークデータセット上でのCLIPや他の最先端手法よりも優れた性能を実現するCLIP型アプローチを提案する。
- 参考スコア(独自算出の注目度): 92.7485653161698
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal learning has become increasingly popular due to its ability to
leverage information from different data sources (e.g., text and images) to
improve the model performance. Recently, CLIP has emerged as an effective
approach that employs vision-language contrastive pretraining to learn joint
image and text representations and exhibits remarkable performance in zero-shot
learning and text-guided natural image generation. Despite the huge practical
success of CLIP, its theoretical understanding remains elusive. In this paper,
we formally study transferrable representation learning underlying CLIP and
demonstrate how features from different modalities get aligned. We also analyze
its zero-shot transfer performance on the downstream tasks. Inspired by our
analysis, we propose a new CLIP-type approach, which achieves better
performance than CLIP and other state-of-the-art methods on benchmark datasets.
- Abstract(参考訳): 様々なデータソース(テキストや画像など)からの情報を活用し、モデルのパフォーマンスを向上させる能力により、マルチモーダル学習がますます普及しています。
近年,視覚言語によるコントラストプリトレーニングを併用した映像表現やテキスト表現の学習に有効な手法としてクリップが登場し,ゼロショット学習やテキスト誘導自然画像生成において顕著な性能を示している。
CLIPの実践的成功にもかかわらず、理論的な理解はいまだ解明されていない。
本稿では,CLIPの基盤となる伝達可能表現学習を正式に研究し,異なるモダリティの特徴の整合性を実証する。
また,ダウンストリームタスクにおけるゼロショット転送性能も解析した。
そこで本研究では,ベンチマークデータセット上でのCLIPや他の最先端手法よりも優れた性能を実現するCLIP型アプローチを提案する。
関連論文リスト
- CLAP: Isolating Content from Style through Contrastive Learning with
Augmented Prompts [12.838906765729748]
コンテンツの特徴を元の表現から切り離すために,データ拡張によるコントラスト学習を提案する。
多様なデータセットを対象とした実験では、ゼロショットと少数ショットの分類タスクが大幅に改善された。
論文 参考訳(メタデータ) (2023-11-28T03:00:59Z) - Augmenting CLIP with Improved Visio-Linguistic Reasoning [51.135606355630046]
本稿では,CLIPの視覚言語推論能力を向上させるために,SDS-CLIPと呼ばれる試料効率のよい軽量化手法を提案する。
提案手法は,異なるCLIPモデルの絶対的視覚言語性能を最大7%向上させる。
CLIPに視覚言語推論を誘導する副産物として、ゼロショットのパフォーマンスは、さまざまな下流データセットでわずかに向上する。
論文 参考訳(メタデータ) (2023-07-18T13:10:11Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - Contrastive Language-Image Pre-Training with Knowledge Graphs [33.211811772961234]
本稿では,CLIPモデルに意味情報を注入する知識ベース事前学習フレームワークであるKnowledge-CLIPを提案する。
我々のモデルは、視覚と言語の表現を高い品質で意味的に整合させ、シナリオやモダリティを越えて推論能力を高めることができる。
論文 参考訳(メタデータ) (2022-10-17T09:49:22Z) - CLIP-ViP: Adapting Pre-trained Image-Text Model to Video-Language
Representation Alignment [146.3128011522151]
本稿では,CLIP,すなわちCLIP-ViPに基づいて,ビデオプロキシ機構を備えたOmniクロスモーダル学習手法を提案する。
提案手法は,ビデオテキスト検索におけるCLIPの性能を大きなマージンで向上させる。
MSR-VTT, DiDeMo, LSMDC, ActivityNet など,様々なデータセット上でのSOTA結果も得られた。
論文 参考訳(メタデータ) (2022-09-14T05:47:02Z) - Robust Cross-Modal Representation Learning with Progressive
Self-Distillation [7.676408770854477]
CLIPの視覚言語アプローチの学習目的は、Webハーベスト画像キャプションデータセットに見られるノイズの多い多対多対応を効果的に考慮していない。
本研究では、進行的な自己蒸留とソフトな画像テキストアライメントを用いて、雑音の多いデータから頑健な表現をより効率的に学習するクロスモーダルコントラスト学習に基づく新しいトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-10T03:28:18Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - VL-LTR: Learning Class-wise Visual-Linguistic Representation for
Long-Tailed Visual Recognition [61.75391989107558]
本稿では,VL-LTRと呼ばれる視覚言語的長尾認識フレームワークを提案する。
本手法は,画像から視覚表現とそれに対応する言語表現を,雑音のあるクラスレベルのテキスト記述から学習することができる。
特に,ImageNet-LTでは77.2%の精度を達成し,従来のベストメソッドよりも17ポイント以上優れていた。
論文 参考訳(メタデータ) (2021-11-26T16:24:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。