論文の概要: SynthCLIP: Are We Ready for a Fully Synthetic CLIP Training?
- arxiv url: http://arxiv.org/abs/2402.01832v1
- Date: Fri, 2 Feb 2024 18:59:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 23:49:26.903114
- Title: SynthCLIP: Are We Ready for a Fully Synthetic CLIP Training?
- Title(参考訳): SynthCLIP: 完全合成CLIPトレーニングの準備はできているか?
- Authors: Hasan Abed Al Kader Hammoud, Hani Itani, Fabio Pizzati, Philip Torr,
Adel Bibi, Bernard Ghanem
- Abstract要約: 完全合成テキストイメージペアでCLIPモデルをトレーニングするための新しいフレームワークであるSynthCLIPを提案する。
大規模トレーニングでは、SynthCLIPは、実際のデータセットでトレーニングされたCLIPモデルに匹敵するパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 60.84331039894246
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present SynthCLIP, a novel framework for training CLIP models with
entirely synthetic text-image pairs, significantly departing from previous
methods relying on real data. Leveraging recent text-to-image (TTI) generative
networks and large language models (LLM), we are able to generate synthetic
datasets of images and corresponding captions at any scale, with no human
intervention. With training at scale, SynthCLIP achieves performance comparable
to CLIP models trained on real datasets. We also introduce SynthCI-30M, a
purely synthetic dataset comprising 30 million captioned images. Our code,
trained models, and generated data are released at
https://github.com/hammoudhasan/SynthCLIP
- Abstract(参考訳): 完全に合成されたテキストイメージペアでCLIPモデルをトレーニングするための新しいフレームワークであるSynthCLIPについて述べる。
近年のテキスト・ツー・イメージ(TTI)生成ネットワークと大規模言語モデル(LLM)を活用して,画像と対応するキャプションの合成データセットを任意の規模で生成することができる。
大規模トレーニングでは、SynthCLIPは、実際のデータセットでトレーニングされたCLIPモデルに匹敵するパフォーマンスを達成する。
また,3000万枚のキャプション画像からなる純合成データセットであるSynthCI-30Mも導入した。
私たちのコード、トレーニングされたモデル、生成されたデータはhttps://github.com/hammoudhasan/SynthCLIPでリリースされます。
関連論文リスト
- Learning Vision from Models Rivals Learning Vision from Data [54.43596959598465]
合成画像と合成キャプションのみから視覚表現を学習するための新しいアプローチであるSynCLRを紹介する。
LLMを用いて画像キャプションの大規模なデータセットを合成し,既製のテキスト・ツー・イメージモデルを用いて合成キャプションに対応する複数の画像を生成する。
比較学習によって合成画像の視覚的表現学習を行い、同じ字幕を共有するイメージを正のペアとして扱う。
論文 参考訳(メタデータ) (2023-12-28T18:59:55Z) - Demystifying CLIP Data [89.2132793325337]
Contrastive Language-Image Pre-Training (CLIP) はコンピュータビジョンの先進的な研究と応用を行っている。
メタデータ変換言語画像事前学習(MetaCLIP)について紹介する。
MetaCLIPは生のデータプールとメタデータ(CLIPの概念から派生したもの)を取り、メタデータの分布に対してバランスの取れたサブセットを生成する。
論文 参考訳(メタデータ) (2023-09-28T17:59:56Z) - Image Captions are Natural Prompts for Text-to-Image Models [70.30915140413383]
本研究では,合成データの学習効果とプロンプトによる合成データ分布の関係を解析した。
本稿では,テキストから画像への生成モデルにより,より情報的で多様な学習データを合成する簡易かつ効果的な手法を提案する。
本手法は,合成学習データに基づいて訓練したモデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-07-17T14:38:11Z) - GALIP: Generative Adversarial CLIPs for Text-to-Image Synthesis [74.71986888051381]
本稿では,高品質,効率的,高速,かつ制御可能なテキスト・ツー・イメージ合成を実現するために,ジェネレーティブ・アドリラルCLIPを提案する。
本モデルは合成速度を120倍に向上し, GANからスムーズな潜伏空間を継承する。
論文 参考訳(メタデータ) (2023-01-30T14:58:23Z) - Synthetic Image Data for Deep Learning [0.294944680995069]
3次元モデルからレンダリングされたリアルな合成画像データを使用して、画像集合を拡大し、画像分類セグメンテーションモデルを訓練することができる。
実車の生産3次元CADモデルに基づく大規模合成データセットを,高品質な物理ベースレンダリングとドメインランダム化により効率的に作成できることを示す。
論文 参考訳(メタデータ) (2022-12-12T20:28:13Z) - Is synthetic data from generative models ready for image recognition? [69.42645602062024]
本研究では,最新のテキスト・画像生成モデルから生成した合成画像が,画像認識タスクにどのように利用できるかを検討した。
本稿では,既存の生成モデルからの合成データの強大さと欠点を示し,認識タスクに合成データを適用するための戦略を提案する。
論文 参考訳(メタデータ) (2022-10-14T06:54:24Z) - FedSynth: Gradient Compression via Synthetic Data in Federated Learning [14.87215762562876]
モデル更新を送信するのではなく,各クライアントが学習し,軽量な合成データセットを送信する,上流通信のための新しい手法を提案する。
我々の手法は,3つの共通学習ベンチマークデータセットのすべてにおいて,ランダムマスキングベースラインに匹敵する/劣ることがわかった。
論文 参考訳(メタデータ) (2022-04-04T06:47:20Z) - Synthetic Data for Model Selection [2.4499092754102874]
合成データはモデル選択に有用であることを示す。
そこで本研究では,実領域に適合する合成誤差推定をキャリブレーションする新しい手法を提案する。
論文 参考訳(メタデータ) (2021-05-03T09:52:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。