論文の概要: CommonCanvas: An Open Diffusion Model Trained with Creative-Commons
Images
- arxiv url: http://arxiv.org/abs/2310.16825v1
- Date: Wed, 25 Oct 2023 17:56:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 12:59:00.470901
- Title: CommonCanvas: An Open Diffusion Model Trained with Creative-Commons
Images
- Title(参考訳): commoncanvas:creative-commonsイメージを用いたオープン拡散モデル
- Authors: Aaron Gokaslan, A. Feder Cooper, Jasmine Collins, Landan Seguin,
Austin Jacobson, Mihir Patel, Jonathan Frankle, Cory Stephenson, Volodymyr
Kuleshov
- Abstract要約: 我々はCreative-Commons-Lensed (CC) 画像のデータセットを組み立て、テキストから画像への生成モデルを訓練する。
我々は直感的な転写学習技術を用いて、CC画像と組み合わせた高品質な合成キャプションのセットを作成する。
我々は既存のSD2モデルのトレーニングに必要なLAION-2Bデータの3%しか必要としないが、同等の品質が得られるデータと計算効率のトレーニングレシピを開発した。
- 参考スコア(独自算出の注目度): 19.62509002853736
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We assemble a dataset of Creative-Commons-licensed (CC) images, which we use
to train a set of open diffusion models that are qualitatively competitive with
Stable Diffusion 2 (SD2). This task presents two challenges: (1)
high-resolution CC images lack the captions necessary to train text-to-image
generative models; (2) CC images are relatively scarce. In turn, to address
these challenges, we use an intuitive transfer learning technique to produce a
set of high-quality synthetic captions paired with curated CC images. We then
develop a data- and compute-efficient training recipe that requires as little
as 3% of the LAION-2B data needed to train existing SD2 models, but obtains
comparable quality. These results indicate that we have a sufficient number of
CC images (~70 million) for training high-quality models. Our training recipe
also implements a variety of optimizations that achieve ~3X training speed-ups,
enabling rapid model iteration. We leverage this recipe to train several
high-quality text-to-image models, which we dub the CommonCanvas family. Our
largest model achieves comparable performance to SD2 on a human evaluation,
despite being trained on our CC dataset that is significantly smaller than
LAION and using synthetic captions for training. We release our models, data,
and code at
https://github.com/mosaicml/diffusion/blob/main/assets/common-canvas.md
- Abstract(参考訳): 我々は,creative-commons-licensed (cc) 画像のデータセットを組み立て,安定拡散2 (sd2) と定性的に競合するオープン拡散モデルの訓練を行う。
本課題は,(1)高解像度CC画像にはテキスト・ツー・イメージ生成モデルの訓練に必要なキャプションが欠けていること,(2)CC画像は比較的少ないこと,である。
次に,これらの課題に対処するために,直観的な転送学習手法を用いて,cc画像と組み合わせた高品質な合成キャプションを作成する。
次に、既存のSD2モデルのトレーニングに必要なLAION-2Bデータの3%しか必要としないが、同等の品質が得られるデータと計算効率のトレーニングレシピを開発する。
これらの結果は,高品質モデルのトレーニングに十分な数のCC画像(約7000万)があることを示唆している。
トレーニングレシピはまた、3倍のトレーニングスピードアップを実現し、迅速なモデル反復を可能にする様々な最適化も実装しています。
私たちはこのレシピを利用して、いくつかの高品質なテキストから画像へのモデルをトレーニングしています。
我々の最大のモデルは、LAIONよりもはるかに小さいCCデータセットでトレーニングされ、トレーニングに合成キャプションを使用するにもかかわらず、人間の評価においてSD2に匹敵する性能を達成する。
モデル、データ、コードはhttps://github.com/mosaicml/diffusion/blob/main/assets/common-canvas.mdでリリースしています。
関連論文リスト
- Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。
本研究では,既存のデータ拡張技術の欠点について検討する。
Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文 参考訳(メタデータ) (2024-03-28T17:23:45Z) - Direct Consistency Optimization for Compositional Text-to-Image
Personalization [73.94505688626651]
テキスト・ツー・イメージ(T2I)拡散モデルは、いくつかの個人画像に微調整された場合、高い一貫性で視覚を生成することができる。
本稿では,参照画像との整合性を最大化しつつ,事前学習したモデルからの偏差を補償することにより,T2Iモデルを微調整する。
論文 参考訳(メタデータ) (2024-02-19T09:52:41Z) - KOALA: Empirical Lessons Toward Memory-Efficient and Fast Diffusion Models for Text-to-Image Synthesis [52.42320594388199]
効率的なテキスト・ツー・イメージ・モデルを構築する上で重要なプラクティスを3つ提示する。
これらの結果に基づき、KOALA-Turbo &-Lightningと呼ばれる2種類の効率的なテキスト・画像モデルを構築した。
SDXLとは異なり、私たちのKOALAモデルは8GBのVRAM(3060Ti)を持つコンシューマグレードGPU上で1024pxの高解像度画像を生成することができる。
論文 参考訳(メタデータ) (2023-12-07T02:46:18Z) - PixArt-$\alpha$: Fast Training of Diffusion Transformer for
Photorealistic Text-to-Image Synthesis [108.83343447275206]
本稿では,トランスフォーマーを用いたT2I拡散モデルであるPIXART-$alpha$について述べる。
最大1024pxまでの高解像度画像合成をサポートし、訓練コストが低い。
PIXART-$alpha$は画質、芸術性、セマンティックコントロールに優れていた。
論文 参考訳(メタデータ) (2023-09-30T16:18:00Z) - SnapFusion: Text-to-Image Diffusion Model on Mobile Devices within Two
Seconds [88.06788636008051]
テキストから画像への拡散モデルは、プロのアーティストや写真家の作品に匹敵する自然言語の記述から素晴らしい画像を作り出すことができる。
これらのモデルは大規模で、複雑なネットワークアーキテクチャと数十のデノベーションイテレーションを持ち、計算コストが高く、実行が遅い。
モバイル端末上でテキストから画像への拡散モデルの実行を2ドル以下でアンロックする汎用的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-06-01T17:59:25Z) - Wuerstchen: An Efficient Architecture for Large-Scale Text-to-Image
Diffusion Models [6.821399706256863]
W"urstchen"は、競争性能と前例のない費用対効果を組み合わせたテキスト対画像合成の新しいアーキテクチャである。
我々の研究の重要な貢献は、詳細だが非常にコンパクトなセマンティックイメージ表現を学習する潜伏拡散技術を開発することである。
論文 参考訳(メタデータ) (2023-06-01T13:00:53Z) - LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image
Diffusion Models with Large Language Models [62.75006608940132]
本研究は,テキストから画像への拡散モデルにおいて,迅速な理解能力を高めることを提案する。
提案手法は,新たな2段階プロセスにおいて,事前訓練された大規模言語モデルを用いてグラウンドド生成を行う。
提案手法は,画像の正確な生成において,ベース拡散モデルといくつかの強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2023-05-23T03:59:06Z) - Fake it till you make it: Learning transferable representations from
synthetic ImageNet clones [30.264601433216246]
ImageNetクローンは、合成画像と実画像で訓練されたモデルとのギャップの大部分を埋めることができることを示す。
合成画像上で訓練されたモデルは,強い一般化特性を示し,実際のデータで訓練されたモデルと同等に動作することを示す。
論文 参考訳(メタデータ) (2022-12-16T11:44:01Z) - Implementing and Experimenting with Diffusion Models for Text-to-Image
Generation [0.0]
DALL-E 2 と Imagen という2つのモデルでは、画像の単純なテキスト記述から高画質の画像を生成できることが示されている。
テキスト・ツー・イメージのモデルは、トレーニングに必要な膨大な計算リソースと、インターネットから収集された巨大なデータセットを扱う必要がある。
この論文は、これらのモデルが使用するさまざまなアプローチとテクニックをレビューし、それから、テキスト・ツー・イメージ・モデルの独自の実装を提案することで貢献する。
論文 参考訳(メタデータ) (2022-09-22T12:03:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。