論文の概要: Kandinsky 3.0 Technical Report
- arxiv url: http://arxiv.org/abs/2312.03511v2
- Date: Mon, 11 Dec 2023 09:42:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 00:53:37.602099
- Title: Kandinsky 3.0 Technical Report
- Title(参考訳): Kandinsky 3.0テクニカルレポート
- Authors: Vladimir Arkhipkin, Andrei Filatov, Viacheslav Vasilev, Anastasia
Maltseva, Said Azizov, Igor Pavlov, Julia Agafonova, Andrey Kuznetsov, Denis
Dimitrov
- Abstract要約: 本稿では,遅延拡散に基づく大規模テキスト・画像生成モデルであるKandinsky 3.0を提案する。
Kandinsky 2.xの以前のバージョンと比較すると、Kandinsky 3.0はU-Netのバックボーンが2倍大きく、テキストエンコーダが10倍大きく、拡散マッピングが削除されている。
- 参考スコア(独自算出の注目度): 4.302814998257389
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Kandinsky 3.0, a large-scale text-to-image generation model based
on latent diffusion, continuing the series of text-to-image Kandinsky models
and reflecting our progress to achieve higher quality and realism of image
generation. Compared to previous versions of Kandinsky 2.x, Kandinsky 3.0
leverages a two times larger U-Net backbone, a ten times larger text encoder
and removes diffusion mapping. We describe the architecture of the model, the
data collection procedure, the training technique, and the production system of
user interaction. We focus on the key components that, as we have identified as
a result of a large number of experiments, had the most significant impact on
improving the quality of our model compared to the others. By our side-by-side
comparisons, Kandinsky becomes better in text understanding and works better on
specific domains. Project page: https://ai-forever.github.io/Kandinsky-3
- Abstract(参考訳): 我々は,潜在拡散に基づく大規模テキストから画像への生成モデルであるkandinsky 3.0について述べる。
Kandinsky 2.xの以前のバージョンと比較すると、Kandinsky 3.0はU-Netのバックボーンが2倍大きく、テキストエンコーダが10倍大きく、拡散マッピングが削除されている。
本稿では,モデルのアーキテクチャ,データ収集手順,トレーニング手法,ユーザインタラクションの生産システムについて述べる。
私たちは、多数の実験の結果明らかになった主要なコンポーネントに焦点を当て、他のコンポーネントと比較して、モデルの品質向上に最も大きな影響を与えました。
私たちの比較によって、kandinskyはテキスト理解がより良くなり、特定のドメインでよりうまく機能します。
プロジェクトページ: https://ai-forever.github.io/kandinsky-3
関連論文リスト
- Kandinsky: an Improved Text-to-Image Synthesis with Image Prior and
Latent Diffusion [50.59261592343479]
本稿では、潜伏拡散アーキテクチャの新しい探索であるKandinsky1を紹介する。
提案したモデルは、CLIPのイメージ埋め込みにテキスト埋め込みをマッピングするために別々に訓練されている。
また,テキスト・ツー・イメージ生成,画像融合,テキスト・画像融合,画像のバリエーション生成,テキスト・インペイント/アウトペイントなど,多様な生成モードをサポートするユーザフレンドリーなデモシステムも展開した。
論文 参考訳(メタデータ) (2023-10-05T12:29:41Z) - SnapFusion: Text-to-Image Diffusion Model on Mobile Devices within Two
Seconds [88.06788636008051]
テキストから画像への拡散モデルは、プロのアーティストや写真家の作品に匹敵する自然言語の記述から素晴らしい画像を作り出すことができる。
これらのモデルは大規模で、複雑なネットワークアーキテクチャと数十のデノベーションイテレーションを持ち、計算コストが高く、実行が遅い。
モバイル端末上でテキストから画像への拡散モデルの実行を2ドル以下でアンロックする汎用的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-06-01T17:59:25Z) - Exploiting Unlabelled Photos for Stronger Fine-Grained SBIR [103.51937218213774]
本稿では,先行技術の11%をオーバーシュートする強力なベースラインを提示することにより,微細なスケッチベース画像検索(FG-SBIR)の文献化を推し進める。
本稿では,写真/スケッチインスタンス間の分離を明示的に実施する標準的な三重項損失の簡単な修正を提案する。
i) スケッチ間でのモダル内トリプルトロスを利用して、同じインスタンスのスケッチを他のインスタンスに近づけます。
論文 参考訳(メタデータ) (2023-03-24T03:34:33Z) - Text-driven Visual Synthesis with Latent Diffusion Prior [37.736313030226654]
本稿では,様々な視覚合成タスクにおいて,遅延拡散モデルを用いた画像先行処理の汎用的手法を提案する。
提案手法の有効性を,テキストから3D,スタイルGAN適応,階層画像編集の3つの異なるアプリケーションで実証する。
論文 参考訳(メタデータ) (2023-02-16T18:59:58Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z) - Whodunit? Learning to Contrast for Authorship Attribution [22.37948005237967]
著者の属性は、与えられたテキストの著者を特定するタスクである。
コントラスト学習と教師あり学習を組み合わせて,事前学習した言語表現を微調整する。
コントラXは、複数の人間と機械のオーサシップ属性のベンチマークで最先端の手法を推し進めていることを示す。
論文 参考訳(メタデータ) (2022-09-23T23:45:08Z) - Z-Code++: A Pre-trained Language Model Optimized for Abstractive
Summarization [108.09419317477986]
Z-Code++は、抽象的なテキスト要約に最適化された、新しいトレーニング済み言語モデルである。
このモデルは、まず、言語理解のためのテキストコーパスを用いて事前訓練され、続いて、接地テキスト生成のための要約コーパス上で継続的に事前訓練される。
パラメータ効率はXSumでは600倍のPaLM-540B,SAMSumでは200倍のGPT3-175Bである。
論文 参考訳(メタデータ) (2022-08-21T01:00:54Z) - Photorealistic Text-to-Image Diffusion Models with Deep Language
Understanding [53.170767750244366]
Imagenは、前例のないフォトリアリズムと深い言語理解を備えたテキスト間拡散モデルである。
テキスト・ツー・イメージ・モデルをより深く評価するために,テキスト・ツー・イメージ・モデルの総合的かつ挑戦的なベンチマークであるDrawBenchを紹介した。
論文 参考訳(メタデータ) (2022-05-23T17:42:53Z) - Independent Encoder for Deep Hierarchical Unsupervised Image-to-Image
Translation [2.4826445086983475]
画像から画像への変換(I2I)の主な課題は、翻訳された画像をリアルにし、可能な限りソースドメインからの情報を保持することである。
IEGANと呼ばれる新しいアーキテクチャを提案し、各ネットワークのエンコーダを取り除き、他のネットワークに依存しないエンコーダを導入する。
論文 参考訳(メタデータ) (2021-07-06T09:18:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。