論文の概要: Kandinsky 3.0 Technical Report
- arxiv url: http://arxiv.org/abs/2312.03511v2
- Date: Mon, 11 Dec 2023 09:42:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 00:53:37.602099
- Title: Kandinsky 3.0 Technical Report
- Title(参考訳): Kandinsky 3.0テクニカルレポート
- Authors: Vladimir Arkhipkin, Andrei Filatov, Viacheslav Vasilev, Anastasia
Maltseva, Said Azizov, Igor Pavlov, Julia Agafonova, Andrey Kuznetsov, Denis
Dimitrov
- Abstract要約: 本稿では,遅延拡散に基づく大規模テキスト・画像生成モデルであるKandinsky 3.0を提案する。
Kandinsky 2.xの以前のバージョンと比較すると、Kandinsky 3.0はU-Netのバックボーンが2倍大きく、テキストエンコーダが10倍大きく、拡散マッピングが削除されている。
- 参考スコア(独自算出の注目度): 4.302814998257389
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Kandinsky 3.0, a large-scale text-to-image generation model based
on latent diffusion, continuing the series of text-to-image Kandinsky models
and reflecting our progress to achieve higher quality and realism of image
generation. Compared to previous versions of Kandinsky 2.x, Kandinsky 3.0
leverages a two times larger U-Net backbone, a ten times larger text encoder
and removes diffusion mapping. We describe the architecture of the model, the
data collection procedure, the training technique, and the production system of
user interaction. We focus on the key components that, as we have identified as
a result of a large number of experiments, had the most significant impact on
improving the quality of our model compared to the others. By our side-by-side
comparisons, Kandinsky becomes better in text understanding and works better on
specific domains. Project page: https://ai-forever.github.io/Kandinsky-3
- Abstract(参考訳): 我々は,潜在拡散に基づく大規模テキストから画像への生成モデルであるkandinsky 3.0について述べる。
Kandinsky 2.xの以前のバージョンと比較すると、Kandinsky 3.0はU-Netのバックボーンが2倍大きく、テキストエンコーダが10倍大きく、拡散マッピングが削除されている。
本稿では,モデルのアーキテクチャ,データ収集手順,トレーニング手法,ユーザインタラクションの生産システムについて述べる。
私たちは、多数の実験の結果明らかになった主要なコンポーネントに焦点を当て、他のコンポーネントと比較して、モデルの品質向上に最も大きな影響を与えました。
私たちの比較によって、kandinskyはテキスト理解がより良くなり、特定のドメインでよりうまく機能します。
プロジェクトページ: https://ai-forever.github.io/kandinsky-3
関連論文リスト
- PrefPaint: Aligning Image Inpainting Diffusion Model with Human Preference [62.72779589895124]
画像インペイントのための拡散モデルと人間の審美基準との整合性を、強化学習フレームワークを用いて初めて試みる。
我々は、人間の好みを付加した約51,000枚の画像からなるデータセットで報酬モデルを訓練する。
画像拡張や3次元再構成などの下流タスクの塗装比較実験により, 提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-10-29T11:49:39Z) - Kandinsky 3: Text-to-Image Synthesis for Multifunctional Generative Framework [3.7953598825170753]
カンディンスキー3は潜伏拡散に基づく新しいT2Iモデルであり、高い品質と光リアリズムを達成する。
各種アプリケーションのためのベースT2Iモデルを拡張し,多機能生成システムを構築する。
人による評価では、Kandinsky 3はオープンソース生成システムの中で最高品質のスコアの1つを示している。
論文 参考訳(メタデータ) (2024-10-28T14:22:08Z) - Illustrious: an Open Advanced Illustration Model [7.428509329724737]
我々は,高解像度,ダイナミックカラーレンジ画像,高復元性を実現するために,Illustriousと呼ばれるテキスト・ツー・イメージ画像生成モデルを開発した。
まず、バッチサイズとドロップアウト制御の重要性を探求し、制御可能なトークンベースの概念アクティベーションの学習を高速化する。
第2に、画像のトレーニング精度を高め、文字解剖の正確な描写をはるかに高解像度にし、適切な方法で20MP以上の生成能力を拡張した。
論文 参考訳(メタデータ) (2024-09-30T04:59:12Z) - Depth Anything V2 [84.88796880335283]
V2は3つの重要なプラクティスを通じて、より微細でより堅牢な深度予測を生成する。
すべてのラベル付き実像を合成画像に置き換え、教師モデルの容量を拡大し、大規模な擬似ラベル付き実像のブリッジを通じて生徒モデルを教える。
その強い一般化能力から、距離深度モデルを得るために、距離深度ラベルを微調整する。
論文 参考訳(メタデータ) (2024-06-13T17:59:56Z) - VIP: Versatile Image Outpainting Empowered by Multimodal Large Language Model [76.02314305164595]
本研究は,ユーザの要求に応じて結果のカスタマイズが可能な,新たな画像出力フレームワークを提案する。
画像のマスキング部分とマスキング部分のテキスト記述を自動的に抽出し整理するマルチモーダル大言語モデル(MLLM)を利用する。
さらに、画像の特定の空間領域とテキストプロンプトの対応する部分との相互作用を強化するために、特別にCentral-Total-Surrounding (CTS) と呼ばれるCentral-Attentionモジュールが精巧に設計されている。
論文 参考訳(メタデータ) (2024-06-03T07:14:19Z) - Kandinsky: an Improved Text-to-Image Synthesis with Image Prior and
Latent Diffusion [50.59261592343479]
本稿では、潜伏拡散アーキテクチャの新しい探索であるKandinsky1を紹介する。
提案したモデルは、CLIPのイメージ埋め込みにテキスト埋め込みをマッピングするために別々に訓練されている。
また,テキスト・ツー・イメージ生成,画像融合,テキスト・画像融合,画像のバリエーション生成,テキスト・インペイント/アウトペイントなど,多様な生成モードをサポートするユーザフレンドリーなデモシステムも展開した。
論文 参考訳(メタデータ) (2023-10-05T12:29:41Z) - HQ3DAvatar: High Quality Controllable 3D Head Avatar [65.70885416855782]
本稿では,高フォトリアリスティックなデジタルヘッドアバターを構築するための新しいアプローチを提案する。
本手法はニューラルネットワークによってパラメータ化された暗黙関数を用いて標準空間を学習する。
テスト時,本手法は単眼のRGBビデオによって駆動される。
論文 参考訳(メタデータ) (2023-03-25T13:56:33Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z) - PCA-Based Knowledge Distillation Towards Lightweight and Content-Style
Balanced Photorealistic Style Transfer Models [26.657485176782934]
私たちの研究は、既存のモデルは大きなサイズのため遅いという観察にインスパイアされています。
我々は,PCAを用いた知識蒸留を導入し,軽量モデルを蒸留し,理論による動機付けを示す。
フォトリアリスティックなスタイル転送のための最初の知識蒸留法である。
論文 参考訳(メタデータ) (2022-03-25T05:23:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。