論文の概要: TCIG: Two-Stage Controlled Image Generation with Quality Enhancement
through Diffusion
- arxiv url: http://arxiv.org/abs/2403.01212v1
- Date: Sat, 2 Mar 2024 13:59:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-03-05 14:50:47.369262
- Title: TCIG: Two-Stage Controlled Image Generation with Quality Enhancement
through Diffusion
- Title(参考訳): TCIG:拡散による画質向上を伴う2段階制御画像生成
- Authors: Salaheldin Mohamed
- Abstract要約: 画像生成における制御性と高品質を両立させる2段階の手法を提案する。
制御性と高品質を分離することにより,優れた結果が得られる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In recent years, significant progress has been made in the development of
text- to-image generation models. However, these models still face limitations
when it comes to achieving full controllability during the generation process.
Often, spe- cific training or the use of limited models is required, and even
then, they have certain restrictions. To address these challenges, A two-stage
method that effec- tively combines controllability and high quality in the
generation of images is proposed. This approach leverages the expertise of
pre-trained models to achieve precise control over the generated images, while
also harnessing the power of diffusion models to achieve state-of-the-art
quality. By separating controllability from high quality, This method achieves
outstanding results. It is compatible with both latent and image space
diffusion models, ensuring versatility and flexibil- ity. Moreover, This
approach consistently produces comparable outcomes to the current
state-of-the-art methods in the field. Overall, This proposed method rep-
resents a significant advancement in text-to-image generation, enabling
improved controllability without compromising on the quality of the generated
images.
- Abstract(参考訳): 近年,テキスト・ツー・イメージ生成モデルの開発において,大きな進歩を遂げている。
しかし、これらのモデルは生成プロセス中に完全な制御性を達成することに関して制限に直面している。
多くの場合、spe-cific trainingや限定的なモデルの使用が必要であり、それでも一定の制限がある。
これらの課題に対処するために,effecによる画像生成の制御性と高品質化を両立する2段階法を提案する。
このアプローチは、訓練済みのモデルの専門知識を活用して、生成された画像を正確に制御すると同時に、拡散モデルの力を利用して最先端の品質を達成する。
制御性を高品質から分離することにより,優れた結果が得られる。
潜像拡散モデルと画像空間拡散モデルの両方と互換性があり、柔軟性と柔軟性を確保している。
さらに、このアプローチは、フィールドにおける現在の最先端メソッドと同等の結果を一貫して生成する。
全体として,提案手法はテキスト対画像生成の著しい進歩を示し,生成画像の品質を損なうことなく制御性の向上を実現する。
関連論文リスト
- Boosting Generative Image Modeling via Joint Image-Feature Synthesis [10.32324138962724]
低レベル画像潜在者を共同でモデル化するために拡散モデルを活用することで、ギャップをシームレスに橋渡しする新しい生成画像モデリングフレームワークを提案する。
我々の潜在セマンティック拡散アプローチは、純雑音からコヒーレントな画像-特徴対を生成することを学ぶ。
複雑な蒸留目的の必要をなくすことで、我々の統一設計は訓練を単純化し、強力な新しい推論戦略である表現誘導を解き放つ。
論文 参考訳(メタデータ) (2025-04-22T17:41:42Z) - D2C: Unlocking the Potential of Continuous Autoregressive Image Generation with Discrete Tokens [80.75893450536577]
モデル生成能力を向上させる新しい2段階法であるD2Cを提案する。
第1段階では、小さな離散値発生器を用いて粗粒度画像特徴を表す離散値トークンをサンプリングする。
第2段階では、離散トークンシーケンスに基づいて、きめ細かい画像特徴を表す連続値トークンを学習する。
論文 参考訳(メタデータ) (2025-03-21T13:58:49Z) - A Simple Approach to Unifying Diffusion-based Conditional Generation [63.389616350290595]
多様な条件生成タスクを処理するための、シンプルで統一されたフレームワークを導入します。
提案手法は,異なる推論時間サンプリング方式による多目的化を実現する。
我々のモデルは、非親密なアライメントや粗い条件付けのような追加機能をサポートしています。
論文 参考訳(メタデータ) (2024-10-15T09:41:43Z) - CAR: Controllable Autoregressive Modeling for Visual Generation [100.33455832783416]
Controllable AutoRegressive Modeling (CAR)は、条件制御をマルチスケールの潜在変数モデリングに統合する新しいプラグイン・アンド・プレイフレームワークである。
CARは、制御表現を徐々に洗練し、キャプチャし、前訓練されたモデルの各自己回帰ステップに注入して生成プロセスを導く。
提案手法は,様々な条件にまたがって優れた制御性を示し,従来の手法に比べて画質の向上を実現している。
論文 参考訳(メタデータ) (2024-10-07T00:55:42Z) - ControlVAR: Exploring Controllable Visual Autoregressive Modeling [48.66209303617063]
拡散モデル(DM)の出現により、条件付き視覚発生は顕著に進展した。
高価な計算コスト、高い推論遅延、大規模言語モデル(LLM)との統合の難しさといった課題は、DMに代わる方法を模索する必要がある。
本稿では,フレキシブルかつ効率的な条件生成のための視覚自己回帰モデリングにおける画素レベル制御を探求する新しいフレームワークであるControlmoreを紹介する。
論文 参考訳(メタデータ) (2024-06-14T06:35:33Z) - TriLoRA: Integrating SVD for Advanced Style Personalization in Text-to-Image Generation [5.195293792493412]
本稿では,Singular Value DecompositionをLo-Rank Adaptation (LoRA)パラメータ更新戦略に統合する革新的な手法を提案する。
LoRAフレームワークにSVDを組み込むことで、オーバーフィッティングのリスクを効果的に低減できるだけでなく、モデル出力の安定性も向上する。
論文 参考訳(メタデータ) (2024-05-18T09:29:00Z) - Image Inpainting via Tractable Steering of Diffusion Models [54.13818673257381]
本稿では,トラクタブル確率モデル(TPM)の制約後部を正確に,かつ効率的に計算する能力を活用することを提案する。
具体的には、確率回路(PC)と呼ばれる表現型TPMのクラスを採用する。
提案手法は, 画像の全体的な品質とセマンティックコヒーレンスを, 計算オーバーヘッドを10%加えるだけで一貫的に改善できることを示す。
論文 参考訳(メタデータ) (2023-11-28T21:14:02Z) - CoDi: Conditional Diffusion Distillation for Higher-Fidelity and Faster
Image Generation [49.3016007471979]
大規模な生成拡散モデルは、テキスト・ツー・イメージ生成に革命をもたらし、条件付き生成タスクに大きな可能性を秘めている。
しかし、彼らの普及は高い計算コストによって妨げられ、リアルタイムの応用が制限される。
本稿では,事前学習した潜伏拡散モデルに付加的な画像条件入力を適応させるCoDiという新しい手法を提案する。
論文 参考訳(メタデータ) (2023-10-02T17:59:18Z) - Auto-regressive Image Synthesis with Integrated Quantization [55.51231796778219]
本稿では,条件付き画像生成のための多目的フレームワークを提案する。
CNNの帰納バイアスと自己回帰の強力なシーケンスモデリングが組み込まれている。
提案手法は,最先端技術と比較して,優れた多彩な画像生成性能を実現する。
論文 参考訳(メタデータ) (2022-07-21T22:19:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。