Fugu-MT 論文翻訳(概要): RealCompo: Dynamic Equilibrium between Realism and Compositionality Improves Text-to-Image Diffusion Models

論文の概要: RealCompo: Dynamic Equilibrium between Realism and Compositionality Improves Text-to-Image Diffusion Models

arxiv url: http://arxiv.org/abs/2402.12908v1
Date: Tue, 20 Feb 2024 10:56:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-21 15:41:29.532520
Title: RealCompo: Dynamic Equilibrium between Realism and Compositionality Improves Text-to-Image Diffusion Models
Title（参考訳）: realcompo: テキストから画像への拡散モデルを改善するリアリズムと構成性の動的平衡
Authors: Xinchen Zhang, Ling Yang, Yaqi Cai, Zhaochen Yu, Jiake Xie, Ye Tian, Minkai Xu, Yong Tang, Yujiu Yang, Bin Cui
Abstract要約: 本稿では,RealCompoという,トレーニング不要で移動しやすいテキスト・ツー・イメージ生成フレームワークを提案する。テキスト・ツー・イメージモデルとレイアウト・ツー・イメージモデルの利点を活用して、生成した画像のリアリズムと構成性の両方を強化することを目的としている。
参考スコア（独自算出の注目度）: 44.904373096762924
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Diffusion models have achieved remarkable advancements in text-to-image generation. However, existing models still have many difficulties when faced with multiple-object compositional generation. In this paper, we propose a new training-free and transferred-friendly text-to-image generation framework, namely RealCompo, which aims to leverage the advantages of text-to-image and layout-to-image models to enhance both realism and compositionality of the generated images. An intuitive and novel balancer is proposed to dynamically balance the strengths of the two models in denoising process, allowing plug-and-play use of any model without extra training. Extensive experiments show that our RealCompo consistently outperforms state-of-the-art text-to-image models and layout-to-image models in multiple-object compositional generation while keeping satisfactory realism and compositionality of the generated images. Code is available at https://github.com/YangLing0818/RealCompo
Abstract（参考訳）: 拡散モデルはテキスト・画像生成において顕著な進歩を遂げた。しかし、既存のモデルでは、多目的合成生成に直面する場合、多くの困難がある。本稿では,テキスト・ツー・イメージモデルとレイアウト・ツー・イメージモデルのアドバンテージを活かし,生成画像のリアリズムとコンポジション性を向上させることを目的とした,新たなトレーニングフリーかつ転送フレンドリなテキスト・ツー・イメージ生成フレームワークであるrealcompoを提案する。直感的で斬新なバランサが提案され、デノナイジングプロセスにおいて2つのモデルの強みを動的にバランスさせ、任意のモデルのプラグアンドプレイを余分な訓練なしで使用できるようにする。我々のRealCompoは、生成した画像の満足なリアリズムと構成性を保ちながら、常に最先端のテキスト・イメージモデルとレイアウト・ツー・イメージモデルより優れていることを示す。コードはhttps://github.com/YangLing0818/RealCompoで入手できる。

関連論文リスト

Boosting Generative Image Modeling via Joint Image-Feature Synthesis [10.32324138962724]
低レベル画像潜在者を共同でモデル化するために拡散モデルを活用することで、ギャップをシームレスに橋渡しする新しい生成画像モデリングフレームワークを提案する。我々の潜在セマンティック拡散アプローチは、純雑音からコヒーレントな画像-特徴対を生成することを学ぶ。複雑な蒸留目的の必要をなくすことで、我々の統一設計は訓練を単純化し、強力な新しい推論戦略である表現誘導を解き放つ。
論文参考訳（メタデータ） (2025-04-22T17:41:42Z)
Progressive Compositionality In Text-to-Image Generative Models [33.18510121342558]
拡散モデルのコントラスト学習のための新しいカリキュラムであるEvoGenを提案する。本研究では,大規模言語モデル(LLM)を活用し,現実的で複雑なシナリオを構成する。また、VQA(Visual-Question Answering)システムと拡散モデルを用いて、コントラストデータセット(ConPair)を自動的にキュレートする。
論文参考訳（メタデータ） (2024-10-22T05:59:29Z)
Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis [62.06970466554273]
SDXLのような最先端拡散モデルに匹敵するレベルまで、非自己回帰マスク型画像モデリング(MIM)のテキスト・ツー・イメージが増大するMeissonicを提案する。高品質なトレーニングデータを活用し、人間の嗜好スコアから得られるマイクロ条件を統合し、特徴圧縮層を用いて画像の忠実度と解像度をさらに向上する。我々のモデルは、高画質の高精細画像を生成する際に、SDXLのような既存のモデルに適合するだけでなく、しばしば性能を上回ります。
論文参考訳（メタデータ） (2024-10-10T17:59:17Z)
IterComp: Iterative Composition-Aware Feedback Learning from Model Gallery for Text-to-Image Generation [70.8833857249951]
IterCompは、複数のモデルから合成対応モデルの好みを集約する新しいフレームワークである。クローズドループ方式で構成性を向上する反復的フィードバック学習法を提案する。 IterCompは、拡散モデルと合成生成のための報酬フィードバック学習の新たな研究の道を開く。
論文参考訳（メタデータ） (2024-10-09T17:59:13Z)
MaxFusion: Plug&Play Multi-Modal Generation in Text-to-Image Diffusion Models [34.611309081801345]
大規模な拡散ベースのテキスト・ツー・イメージ(T2I)モデルでは、テキスト・ツー・イメージ生成に印象的な生成能力がある。本稿では,最小限の計算量で新しいタスクにまたがって生成モデルを拡張するための新しい手法を提案する。
論文参考訳（メタデータ） (2024-04-15T17:55:56Z)
Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文参考訳（メタデータ） (2023-09-30T02:03:22Z)
Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。 2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文参考訳（メタデータ） (2022-11-22T18:59:50Z)
Compositional Visual Generation with Composable Diffusion Models [80.75258849913574]
拡散モデルを用いた構成生成のための代替的な構造的アプローチを提案する。画像は拡散モデルの集合を構成することで生成され、それぞれが画像の特定のコンポーネントをモデル化する。提案手法は, トレーニングで見られるものよりもはるかに複雑なシーンを, テスト時に生成することができる。
論文参考訳（メタデータ） (2022-06-03T17:47:04Z)
DiVAE: Photorealistic Images Synthesis with Denoising Diffusion Decoder [73.1010640692609]
本稿では,拡散デコーダ(DiVAE)を用いたVQ-VAEアーキテクチャモデルを提案する。我々のモデルは最先端の成果を達成し、さらに多くのフォトリアリスティックな画像を生成する。
論文参考訳（メタデータ） (2022-06-01T10:39:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。