論文の概要: Controllable Coupled Image Generation via Diffusion Models
- arxiv url: http://arxiv.org/abs/2506.06826v1
- Date: Sat, 07 Jun 2025 15:09:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.503054
- Title: Controllable Coupled Image Generation via Diffusion Models
- Title(参考訳): 拡散モデルによる制御可能な結合画像生成
- Authors: Chenfei Yuan, Nanshan Jia, Hangqi Li, Peter W. Glynn, Zeyu Zheng,
- Abstract要約: 結合画像生成のタスクに対する注意レベル制御法を提案する。
提案手法は,モデルのクロスアテンションモジュールの背景およびエンティティコンポーネントをアンハングリングする。
この重み制御パラメータの列を、背景の結合性やテキスト・画像のアライメント、全体的な視覚的品質を評価するために、組み合わせた目的で最適化する。
- 参考スコア(独自算出の注目度): 12.409456828061206
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We provide an attention-level control method for the task of coupled image generation, where "coupled" means that multiple simultaneously generated images are expected to have the same or very similar backgrounds. While backgrounds coupled, the centered objects in the generated images are still expected to enjoy the flexibility raised from different text prompts. The proposed method disentangles the background and entity components in the model's cross-attention modules, attached with a sequence of time-varying weight control parameters depending on the time step of sampling. We optimize this sequence of weight control parameters with a combined objective that assesses how coupled the backgrounds are as well as text-to-image alignment and overall visual quality. Empirical results demonstrate that our method outperforms existing approaches across these criteria.
- Abstract(参考訳): 本稿では,複数の同時生成画像が同一あるいは非常に類似した背景を持つことを前提とした,結合画像生成タスクの注意レベル制御手法を提案する。
背景が結合されている間、生成された画像の中心となるオブジェクトは、異なるテキストプロンプトから生じる柔軟性を享受することが期待されている。
提案手法は,サンプルの時間ステップに応じて,時間変化の重み制御パラメータの列を付加して,モデルのクロスアテンションモジュールの背景成分と実体成分をアンハングリングする。
この重み制御パラメータの列を、背景の結合性やテキスト・画像のアライメント、全体的な視覚的品質を評価するために、組み合わせた目的で最適化する。
実験結果から,本手法が既存の手法よりも優れていることが示された。
関連論文リスト
- STAY Diffusion: Styled Layout Diffusion Model for Diverse Layout-to-Image Generation [4.769823364778397]
本稿では,写真リアルな画像を生成する拡散モデルを提案し,シーン内のスタイリングされたオブジェクトのきめ細かい制御を実現する。
提案手法は,各レイアウトのグローバルな条件と,重み変調のための自己教師付きセマンティックマップを学習する。
オブジェクトの関係を捉えるためのグローバル条件とイメージ特徴をクロスコンディションするために、新しいスタイルマスク注意(SM Attention)も導入された。
論文 参考訳(メタデータ) (2025-03-15T17:36:24Z) - PixelPonder: Dynamic Patch Adaptation for Enhanced Multi-Conditional Text-to-Image Generation [24.964136963713102]
単一制御構造下で複数の視覚条件を効果的に制御できる新しい統一制御フレームワークであるPixelPonderを提案する。
具体的には、サブリージョンレベルで空間的に関連する制御信号を動的に優先順位付けするパッチレベル適応条件選択機構を設計する。
大規模な実験では、PixelPonderがさまざまなベンチマークデータセットにまたがる従来のメソッドを上回ることが示されている。
論文 参考訳(メタデータ) (2025-03-09T16:27:02Z) - Diffusion-Based Conditional Image Editing through Optimized Inference with Guidance [46.922018440110826]
本稿では,事前学習されたテキスト・画像拡散モデルに基づく,テキスト駆動型画像・画像翻訳のためのトレーニング不要なアプローチを提案する。
本手法は,事前学習した安定拡散モデルと組み合わせることで,様々なタスクにおける画像と画像の翻訳性能を向上する。
論文 参考訳(メタデータ) (2024-12-20T11:15:31Z) - A Simple Approach to Unifying Diffusion-based Conditional Generation [63.389616350290595]
多様な条件生成タスクを処理するための、シンプルで統一されたフレームワークを導入します。
提案手法は,異なる推論時間サンプリング方式による多目的化を実現する。
我々のモデルは、非親密なアライメントや粗い条件付けのような追加機能をサポートしています。
論文 参考訳(メタデータ) (2024-10-15T09:41:43Z) - OneActor: Consistent Character Generation via Cluster-Conditioned Guidance [29.426558840522734]
我々はOneActorと呼ばれる新しいワンショットチューニングパラダイムを提案する。
プロンプトのみによって駆動される一貫した主題生成を効率よく行う。
提案手法は多目的生成が可能であり, 一般的な拡散拡張と互換性がある。
論文 参考訳(メタデータ) (2024-04-16T03:45:45Z) - ControlCom: Controllable Image Composition using Diffusion Model [45.48263800282992]
1つの拡散モデルにおいて4つのタスクを統一する制御可能な画像合成法を提案する。
また,拡散モデルにおける前景の詳細を強化するために,局所的な拡張モジュールを提案する。
提案手法は,公開ベンチマークと実世界のデータの両方を用いて評価する。
論文 参考訳(メタデータ) (2023-08-19T14:56:44Z) - Taming Encoder for Zero Fine-tuning Image Customization with
Text-to-Image Diffusion Models [55.04969603431266]
本稿では,ユーザが指定したカスタマイズされたオブジェクトの画像を生成する手法を提案する。
この手法は、従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。
提案手法は, 出力品質, 外観の多様性, 被写体忠実度を考慮した画像合成が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-05T17:59:32Z) - Text-Conditioned Sampling Framework for Text-to-Image Generation with
Masked Generative Models [52.29800567587504]
そこで本研究では,テキスト情報を用いた局所的監視により最適なトークンを選択するための,学習可能なサンプリングモデルであるテキスト定義トークン選択(TCTS)を提案する。
TCTSは画像の品質だけでなく、生成された画像と与えられたテキストのセマンティックアライメントも改善する。
我々は、周波数適応サンプリング(FAS)と様々な生成タスクを組み合わせたTCTSの有効性を検証し、画像テキストのアライメントや画質において、ベースラインを著しく上回ることを示す。
論文 参考訳(メタデータ) (2023-04-04T03:52:49Z) - Diverse Semantic Image Synthesis via Probability Distribution Modeling [103.88931623488088]
新規な多様な意味的画像合成フレームワークを提案する。
本手法は最先端手法と比較して優れた多様性と同等の品質を実現することができる。
論文 参考訳(メタデータ) (2021-03-11T18:59:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。