Fugu-MT 論文翻訳(概要): Local Conditional Controlling for Text-to-Image Diffusion Models

論文の概要: Local Conditional Controlling for Text-to-Image Diffusion Models

arxiv url: http://arxiv.org/abs/2312.08768v2
Date: Tue, 6 Feb 2024 14:45:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-07 19:25:35.412059
Title: Local Conditional Controlling for Text-to-Image Diffusion Models
Title（参考訳）: テキスト・画像拡散モデルにおける局所条件制御
Authors: Yibo Zhao, Liang Peng, Yang Yang, Zekai Luo, Hengjia Li, Yao Chen, Wei Zhao, qinglin lu, Boxi Wu, Wei Liu
Abstract要約: 拡散モデルは、テキスト・ツー・イメージのタスクにおいて素晴らしい成果を上げている。近年の手法では、エッジや深度マップなどの画像レベルの制御を加えて、テキストプロンプトとともに生成プロセスを操作し、所望の画像を取得する。ローカル制御という,シンプルで実用的なタスク設定を導入する。
参考スコア（独自算出の注目度）: 22.732346931679555
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Diffusion models have exhibited impressive prowess in the text-to-image task. Recent methods add image-level controls, e.g., edge and depth maps, to manipulate the generation process together with text prompts to obtain desired images. This controlling process is globally operated on the entire image, which limits the flexibility of control regions. In this paper, we introduce a new simple yet practical task setting: local control. It focuses on controlling specific local areas according to user-defined image conditions, where the rest areas are only conditioned by the original text prompt. This manner allows the users to flexibly control the image generation in a fine-grained way. However, it is non-trivial to achieve this goal. The naive manner of directly adding local conditions may lead to the local control dominance problem. To mitigate this problem, we propose a training-free method that leverages the updates of noised latents and parameters in the cross-attention map during the denosing process to promote concept generation in non-control areas. Moreover, we use feature mask constraints to mitigate the degradation of synthesized image quality caused by information differences inside and outside the local control area. Extensive experiments demonstrate that our method can synthesize high-quality images to the prompt under local control conditions. Code is available at https://github.com/YibooZhao/Local-Control.
Abstract（参考訳）: 拡散モデルは、テキストから画像へのタスクにおいて印象的な傾向を示してきた。近年の手法では、エッジや深度マップなどの画像レベルの制御を加えて、テキストプロンプトとともに生成プロセスを操作し、所望の画像を取得する。この制御プロセスは、制御領域の柔軟性を制限する全画像上でグローバルに操作される。本稿では,ローカル制御という,シンプルで実用的なタスク設定を提案する。ユーザが定義した画像条件に従って特定の局所領域を制御することに焦点を当て、残りの領域は元のテキストプロンプトによってのみ条件付けされる。この方法では、ユーザがきめ細かい方法で画像生成を柔軟に制御できる。しかし、この目標を達成することは自明ではない。局所的な条件を直接付加するナイーブな方法が、局所的な支配的な問題に繋がる可能性がある。そこで本研究では,非制御領域における概念生成を促進するため,非制御領域におけるデノセーション過程におけるクロス・アテンション・マップのノイズの更新とパラメータを活用するトレーニングフリーな手法を提案する。また,局所制御領域内外における情報差に起因する合成画像品質の劣化を軽減するために,特徴マスク制約を用いる。広域実験により,高品質画像を局所制御条件下でプロンプトに合成できることが実証された。コードはhttps://github.com/YibooZhao/Local-Control.comで入手できる。

関連論文リスト

Control and Realism: Best of Both Worlds in Layout-to-Image without Training [59.16447569868382]
レイアウト・ツー・イメージ生成のためのトレーニング不要なWinWinLayを提案する。制御精度とリアリズムを協調的に向上する,非局所的注意エネルギーと適応更新という2つの重要な戦略を提案する。 WinWinLayは、要素配置の制御とフォトリアリスティックな視覚的忠実さの達成に優れ、現在の最先端の手法よりも優れています。
論文参考訳（メタデータ） (2025-06-18T15:39:02Z)
PixelPonder: Dynamic Patch Adaptation for Enhanced Multi-Conditional Text-to-Image Generation [24.964136963713102]
単一制御構造下で複数の視覚条件を効果的に制御できる新しい統一制御フレームワークであるPixelPonderを提案する。具体的には、サブリージョンレベルで空間的に関連する制御信号を動的に優先順位付けするパッチレベル適応条件選択機構を設計する。大規模な実験では、PixelPonderがさまざまなベンチマークデータセットにまたがる従来のメソッドを上回ることが示されている。
論文参考訳（メタデータ） (2025-03-09T16:27:02Z)
Region-Aware Text-to-Image Generation via Hard Binding and Soft Refinement [40.94329069897935]
本稿では,正確なレイアウト構成のための地域記述を前提とした地域認識テキスト・画像生成手法であるRAGを提案する。 RAGは従来のチューニング不要手法よりも属性バインディングやオブジェクト関係よりも優れた性能を実現している。
論文参考訳（メタデータ） (2024-11-10T18:45:41Z)
GLoD: Composing Global Contexts and Local Details in Image Generation [0.0]
Global-Local Diffusion (textitGLoD)は、グローバルコンテキストとローカル詳細の同時制御を可能にする新しいフレームワークである。複数のグローバルなプロンプトとローカルなプロンプトを対応するレイヤに割り当て、ノイズを発生させるプロセスのガイドとして構成する。本フレームワークは,グローバルなプロンプト内のオブジェクトをローカルなプロンプトで条件付けし,他の未特定なアイデンティティを保存しながら,複雑なグローバルなローカルなコンポジションを実現する。
論文参考訳（メタデータ） (2024-04-23T18:39:57Z)
Layout-to-Image Generation with Localized Descriptions using ControlNet with Cross-Attention Control [20.533597112330018]
レイアウト・ツー・イメージタスクにおけるControlNetの限界を示し、ローカライズされた記述を使えるようにする。制御性を改善しつつ画像品質を維持するために,新しいクロスアテンション操作法を開発した。
論文参考訳（メタデータ） (2024-02-20T22:15:13Z)
LIME: Localized Image Editing via Attention Regularization in Diffusion Models [74.3811832586391]
本稿では,ユーザ指定の関心領域 (RoI) や追加のテキスト入力を必要としない拡散モデルにおける局所化画像編集のためのLIMEを提案する。本手法では,事前学習した手法と単純なクラスタリング手法を用いて,正確なセマンティックセグメンテーションマップを得る。そこで本研究では,RoIにおける非関係なクロスアテンションスコアをデノナイジングステップ中にペナライズし,局所的な編集を確実にする新しいクロスアテンション正規化手法を提案する。
論文参考訳（メタデータ） (2023-12-14T18:59:59Z)
Uni-ControlNet: All-in-One Control to Text-to-Image Diffusion Models [82.19740045010435]
ローカルコントロールとグローバルコントロールの同時利用を可能にする統合フレームワークであるUni-ControlNetを紹介した。既存の方法とは異なり、Uni-ControlNetは、凍結した事前訓練されたテキスト-画像拡散モデル上に2つのアダプタを微調整するだけでよい。 Uni-ControlNetは、制御性、生成品質、構成性の観点から、既存のメソッドよりも優れていることを示す。
論文参考訳（メタデータ） (2023-05-25T17:59:58Z)
Region-Aware Diffusion for Zero-shot Text-driven Image Editing [78.58917623854079]
本稿では,エンティティレベルの画像編集のための領域認識拡散モデル(RDM)を提案する。画像の忠実度と推論速度のバランスをとるために,集中拡散パイプラインを設計する。その結果、RDMは、視覚的品質、全体的な調和、非編集領域のコンテンツ保存、テキストイメージのセマンティック一貫性において、従来のアプローチよりも優れていた。
論文参考訳（メタデータ） (2023-02-23T06:20:29Z)
LC-NeRF: Local Controllable Face Generation in Neural Randiance Field [55.54131820411912]
LC-NeRFは、ローカルリージョンジェネレータモジュールと空間認識融合モジュールで構成される。本手法は,最先端の顔編集法よりも局所的な編集が優れている。また,テキスト駆動型顔画像編集など,下流のタスクでもよく機能する。
論文参考訳（メタデータ） (2023-02-19T05:50:08Z)
SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文参考訳（メタデータ） (2022-11-25T18:59:10Z)
MinMaxCAM: Improving object coverage for CAM-basedWeakly Supervised Object Localization [46.36600006968488]
弱監督対象の定位化のための2つの表現正規化メカニズムを提案する。完全領域正規化は対象領域内のローカライゼーションマップのカバレッジを最大化し、共通領域正規化は背景領域で発生するアクティベーションを最小限に抑える。我々は、ImageNet, CUB-200-2011 と OpenImages-segmentation データセットの2つの正則化を評価し、提案した正則化が両問題に対処し、最先端を著しく上回ることを示す。
論文参考訳（メタデータ） (2021-04-29T14:39:53Z)
Style Intervention: How to Achieve Spatial Disentanglement with Style-based Generators? [100.60938767993088]
任意の入力画像に適応し、フレキシブルな目的の下で自然な翻訳効果をレンダリングできる軽量な最適化アルゴリズムを提案する。フォトリアリズムと一貫性の両方を必要とする高解像度画像の顔属性編集において,提案するフレームワークの性能を検証する。
論文参考訳（メタデータ） (2020-11-19T07:37:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。