Fugu-MT 論文翻訳(概要): Enhancing Image Layout Control with Loss-Guided Diffusion Models

論文の概要: Enhancing Image Layout Control with Loss-Guided Diffusion Models

arxiv url: http://arxiv.org/abs/2405.14101v1
Date: Thu, 23 May 2024 02:08:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-24 19:24:51.730182
Title: Enhancing Image Layout Control with Loss-Guided Diffusion Models
Title（参考訳）: 損失誘導拡散モデルによる画像レイアウト制御の強化
Authors: Zakaria Patel, Kirill Serkh,
Abstract要約: 条件付き拡散モデルは、単純なテキストプロンプトを使用して、所望の画像の内容を指定することができる。空間制約(例えばバウンディングボックス)を導入するほとんどのメソッドは微調整を必要とするが、これらのメソッドのより小型でより最近のサブセットはトレーニング不要である。本稿では,これらの手法を補完的な特徴を強調した解釈を行い,両手法がコンサートで使用される場合,優れた性能が得られることを示す。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Diffusion models are a powerful class of generative models capable of producing high-quality images from pure noise. In particular, conditional diffusion models allow one to specify the contents of the desired image using a simple text prompt. Conditioning on a text prompt alone, however, does not allow for fine-grained control over the composition and layout of the final image, which instead depends closely on the initial noise distribution. While most methods which introduce spatial constraints (e.g., bounding boxes) require fine-tuning, a smaller and more recent subset of these methods are training-free. They are applicable whenever the prompt influences the model through an attention mechanism, and generally fall into one of two categories. The first entails modifying the cross-attention maps of specific tokens directly to enhance the signal in certain regions of the image. The second works by defining a loss function over the cross-attention maps, and using the gradient of this loss to guide the latent. While previous work explores these as alternative strategies, we provide an interpretation for these methods which highlights their complimentary features, and demonstrate that it is possible to obtain superior performance when both methods are used in concert.
Abstract（参考訳）: 拡散モデルは、純粋なノイズから高品質な画像を生成することができる強力な生成モデルのクラスである。特に条件付き拡散モデルでは、簡単なテキストプロンプトを使って所望の画像の内容を指定することができる。しかし、テキストプロンプトのみの条件付けは、最終的な画像の構成とレイアウトをきめ細かな制御を許さない。空間制約(例えば、バウンディングボックス)を導入するほとんどのメソッドは微調整を必要とするが、これらのメソッドのより小型でより最近のサブセットはトレーニング不要である。これらは、刺激が注意機構を通じてモデルに影響を与えるたびに適用でき、一般的に2つのカテゴリのうちの1つに分類される。 1つ目は、画像の特定の領域における信号を強化するために、特定のトークンのクロスアテンションマップを直接変更することである。 2つ目は、クロスアテンション写像上の損失関数を定義し、この損失の勾配を使って潜伏関数を導くことである。従来の研究は,これらを代替戦略として検討する一方で,これらの手法を補完的特徴を強調した解釈を提供し,両手法をコンサートで使用する場合,優れた性能が得られることを示す。

関連論文リスト

Single-Reference Text-to-Image Manipulation with Dual Contrastive Denoising Score [4.8677910801584385]
大規模テキスト・画像生成モデルは、多彩で高品質な画像を合成する顕著な能力を示している。本稿では,テキスト・ツー・イメージ拡散モデルのリッチな生成モデルを活用するフレームワークであるDual Contrastive Denoising Scoreを提案する。本手法は,入力画像と出力画像間のフレキシブルなコンテンツ修正と構造保存,およびゼロショット画像から画像への変換を実現する。
論文参考訳（メタデータ） (2025-08-18T08:30:07Z)
Derivative-Free Diffusion Manifold-Constrained Gradient for Unified XAI [59.96044730204345]
微分自由拡散多様体制約勾配(FreeMCG)を導入する。 FreeMCGは、与えられたニューラルネットワークの説明可能性を改善する基盤として機能する。提案手法は,XAIツールが期待する本質性を保ちながら,最先端の成果が得られることを示す。
論文参考訳（メタデータ） (2024-11-22T11:15:14Z)
Boundary Attention Constrained Zero-Shot Layout-To-Image Generation [47.435234391588494]
近年のテキスト・画像拡散モデルでは,テキストからの高解像度画像の生成に優れるが,空間構成や物体数に対する精密な制御に苦慮している。本稿では,新たなゼロショットL2IアプローチであるBACONを提案する。自己アテンション特徴写像の画素間相関を利用して、交差アテンション写像を整列し、境界注意で制約された3つの損失関数を組み合わせ、潜時特徴を更新する。
論文参考訳（メタデータ） (2024-11-15T05:44:45Z)
Fast constrained sampling in pre-trained diffusion models [77.21486516041391]
拡散モデルは、大規模な生成画像モデルの分野を支配してきた。本研究では,大規模な事前学習拡散モデルにおける高速拘束サンプリングのアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-10-24T14:52:38Z)
Hybrid diffusion models: combining supervised and generative pretraining for label-efficient fine-tuning of segmentation models [55.2480439325792]
そこで本研究では,第1領域における画像のデノベーションとマスク予測を同時に行うことを目的とした,新しいプレテキストタスクを提案する。提案手法を用いて事前学習したモデルを微調整すると、教師なしまたは教師なしの事前学習を用いて訓練した類似モデルの微調整よりも優れた結果が得られることを示す。
論文参考訳（メタデータ） (2024-08-06T20:19:06Z)
Active Generation for Image Classification [45.93535669217115]
本稿では,モデルのニーズと特徴に着目し,画像生成の効率性に対処することを提案する。能動学習の中心的傾向として,ActGenという手法が,画像生成のトレーニング・アウェア・アプローチを取り入れている。
論文参考訳（メタデータ） (2024-03-11T08:45:31Z)
Enhancing Semantic Fidelity in Text-to-Image Synthesis: Attention Regulation in Diffusion Models [23.786473791344395]
拡散モデルにおけるクロスアテンション層は、生成プロセス中に特定のトークンに不均等に集中する傾向がある。本研究では,アテンションマップと入力テキストプロンプトを一致させるために,アテンション・レギュレーション(アテンション・レギュレーション)という,オン・ザ・フライの最適化手法を導入する。実験結果から,本手法が他のベースラインより一貫して優れていることが示された。
論文参考訳（メタデータ） (2024-03-11T02:18:27Z)
R&B: Region and Boundary Aware Zero-shot Grounded Text-to-image Generation [74.5598315066249]
拡散モデルを用いてゼロショット接地T2I生成を探索する。本稿では,地域境界(R&B)を意識したクロスアテンションガイダンス手法を提案する。
論文参考訳（メタデータ） (2023-10-13T05:48:42Z)
Discriminative Class Tokens for Text-to-Image Diffusion Models [107.98436819341592]
自由形式のテキストの表現可能性を利用した非侵襲的な微調整手法を提案する。本手法は,従来の微調整法と比較して高速で,クラス内の画像の収集を必要としない。 i)標準拡散モデルよりも正確で高品質な生成画像,(ii)低リソース環境でのトレーニングデータの拡張,および(iii)誘導分類器の訓練に使用されるデータ情報を明らかにする。
論文参考訳（メタデータ） (2023-03-30T05:25:20Z)
ADIR: Adaptive Diffusion for Image Reconstruction [46.838084286784195]
本研究では,拡散モデルによる事前学習を利用した条件付きサンプリング手法を提案する。次に、事前学習した拡散分極ネットワークを入力に適応させる新しいアプローチと組み合わせる。画像再構成手法の適応拡散は,超高解像度,デブロアリング,テキストベースの編集タスクにおいて,大幅な改善が達成されていることを示す。
論文参考訳（メタデータ） (2022-12-06T18:39:58Z)
Light Field Saliency Detection with Dual Local Graph Learning andReciprocative Guidance [148.9832328803202]
我々は、グラフネットワークを介して焦点スタック内のインフォメーション融合をモデル化する。我々は、全焦点パタンを用いて焦点スタック融合過程をガイドする新しいデュアルグラフモデルを構築した。
論文参考訳（メタデータ） (2021-10-02T00:54:39Z)
Deep Variational Network Toward Blind Image Restoration [60.45350399661175]
ブラインド画像復元はコンピュータビジョンでは一般的だが難しい問題である。両利点を両立させることを目的として,新しいブラインド画像復元手法を提案する。画像デノイングと超解像という2つの典型的なブラインド赤外線タスクの実験により,提案手法が現状よりも優れた性能を達成できることが実証された。
論文参考訳（メタデータ） (2020-08-25T03:30:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。