論文の概要: Leveraging Latent Vector Prediction for Localized Control in Image Generation via Diffusion Models
- arxiv url: http://arxiv.org/abs/2602.01991v1
- Date: Mon, 02 Feb 2026 11:47:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.11566
- Title: Leveraging Latent Vector Prediction for Localized Control in Image Generation via Diffusion Models
- Title(参考訳): 拡散モデルによる画像生成における局所制御のための遅延ベクトル予測の活用
- Authors: Pablo Domingo-Gregorio, Javier Ruiz-Hidalgo,
- Abstract要約: 本稿では,画像のユーザ定義領域を正確に局所的に制御する手法を提案する。
本手法は,局所条件を制御した高品質な画像を効果的に合成する。
- 参考スコア(独自算出の注目度): 2.4923006485141284
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Diffusion models emerged as a leading approach in text-to-image generation, producing high-quality images from textual descriptions. However, attempting to achieve detailed control to get a desired image solely through text remains a laborious trial-and-error endeavor. Recent methods have introduced image-level controls alongside with text prompts, using prior images to extract conditional information such as edges, segmentation and depth maps. While effective, these methods apply conditions uniformly across the entire image, limiting localized control. In this paper, we propose a novel methodology to enable precise local control over user-defined regions of an image, while leaving to the diffusion model the task of autonomously generating the remaining areas according to the original prompt. Our approach introduces a new training framework that incorporates masking features and an additional loss term, which leverages the prediction of the initial latent vector at any diffusion step to enhance the correspondence between the current step and the final sample in the latent space. Extensive experiments demonstrate that our method effectively synthesizes high-quality images with controlled local conditions.
- Abstract(参考訳): 拡散モデルはテキスト・画像生成における主要なアプローチとして現れ、テキスト記述から高品質な画像を生成する。
しかし、所望の画像のみをテキストで取得するための詳細な制御を達成しようとする試みは、いまだに厳しい試行錯誤の努力である。
近年,テキストプロンプトとともに画像レベルの制御を導入し,エッジやセグメンテーション,深度マップなどの条件情報を抽出する手法が提案されている。
有効ではあるが、これらの手法は画像全体にわたって均一に条件を適用し、局所的な制御を制限する。
本稿では,画像のユーザ定義領域を高精度に局所的に制御する手法を提案する。
提案手法では,任意の拡散ステップにおける初期潜時ベクトルの予測を利用して,マスク機能と損失項を付加した新たなトレーニングフレームワークを導入し,潜時空間における初期潜時ベクトルの対応性を高める。
本手法は局所条件を制御した高品質な画像の合成を効果的に行うことを実証した。
関連論文リスト
- Coherent and Multi-modality Image Inpainting via Latent Space Optimization [61.99406669027195]
PILOT(intextbfPainting vtextbfIa textbfOptextbfTimization)は、新しいテキストセマンティック中央化とテキストセマンティック保存損失に基づく最適化手法である。
本手法は,背景とのコヒーレンスを維持しつつ,ユーザが提供するプロンプトに対して高い忠実度を示す塗装領域を生成できる潜時空間を探索する。
論文 参考訳(メタデータ) (2024-07-10T19:58:04Z) - LoCo: Locally Constrained Training-Free Layout-to-Image Synthesis [24.925757148750684]
テキストプロンプトとレイアウト命令の両方に整合した高品質な画像を生成するのに優れたレイアウト・ツー・イメージ合成のためのトレーニング不要なアプローチを提案する。
LoCoは既存のテキスト・ツー・イメージモデルとレイアウト・ツー・イメージモデルにシームレスに統合され、空間制御の性能を高め、以前の方法で観察された意味障害に対処する。
論文 参考訳(メタデータ) (2023-11-21T04:28:12Z) - Improving Diffusion-based Image Translation using Asymmetric Gradient
Guidance [51.188396199083336]
非対称勾配法の適用により拡散サンプリングの逆過程を導出する手法を提案する。
我々のモデルの適応性は、画像融合モデルと潜時拡散モデルの両方で実装できる。
実験により,本手法は画像翻訳タスクにおいて,様々な最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-06-07T12:56:56Z) - Conditional Score Guidance for Text-Driven Image-to-Image Translation [52.73564644268749]
本稿では,事前訓練されたテキスト・画像拡散モデルに基づく,テキスト駆動型画像・画像変換のための新しいアルゴリズムを提案する。
本手法は,ソース画像の関心領域を選択的に編集することで,対象画像を生成することを目的とする。
論文 参考訳(メタデータ) (2023-05-29T10:48:34Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。