Fugu-MT 論文翻訳(概要): Local Prompt Adaptation for Style-Consistent Multi-Object Generation in Diffusion Models

論文の概要: Local Prompt Adaptation for Style-Consistent Multi-Object Generation in Diffusion Models

arxiv url: http://arxiv.org/abs/2507.20094v2
Date: Sun, 17 Aug 2025 15:58:51 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-19 14:49:10.169992
Title: Local Prompt Adaptation for Style-Consistent Multi-Object Generation in Diffusion Models
Title（参考訳）: 拡散モデルにおける一貫した多物体生成のための局所プロンプト適応
Authors: Ankit Sanjyal,
Abstract要約: Local Prompt Adaptation (LPA) は、プロンプトをコンテンツやスタイルトークンに注入する、軽量でトレーニング不要な手法である。 T2Iベンチマークでは、LPAはバニラSDXLのCLIP-promptアライメントを+0.41%、SD1.5の+0.34%改善し、多様性を損なわない。カスタムの50プロンプトスタイルリッチベンチマークでは、LPAは+0.09%のCLIPプロンプトと+0.08%のCLIPスタイルのゲインを達成した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Diffusion models have become a powerful backbone for text-to-image generation, producing high-quality visuals from natural language prompts. However, when prompts involve multiple objects alongside global or local style instructions, the outputs often drift in style and lose spatial coherence, limiting their reliability for controlled, style-consistent scene generation. We present Local Prompt Adaptation (LPA), a lightweight, training-free method that splits the prompt into content and style tokens, then injects them selectively into the U-Net's attention layers at chosen timesteps. By conditioning object tokens early and style tokens later in the denoising process, LPA improves both layout control and stylistic uniformity without additional training cost. We conduct extensive ablations across parser settings and injection windows, finding that the best configuration -- lpa late only with a 300-650 step window -- delivers the strongest balance of prompt alignment and style consistency. On the T2I benchmark, LPA improves CLIP-prompt alignment over vanilla SDXL by +0.41% and over SD1.5 by +0.34%, with no diversity loss. On our custom 50-prompt style-rich benchmark, LPA achieves +0.09% CLIP-prompt and +0.08% CLIP-style gains over baseline. Our method is model-agnostic, easy to integrate, and requires only a single configuration change, making it a practical choice for controllable, style-consistent multi-object generation.
Abstract（参考訳）: 拡散モデルはテキスト・画像生成の強力なバックボーンとなり、自然言語のプロンプトから高品質なビジュアルを生成する。しかし、プロンプトがグローバルなスタイルやローカルなスタイルの指示とともに複数のオブジェクトを含む場合、アウトプットはしばしばスタイルをドリフトし、空間的コヒーレンスを失うため、制御されたスタイル一貫性のあるシーン生成に対する信頼性が制限される。提案するLocal Prompt Adaptation(LPA)は,プロンプトをコンテンツとスタイルトークンに分割し,選択したタイミングでU-Netの注意層に選択的に注入する,軽量でトレーニング不要な手法である。遅延処理の後にオブジェクトトークンとスタイルトークンを早期に条件付けすることで、LPAは追加のトレーニングコストなしでレイアウト制御とスタイル均一性の両方を改善する。パーサ設定とインジェクションウィンドウにまたがって大規模な改善を行い、300-650ステップのウィンドウで遅れている最高の設定が、アライメントとスタイルの整合性の最も強いバランスをもたらすことに気付きました。 T2Iベンチマークでは、LPAはバニラSDXLのCLIP-promptアライメントを+0.41%、SD1.5の+0.34%改善し、多様性を損なわない。カスタムの50プロンプトスタイルリッチベンチマークでは、LPAは+0.09%のCLIPプロンプトと+0.08%のCLIPスタイルのゲインを達成した。本手法は, モデルに依存しない, 統合が容易で, 単一の構成変更しか必要とせず, 制御可能な, スタイルに一貫性のあるマルチオブジェクト生成のための実用的選択となる。

関連論文リスト

StyDeco: Unsupervised Style Transfer with Distilling Priors and Semantic Decoupling [5.12285618196312]
StyDecoは、スタイル転送タスクに適したテキスト表現を学習する教師なしのフレームワークである。本フレームワークは, 構造的忠実度と構造的保存性の両方において, 既存手法より優れる。
論文参考訳（メタデータ） (2025-08-02T06:17:23Z)
ICAS: IP Adapter and ControlNet-based Attention Structure for Multi-Subject Style Transfer Optimization [0.0]
ICASは効率的かつ制御可能なマルチオブジェクトスタイル転送のための新しいフレームワークである。我々のフレームワークは、正確な局所的なスタイル合成とともに、忠実なグローバルなレイアウト維持を保証します。 ICASは、構造保存、スタイル整合性、推論効率において優れた性能を発揮する。
論文参考訳（メタデータ） (2025-04-17T10:48:11Z)
ObjMST: An Object-Focused Multimodal Style Transfer Framework [2.732041684677653]
本稿では,オブジェクトや周辺要素を個別に監視する,オブジェクト中心のマルチモーダル・スタイル・トランスファー・フレームワークを提案する。既存の画像テキスト・マルチモーダル・スタイル・トランスファー手法では,(1)非整合かつ一貫性のないマルチモーダル・スタイル・表現の生成,(2)コンテンツ・ミスマッチ,(2)同一のスタイル・パターンが正常なオブジェクトとその周辺の両方に適用される,といった課題に直面している。提案手法は,(1)正当性オブジェクトとその周辺の両方に対して整合性と整合性のあるスタイル表現を保証し,(2)正中性オブジェクトをスタイリングする正中性マッピング機構を導入し,次いで画像を生成する。
論文参考訳（メタデータ） (2025-03-06T11:55:44Z)
One-Prompt-One-Story: Free-Lunch Consistent Text-to-Image Generation Using a Single Prompt [101.17660804110409]
テキスト画像生成モデルは、入力プロンプトから高品質な画像を生成することができる。彼らはストーリーテリングのアイデンティティ保存要件の一貫性のある生成をサポートするのに苦労している。本稿では,一貫したテキスト・画像生成のための新しいトレーニングフリー手法を提案する。
論文参考訳（メタデータ） (2025-01-23T10:57:22Z)
ArtWeaver: Advanced Dynamic Style Integration via Diffusion Model [73.95608242322949]
Stylized Text-to-Image Generation (STIG)は、テキストプロンプトとスタイル参照画像から画像を生成することを目的としている。我々は、事前訓練された安定拡散を利用して、誤解釈スタイルや一貫性のない意味論といった課題に対処する新しいフレームワーク、ArtWeaverを提案する。
論文参考訳（メタデータ） (2024-05-24T07:19:40Z)
CFPL-FAS: Class Free Prompt Learning for Generalizable Face Anti-spoofing [66.6712018832575]
ドメイン一般化 (DG) ベースの Face Anti-Spoofing (FAS) は、目に見えないドメインにおけるモデルの性能を改善することを目的としている。私たちはCLIPのような大規模VLMを利用し、テキスト機能を利用して分類器の重みを動的に調整し、一般化可能な視覚的特徴を探索する。
論文参考訳（メタデータ） (2024-03-21T11:58:50Z)
LLM Blueprint: Enabling Text-to-Image Generation with Complex and Detailed Prompts [60.54912319612113]
拡散に基づく生成モデルは、テキストと画像の生成が著しく進歩するが、長く複雑なテキストプロンプトを処理する際には困難に直面する。本稿では,Large Language Models (LLM) を利用してテキストプロンプトから重要なコンポーネントを抽出する手法を提案する。複数のオブジェクトを特徴とする複雑なプロンプトの評価は,ベースライン拡散モデルと比較して,リコールの大幅な改善を示す。
論文参考訳（メタデータ） (2023-10-16T17:57:37Z)
ParaGuide: Guided Diffusion Paraphrasers for Plug-and-Play Textual Style Transfer [57.6482608202409]
テキストスタイル転送は、意味を保ちながらテキストのスタイル特性を変換するタスクである。任意のスタイルに柔軟に適応できる汎用型転送のための新しい拡散型フレームワークを提案する。本研究では,人的評価と自動評価の両面から,Enron Email Corpusの手法を検証するとともに,形式性,感情,さらにはオーサシップスタイルの伝達にも優れることを示す。
論文参考訳（メタデータ） (2023-08-29T17:36:02Z)
GestureDiffuCLIP: Gesture Diffusion Model with CLIP Latents [3.229105662984031]
GestureDiffuCLIPは、フレキシブルなスタイル制御を備えたリアルでスタイル化された音声合成ジェスチャを合成するためのニューラルネットワークフレームワークである。本システムは,高品質なジェスチャを生成するために潜時拡散モデルを学び,CLIP表現をジェネレータに注入する。我々のシステムは、個々の身体部分のきめ細かいスタイル制御を可能にするよう拡張することができる。
論文参考訳（メタデータ） (2023-03-26T03:35:46Z)
Prototype-to-Style: Dialogue Generation with Style-Aware Editing on Retrieval Memory [65.98002918470543]
文体対話生成の課題に対処する新しいプロトタイプ・ツー・スタイルのフレームワークを提案する。このフレームワークは、IR(Information Retrieval)システムを使用して、検索した応答から応答プロトタイプを抽出する。スタイリスティック応答生成器は、プロトタイプと所望の言語スタイルをモデル入力として、高品質でスタイリスティックな応答を得る。
論文参考訳（メタデータ） (2020-04-05T14:36:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。