論文の概要: Local Prompt Adaptation for Style-Consistent Multi-Object Generation in Diffusion Models
- arxiv url: http://arxiv.org/abs/2507.20094v1
- Date: Sun, 27 Jul 2025 01:32:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:56.883521
- Title: Local Prompt Adaptation for Style-Consistent Multi-Object Generation in Diffusion Models
- Title(参考訳): 拡散モデルにおける一貫した多物体生成のための局所プロンプト適応
- Authors: Ankit Sanjyal,
- Abstract要約: そこで我々は、LPA(Local Prompt Adaptation)と呼ばれる、シンプルでトレーニング不要なアーキテクチャ手法を提案する。
提案手法は,プロンプトをコンテンツとスタイルトークンに分解し,異なる段階でU-Netの注意層に選択的に注入する。
提案手法は、5つのカテゴリにまたがる50のスタイルリッチなプロンプトのカスタムベンチマークで評価し、Composer、MultiDiffusion、Attend-and-Excite、LoRA、SDXLといった強力なベースラインと比較する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models have become a powerful backbone for text-to-image generation, enabling users to synthesize high-quality visuals from natural language prompts. However, they often struggle with complex prompts involving multiple objects and global or local style specifications. In such cases, the generated scenes tend to lack style uniformity and spatial coherence, limiting their utility in creative and controllable content generation. In this paper, we propose a simple, training-free architectural method called Local Prompt Adaptation (LPA). Our method decomposes the prompt into content and style tokens, and injects them selectively into the U-Net's attention layers at different stages. By conditioning object tokens early and style tokens later in the generation process, LPA enhances both layout control and stylistic consistency. We evaluate our method on a custom benchmark of 50 style-rich prompts across five categories and compare against strong baselines including Composer, MultiDiffusion, Attend-and-Excite, LoRA, and SDXL. Our approach outperforms prior work on both CLIP score and style consistency metrics, offering a new direction for controllable, expressive diffusion-based generation.
- Abstract(参考訳): 拡散モデルはテキスト・画像生成の強力なバックボーンとなり、ユーザーは自然言語のプロンプトから高品質なビジュアルを合成できる。
しかし、それらは複数のオブジェクトとグローバルまたはローカルスタイルの仕様を含む複雑なプロンプトに悩まされることが多い。
このような場合、生成されたシーンはスタイルの均一性と空間的コヒーレンスを欠く傾向にあり、創造的で制御可能なコンテンツ生成における有用性を制限している。
本稿では,LPA (Local Prompt Adaptation) と呼ばれる,シンプルな学習不要なアーキテクチャ手法を提案する。
提案手法は,プロンプトをコンテンツとスタイルトークンに分解し,異なる段階でU-Netの注意層に選択的に注入する。
生成プロセスの後半でオブジェクトトークンとスタイルトークンを早期に条件付けすることで、LPAはレイアウト制御とスタイル整合性の両方を強化する。
提案手法は、5つのカテゴリにまたがる50のスタイルリッチなプロンプトのカスタムベンチマークで評価し、Composer、MultiDiffusion、Attend-and-Excite、LoRA、SDXLといった強力なベースラインと比較する。
提案手法は,CLIPスコアとスタイル整合性指標の両方において,従来よりも優れており,制御可能で表現力豊かな拡散ベース生成のための新たな方向性を提供する。
関連論文リスト
- StyDeco: Unsupervised Style Transfer with Distilling Priors and Semantic Decoupling [5.12285618196312]
StyDecoは、スタイル転送タスクに適したテキスト表現を学習する教師なしのフレームワークである。
本フレームワークは, 構造的忠実度と構造的保存性の両方において, 既存手法より優れる。
論文 参考訳(メタデータ) (2025-08-02T06:17:23Z) - ICAS: IP Adapter and ControlNet-based Attention Structure for Multi-Subject Style Transfer Optimization [0.0]
ICASは効率的かつ制御可能なマルチオブジェクトスタイル転送のための新しいフレームワークである。
我々のフレームワークは、正確な局所的なスタイル合成とともに、忠実なグローバルなレイアウト維持を保証します。
ICASは、構造保存、スタイル整合性、推論効率において優れた性能を発揮する。
論文 参考訳(メタデータ) (2025-04-17T10:48:11Z) - ObjMST: An Object-Focused Multimodal Style Transfer Framework [2.732041684677653]
本稿では,オブジェクトや周辺要素を個別に監視する,オブジェクト中心のマルチモーダル・スタイル・トランスファー・フレームワークを提案する。
既存の画像テキスト・マルチモーダル・スタイル・トランスファー手法では,(1)非整合かつ一貫性のないマルチモーダル・スタイル・表現の生成,(2)コンテンツ・ミスマッチ,(2)同一のスタイル・パターンが正常なオブジェクトとその周辺の両方に適用される,といった課題に直面している。
提案手法は,(1)正当性オブジェクトとその周辺の両方に対して整合性と整合性のあるスタイル表現を保証し,(2)正中性オブジェクトをスタイリングする正中性マッピング機構を導入し,次いで画像を生成する。
論文 参考訳(メタデータ) (2025-03-06T11:55:44Z) - One-Prompt-One-Story: Free-Lunch Consistent Text-to-Image Generation Using a Single Prompt [101.17660804110409]
テキスト画像生成モデルは、入力プロンプトから高品質な画像を生成することができる。
彼らはストーリーテリングのアイデンティティ保存要件の一貫性のある生成をサポートするのに苦労している。
本稿では,一貫したテキスト・画像生成のための新しいトレーニングフリー手法を提案する。
論文 参考訳(メタデータ) (2025-01-23T10:57:22Z) - ArtWeaver: Advanced Dynamic Style Integration via Diffusion Model [73.95608242322949]
Stylized Text-to-Image Generation (STIG)は、テキストプロンプトとスタイル参照画像から画像を生成することを目的としている。
我々は、事前訓練された安定拡散を利用して、誤解釈スタイルや一貫性のない意味論といった課題に対処する新しいフレームワーク、ArtWeaverを提案する。
論文 参考訳(メタデータ) (2024-05-24T07:19:40Z) - CFPL-FAS: Class Free Prompt Learning for Generalizable Face Anti-spoofing [66.6712018832575]
ドメイン一般化 (DG) ベースの Face Anti-Spoofing (FAS) は、目に見えないドメインにおけるモデルの性能を改善することを目的としている。
私たちはCLIPのような大規模VLMを利用し、テキスト機能を利用して分類器の重みを動的に調整し、一般化可能な視覚的特徴を探索する。
論文 参考訳(メタデータ) (2024-03-21T11:58:50Z) - LLM Blueprint: Enabling Text-to-Image Generation with Complex and
Detailed Prompts [60.54912319612113]
拡散に基づく生成モデルは、テキストと画像の生成が著しく進歩するが、長く複雑なテキストプロンプトを処理する際には困難に直面する。
本稿では,Large Language Models (LLM) を利用してテキストプロンプトから重要なコンポーネントを抽出する手法を提案する。
複数のオブジェクトを特徴とする複雑なプロンプトの評価は,ベースライン拡散モデルと比較して,リコールの大幅な改善を示す。
論文 参考訳(メタデータ) (2023-10-16T17:57:37Z) - ParaGuide: Guided Diffusion Paraphrasers for Plug-and-Play Textual Style
Transfer [57.6482608202409]
テキストスタイル転送は、意味を保ちながらテキストのスタイル特性を変換するタスクである。
任意のスタイルに柔軟に適応できる汎用型転送のための新しい拡散型フレームワークを提案する。
本研究では,人的評価と自動評価の両面から,Enron Email Corpusの手法を検証するとともに,形式性,感情,さらにはオーサシップスタイルの伝達にも優れることを示す。
論文 参考訳(メタデータ) (2023-08-29T17:36:02Z) - GestureDiffuCLIP: Gesture Diffusion Model with CLIP Latents [3.229105662984031]
GestureDiffuCLIPは、フレキシブルなスタイル制御を備えたリアルでスタイル化された音声合成ジェスチャを合成するためのニューラルネットワークフレームワークである。
本システムは,高品質なジェスチャを生成するために潜時拡散モデルを学び,CLIP表現をジェネレータに注入する。
我々のシステムは、個々の身体部分のきめ細かいスタイル制御を可能にするよう拡張することができる。
論文 参考訳(メタデータ) (2023-03-26T03:35:46Z) - Prototype-to-Style: Dialogue Generation with Style-Aware Editing on
Retrieval Memory [65.98002918470543]
文体対話生成の課題に対処する新しいプロトタイプ・ツー・スタイルのフレームワークを提案する。
このフレームワークは、IR(Information Retrieval)システムを使用して、検索した応答から応答プロトタイプを抽出する。
スタイリスティック応答生成器は、プロトタイプと所望の言語スタイルをモデル入力として、高品質でスタイリスティックな応答を得る。
論文 参考訳(メタデータ) (2020-04-05T14:36:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。