論文の概要: In-Context Brush: Zero-shot Customized Subject Insertion with Context-Aware Latent Space Manipulation
- arxiv url: http://arxiv.org/abs/2505.20271v1
- Date: Mon, 26 May 2025 17:49:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.140903
- Title: In-Context Brush: Zero-shot Customized Subject Insertion with Context-Aware Latent Space Manipulation
- Title(参考訳): In-Context Brush: 文脈対応潜時空間操作によるゼロショット特化被写体挿入
- Authors: Yu Xu, Fan Tang, You Wu, Lin Gao, Oliver Deussen, Hongbin Yan, Jintao Li, Juan Cao, Tong-Yee Lee,
- Abstract要約: In-Context Brush"は、被写体挿入をカスタマイズするためのゼロショットフレームワークである。
オブジェクトイメージとテキストプロンプトをクロスモーダルなデモとして定式化する。
目標は、対象画像を、モデルチューニングなしでテキストプロンプトを整列する対象に塗布することである。
- 参考スコア(独自算出の注目度): 41.79836820271156
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in diffusion models have enhanced multimodal-guided visual generation, enabling customized subject insertion that seamlessly "brushes" user-specified objects into a given image guided by textual prompts. However, existing methods often struggle to insert customized subjects with high fidelity and align results with the user's intent through textual prompts. In this work, we propose "In-Context Brush", a zero-shot framework for customized subject insertion by reformulating the task within the paradigm of in-context learning. Without loss of generality, we formulate the object image and the textual prompts as cross-modal demonstrations, and the target image with the masked region as the query. The goal is to inpaint the target image with the subject aligning textual prompts without model tuning. Building upon a pretrained MMDiT-based inpainting network, we perform test-time enhancement via dual-level latent space manipulation: intra-head "latent feature shifting" within each attention head that dynamically shifts attention outputs to reflect the desired subject semantics and inter-head "attention reweighting" across different heads that amplifies prompt controllability through differential attention prioritization. Extensive experiments and applications demonstrate that our approach achieves superior identity preservation, text alignment, and image quality compared to existing state-of-the-art methods, without requiring dedicated training or additional data collection.
- Abstract(参考訳): 拡散モデルの最近の進歩により、マルチモーダル誘導視覚生成が強化され、テキストプロンプトによって導かれる所定の画像に、ユーザ指定のオブジェクトをシームレスに"ブラシ"するカスタマイズされた被写体挿入が可能になった。
しかし、既存の手法では、カスタマイズされた対象を高い忠実度で挿入し、テキストによるプロンプトを通じてユーザの意図と一致させることがしばしば困難である。
本研究では,インコンテキスト学習のパラダイム内でタスクを再構成し,対象挿入をカスタマイズするためのゼロショットフレームワークである"In-Context Brush"を提案する。
一般性を欠くことなく、オブジェクトイメージとテキストプロンプトをクロスモーダルなデモとして定式化し、ターゲットイメージとマスクされた領域をクエリとして表示する。
目標は、対象画像を、モデルチューニングなしでテキストプロンプトを整列する対象に塗布することである。
事前学習したMMDiTベースの塗布ネットワーク上に構築し,2段階の潜時空間操作によるテスト時間拡張を行う。各注目ヘッド内の頭部内「ラテント特徴シフト」は,所望の主観的意味を反映するように注意出力を動的にシフトし,異なるヘッド間での頭部間「注意再重み付け」は,注意優先化による即時制御性を増幅する。
大規模な実験と応用により,本手法は既存の最先端手法と比較して,専用トレーニングや追加データ収集を必要とせず,アイデンティティの保存,テキストアライメント,画像品質に優れることを示した。
関連論文リスト
- Nested Attention: Semantic-aware Attention Values for Concept Personalization [78.90196530697897]
我々はNested Attentionを紹介した。これはモデル内の既存のクロスアテンション層にリッチで表現豊かなイメージ表現を注入する新しいメカニズムである。
私たちのキーとなるアイデアは、ネストした注意層から得られたクエリ依存の主観値を生成し、生成した画像の各領域について関連する主観的特徴を選択することである。
論文 参考訳(メタデータ) (2025-01-02T18:52:11Z) - Large-Scale Text-to-Image Model with Inpainting is a Zero-Shot Subject-Driven Image Generator [44.620847608977776]
ディプチッチ・プロンプティング(Diptych Prompting)は、被写体を正確にアライメントした塗装タスクとして再解釈する、新しいゼロショットアプローチである。
提案手法は主観的画像生成だけでなく, 主観的画像生成と主観的画像編集もサポートする。
論文 参考訳(メタデータ) (2024-11-23T06:17:43Z) - MS-Diffusion: Multi-subject Zero-shot Image Personalization with Layout Guidance [5.452759083801634]
本研究では,マルチオブジェクトを用いたレイアウト誘導ゼロショット画像パーソナライズのためのMS-Diffusionフレームワークを提案する。
提案した多目的クロスアテンションオーケストラは、テキストの制御を保ちながら、オブジェクト間コンポジションを編成する。
論文 参考訳(メタデータ) (2024-06-11T12:32:53Z) - Training-Free Consistent Text-to-Image Generation [80.4814768762066]
テキスト・ツー・イメージ・モデルは様々なプロンプトで同じ主題を表現できる。
既存のアプローチは、特定のユーザが提供する主題を記述する新しい単語を教えるためにモデルを微調整する。
本研究では、事前学習モデルの内部アクティベーションを共有することによって、一貫した主題生成を可能にする、トレーニング不要なアプローチであるConsiStoryを提案する。
論文 参考訳(メタデータ) (2024-02-05T18:42:34Z) - Leveraging Open-Vocabulary Diffusion to Camouflaged Instance
Segmentation [59.78520153338878]
テキスト・ツー・イメージ拡散技術は、テキスト記述から高品質な画像を生成する素晴らしい能力を示している。
そこで本研究では,オープン語彙を応用した最先端拡散モデルを用いて,多スケールのテキスト・視覚的特徴を学習する手法を提案する。
論文 参考訳(メタデータ) (2023-12-29T07:59:07Z) - LoCo: Locally Constrained Training-Free Layout-to-Image Synthesis [24.925757148750684]
テキストプロンプトとレイアウト命令の両方に整合した高品質な画像を生成するのに優れたレイアウト・ツー・イメージ合成のためのトレーニング不要なアプローチを提案する。
LoCoは既存のテキスト・ツー・イメージモデルとレイアウト・ツー・イメージモデルにシームレスに統合され、空間制御の性能を高め、以前の方法で観察された意味障害に対処する。
論文 参考訳(メタデータ) (2023-11-21T04:28:12Z) - Paste, Inpaint and Harmonize via Denoising: Subject-Driven Image Editing
with Pre-Trained Diffusion Model [22.975965453227477]
textitPaste, Inpaint, Harmonize と呼ばれる新しいフレームワークをDenoising (PhD) を通じて導入する。
本実験では,主観的画像編集作業にPhDを適用し,参照対象のテキスト駆動シーン生成を探索する。
論文 参考訳(メタデータ) (2023-06-13T07:43:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。