論文の概要: TP-Blend: Textual-Prompt Attention Pairing for Precise Object-Style Blending in Diffusion Models
- arxiv url: http://arxiv.org/abs/2601.08011v1
- Date: Mon, 12 Jan 2026 21:30:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:18.954071
- Title: TP-Blend: Textual-Prompt Attention Pairing for Precise Object-Style Blending in Diffusion Models
- Title(参考訳): TPブレンド:拡散モデルにおける高精度オブジェクトスタイルブレンディングのためのテキストプロンプトアテンションペアリング
- Authors: Xin Jin, Yichuan Zhong, Yapeng Tian,
- Abstract要約: TP-Blendは2つの異なるテキストプロンプトを受け取る軽量なトレーニングフリーフレームワークである。
TP-Blendは2つの補完的なアテンションプロセッサによって駆動される。
実験により、TP-Blendは内容と外観の両方を正確に制御し、高解像度でリアルな編集を行うことが示された。
- 参考スコア(独自算出の注目度): 38.230816384102674
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current text-conditioned diffusion editors handle single object replacement well but struggle when a new object and a new style must be introduced simultaneously. We present Twin-Prompt Attention Blend (TP-Blend), a lightweight training-free framework that receives two separate textual prompts, one specifying a blend object and the other defining a target style, and injects both into a single denoising trajectory. TP-Blend is driven by two complementary attention processors. Cross-Attention Object Fusion (CAOF) first averages head-wise attention to locate spatial tokens that respond strongly to either prompt, then solves an entropy-regularised optimal transport problem that reassigns complete multi-head feature vectors to those positions. CAOF updates feature vectors at the full combined dimensionality of all heads (e.g., 640 dimensions in SD-XL), preserving rich cross-head correlations while keeping memory low. Self-Attention Style Fusion (SASF) injects style at every self-attention layer through Detail-Sensitive Instance Normalization. A lightweight one-dimensional Gaussian filter separates low- and high-frequency components; only the high-frequency residual is blended back, imprinting brush-stroke-level texture without disrupting global geometry. SASF further swaps the Key and Value matrices with those derived from the style prompt, enforcing context-aware texture modulation that remains independent of object fusion. Extensive experiments show that TP-Blend produces high-resolution, photo-realistic edits with precise control over both content and appearance, surpassing recent baselines in quantitative fidelity, perceptual quality, and inference speed.
- Abstract(参考訳): 現在のテキスト条件の拡散エディタは、単一のオブジェクト置換をうまく扱うが、新しいオブジェクトと新しいスタイルを同時に導入する必要がある場合に苦労する。
Twin-Prompt Attention Blend (TP-Blend) は、2つの異なるテキストプロンプトを受信する軽量なトレーニングフリーフレームワークである。
TP-Blendは2つの補完的なアテンションプロセッサによって駆動される。
クロス・アテンション・オブジェクト・フュージョン(CAOF)は、まず頭回りに注意を払って、どちらのプロンプトにも強く反応する空間トークンを見つけ、次に、完全なマルチヘッド特徴ベクトルをそれらの位置に割り当てるエントロピー規則化された最適輸送問題を解く。
CAOFは全てのヘッドの完全な結合次元(例えばSD-XLの640次元)で特徴ベクトルを更新し、メモリを低く保ちながらリッチなクロスヘッド相関を保存する。
自己アテンションスタイルフュージョン(SASF)は、Detail-Sensitive Instance Normalizationを通じて、すべての自己アテンション層にスタイルを注入する。
軽量な1次元ガウスフィルタは低周波成分と高周波成分を分離する。
SASFはさらに、キーとバリューの行列をスタイルプロンプトから派生したものと交換し、オブジェクトの融合とは無関係なコンテキスト認識のテクスチャ変調を強制する。
広汎な実験により、TP-Blendは、量的忠実度、知覚的品質、推論速度の最近の基準線を越えながら、内容と外観の両方を正確に制御し、高解像度でフォトリアリスティックな編集を行うことが示された。
関連論文リスト
- FUSER: Feed-Forward MUltiview 3D Registration Transformer and SE(3)$^N$ Diffusion Refinement [39.19949818461193]
Fは、全てのスキャンを統一されたコンパクトな潜在空間で処理する最初のフィードフォワードマルチビュー登録変換器である。
F はペアワイズ推定なしでグローバルなポーズを予測する。
3DMatch, ScanNet, ArkitScenesの実験により, 本手法が優れた登録精度と優れた計算効率を実現することを示す。
論文 参考訳(メタデータ) (2025-12-10T07:11:22Z) - H3R: Hybrid Multi-view Correspondence for Generalizable 3D Reconstruction [39.22287224290769]
H3Rは、潜在融合と注目に基づく機能集約を統合するハイブリッドフレームワークである。
両パラダイムを統合することで,既存手法よりも2$times$高速に収束しながら,一般化が促進される。
本手法は,ロバストなクロスデータセットの一般化を実証しながら,可変数および高分解能な入力ビューをサポートする。
論文 参考訳(メタデータ) (2025-08-05T05:56:30Z) - FUSE: Label-Free Image-Event Joint Monocular Depth Estimation via Frequency-Decoupled Alignment and Degradation-Robust Fusion [92.4205087439928]
画像強調共同深度推定法は、頑健な知覚に相補的なモダリティを利用するが、一般化可能性の課題に直面している。
自己監督型転送(PST)と周波数デカップリング型フュージョンモジュール(FreDF)を提案する。
PSTは、画像基盤モデルとの遅延空間アライメントによるクロスモーダルな知識伝達を確立し、データ不足を効果的に軽減する。
FreDFは、低周波構造成分から高周波エッジ特性を明示的に分離し、モード比周波数ミスマッチを解消する。
この組み合わせのアプローチにより、FUSEはターゲットデータセットに対する軽量デコーダ適応のみを必要とするユニバーサルなイメージイベントを構築することができる。
論文 参考訳(メタデータ) (2025-03-25T15:04:53Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。