論文の概要: A training-free framework for high-fidelity appearance transfer via diffusion transformers
- arxiv url: http://arxiv.org/abs/2603.26767v1
- Date: Tue, 24 Mar 2026 07:53:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.587072
- Title: A training-free framework for high-fidelity appearance transfer via diffusion transformers
- Title(参考訳): 拡散変圧器を用いた高忠実度外観伝達のためのトレーニングフリーフレームワーク
- Authors: Shengrong Gu, Ye Wang, Song Wu, Rui Ma, Qian Wang, Lanjun Wang, Zili Yi,
- Abstract要約: Diffusion Transformer (DiTs) は世代ごとに優れているが、そのグローバルな自己注意は、制御可能な参照イメージベースの編集を困難にしている。
本研究では,高忠実度な外見伝達を実現するために,DiTをテーマとしたトレーニングフリーフレームワークを提案する。
- 参考スコア(独自算出の注目度): 22.055385083107442
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion Transformers (DiTs) excel at generation, but their global self-attention makes controllable, reference-image-based editing a distinct challenge. Unlike U-Nets, naively injecting local appearance into a DiT can disrupt its holistic scene structure. We address this by proposing the first training-free framework specifically designed to tame DiTs for high-fidelity appearance transfer. Our core is a synergistic system that disentangles structure and appearance. We leverage high-fidelity inversion to establish a rich content prior for the source image, capturing its lighting and micro-textures. A novel attention-sharing mechanism then dynamically fuses purified appearance features from a reference, guided by geometric priors. Our unified approach operates at 1024px and outperforms specialized methods on tasks ranging from semantic attribute transfer to fine-grained material application. Extensive experiments confirm our state-of-the-art performance in both structural preservation and appearance fidelity.
- Abstract(参考訳): Diffusion Transformer (DiTs) は世代ごとに優れていますが、そのグローバルな自己注意によって、コントロール可能な参照イメージベースの編集が難しいのです。
U-Netsとは異なり、DiTに局所的な外観を鼻で注入すると、その全体像構造が破壊される。
我々は、高忠実度な外見転送のためにDiTをテームするために特別に設計された、トレーニング不要のフレームワークを提案する。
私たちのコアは構造と外観を歪める相乗的システムです。
我々は、高忠実度インバージョンを利用して、ソース画像の前にリッチなコンテンツを確立し、その照明とマイクロテクスチャをキャプチャする。
新たなアテンション共有機構は、幾何学的先行によって導かれる参照から精製された外観特徴を動的に融合する。
我々の統一的なアプローチは1024pxで動作し、セマンティック属性の転送からきめ細かい材料アプリケーションまで、タスクの特殊な手法より優れています。
広範囲な実験により、構造保存と外観忠実性の両面での最先端の性能が確認された。
関連論文リスト
- Edit2Perceive: Image Editing Diffusion Models Are Strong Dense Perceivers [55.15722080205737]
Edit2Perceiveは、深度、正規度、マッティングの編集モデルを適応させる統合拡散フレームワークである。
私たちの単一ステップの決定論的推論は、比較的小さなデータセットでトレーニングしながら、より高速なランタイムをもたらす。
論文 参考訳(メタデータ) (2025-11-24T01:13:51Z) - Dual Recursive Feedback on Generation and Appearance Latents for Pose-Robust Text-to-Image Diffusion [15.384896404310645]
制御可能なT2Iモデルにおける制御条件を適切に反映する訓練不要なDual Recursive Feedback(DRF)システムを提案する。
提案手法は高品質でセマンティック・コヒーレントで構造的に一貫した画像を生成する。
論文 参考訳(メタデータ) (2025-08-13T07:46:00Z) - SGDFuse: SAM-Guided Diffusion for High-Fidelity Infrared and Visible Image Fusion [65.80051636480836]
本稿では,Segment Anything Model(SAM)によって導かれる条件拡散モデルを提案する。
このフレームワークは2段階のプロセスで動作し、まずマルチモーダルな特徴の予備的な融合を行い、その後、拡散モデルの粗大な分極生成を駆動する条件としてセマンティックマスクを利用する。
SGDFuseは主観的評価と客観的評価の両方において最先端の性能を発揮することを示す。
論文 参考訳(メタデータ) (2025-08-07T10:58:52Z) - RichControl: Structure- and Appearance-Rich Training-Free Spatial Control for Text-to-Image Generation [10.956556608715035]
テキスト・ツー・イメージ(T2I)拡散モデルでは,テキスト・プロンプトから高品質な画像を生成することに成功した。
本稿では, 条件特徴のサンプリングスケジュールをデノナイジングプロセスから切り離すフレキシブルなトレーニングフリーフレームワークを提案する。
再調整スケジュールを導入することでサンプリングプロセスをさらに強化し、外観に富んだプロンプト戦略で視覚的品質を向上させる。
論文 参考訳(メタデータ) (2025-07-03T16:56:15Z) - Can We Achieve Efficient Diffusion without Self-Attention? Distilling Self-Attention into Convolutions [94.21989689001848]
従来の自己アテンションモジュールをピラミッド畳み込みブロック((Delta)ConvBlocks)に置き換えるための(Delta)ConvFusionを提案する。
ローカライズされた畳み込み操作に注意パターンを蒸留し、他のコンポーネントを凍結させながら、(Delta)ConvFusionは、トランスフォーマーベースの処理に匹敵する性能を達成し、計算コストを6929$times$、LinFusionを5.42$times$の効率で上回る。
論文 参考訳(メタデータ) (2025-04-30T03:57:28Z) - DiffFAE: Advancing High-fidelity One-shot Facial Appearance Editing with Space-sensitive Customization and Semantic Preservation [84.0586749616249]
本稿では,高忠実度顔画像編集に適した1段階かつ高効率な拡散ベースフレームワークDiffFAEを提案する。
高忠実度クエリ属性転送には、空間感性物理カスタマイズ(SPC)を採用し、忠実度と一般化能力を保証している。
ソース属性を保存するために、Regional-responsive Semantic Composition (RSC)を導入する。
このモジュールは、切り離されたソースを無視する特徴を学習するためにガイドされ、髪、服、背景などの非顔的属性からアーティファクトを保存し緩和する。
論文 参考訳(メタデータ) (2024-03-26T12:53:10Z) - Fine-grained Appearance Transfer with Diffusion Models [23.29713777525402]
画像から画像への変換(I2I)は、構造的コヒーレンスを維持しながら、画像間の視覚的外観を変化させようとしている。
本稿では, セマンティックマッチング, 外観伝達, 潜時偏差の様々な側面を統合することで, これらの課題を克服する革新的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-27T04:00:04Z) - DiffBIR: Towards Blind Image Restoration with Generative Diffusion Prior [70.46245698746874]
DiffBIRは、視覚の異なる画像復元タスクを処理できる一般的な修復パイプラインである。
DiffBIRは, ブラインド画像復元問題を, 1) 劣化除去: 画像に依存しない内容の除去; 2) 情報再生: 失われた画像内容の生成の2段階に分離する。
第1段階では, 修復モジュールを用いて劣化を除去し, 高忠実度復元結果を得る。
第2段階では、潜伏拡散モデルの生成能力を活用して現実的な詳細を生成するIRControlNetを提案する。
論文 参考訳(メタデータ) (2023-08-29T07:11:52Z) - TcGAN: Semantic-Aware and Structure-Preserved GANs with Individual
Vision Transformer for Fast Arbitrary One-Shot Image Generation [11.207512995742999]
画像の内部パッチから学習する生成的敵ネットワークを持つワンショット画像生成(OSG)は、世界中で注目を集めている。
本稿では,既存のワンショット画像生成手法の欠点を克服するために,個々の視覚変換器を用いた構造保存方式TcGANを提案する。
論文 参考訳(メタデータ) (2023-02-16T03:05:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。