論文の概要: FBSDiff++: Improved Frequency Band Substitution of Diffusion Features for Efficient and Highly Controllable Text-Driven Image-to-Image Translation
- arxiv url: http://arxiv.org/abs/2601.19115v1
- Date: Tue, 27 Jan 2026 02:39:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.135974
- Title: FBSDiff++: Improved Frequency Band Substitution of Diffusion Features for Efficient and Highly Controllable Text-Driven Image-to-Image Translation
- Title(参考訳): FBSDiff++: 効率よく制御可能なテキスト駆動画像変換のための拡散機能の周波数帯域置換の改善
- Authors: Xiang Gao, Yunpeng Jia,
- Abstract要約: 本稿では,新しい周波数領域の観点から,既製のT2I拡散モデルをI2Iパラダイムに適応させる新しいフレームワークを提案する。
拡散特性の動的周波数帯域置換により、FBSDiffは多目的で制御可能なテキスト駆動I2Iを実現する。
FBSDiff++は主に3つの側面で改善されている。(1) 改良されたモデルアーキテクチャによる大きなマージンによる推論速度の高速化(8.9$times$ speedup inference)、(2) 任意の解像度とアスペクト比の入力元画像を可能にする周波数帯域置換モジュールの改善、(3) 局所化画像を可能にするモデル機能の拡張。
- 参考スコア(独自算出の注目度): 5.621818036193247
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With large-scale text-to-image (T2I) diffusion models achieving significant advancements in open-domain image creation, increasing attention has been focused on their natural extension to the realm of text-driven image-to-image (I2I) translation, where a source image acts as visual guidance to the generated image in addition to the textual guidance provided by the text prompt. We propose FBSDiff, a novel framework adapting off-the-shelf T2I diffusion model into the I2I paradigm from a fresh frequency-domain perspective. Through dynamic frequency band substitution of diffusion features, FBSDiff realizes versatile and highly controllable text-driven I2I in a plug-and-play manner (without need for model training, fine-tuning, or online optimization), allowing appearance-guided, layout-guided, and contour-guided I2I translation by progressively substituting low-frequency band, mid-frequency band, and high-frequency band of latent diffusion features, respectively. In addition, FBSDiff flexibly enables continuous control over I2I correlation intensity simply by tuning the bandwidth of the substituted frequency band. To further promote image translation efficiency, flexibility, and functionality, we propose FBSDiff++ which improves upon FBSDiff mainly in three aspects: (1) accelerate inference speed by a large margin (8.9$\times$ speedup in inference) with refined model architecture; (2) improve the Frequency Band Substitution module to allow for input source images of arbitrary resolution and aspect ratio; (3) extend model functionality to enable localized image manipulation and style-specific content creation with only subtle adjustments to the core method. Extensive qualitative and quantitative experiments verify superiority of FBSDiff++ in I2I translation visual quality, efficiency, versatility, and controllability compared to related advanced approaches.
- Abstract(参考訳): 大規模テキスト・トゥ・イメージ(T2I)拡散モデルによるオープンドメイン画像生成の大幅な進歩により、テキスト・インプロンプトが提供するテキスト・ガイダンスに加えて、ソース画像が生成された画像に対する視覚的ガイダンスとして機能するテキスト駆動画像・トゥ・イメージ(I2I)翻訳の領域への自然な拡張に注目が向けられている。
本稿では,新しい周波数領域の観点から,既製のT2I拡散モデルをI2Iパラダイムに適応させる新しいフレームワークFBSDiffを提案する。
拡散特性の動的周波数帯域置換により、FBSDiffはプラグアンドプレイ方式(モデルトレーニング、微調整、オンライン最適化を必要としない)で、低周波帯域、中周波帯域、遅延拡散特性の高周波帯域を段階的に置換することで、外観誘導、レイアウト誘導、輪郭誘導I2I翻訳を実現する。
さらに、FBSDiffは、置換周波数帯域の帯域幅を調整するだけで、I2I相関強度の連続制御を柔軟に行うことができる。
画像変換の効率、柔軟性、機能性をさらに向上するため、FBSDiff を主に 3 つの側面で改善する FBSDiff++ を提案する。(1) 大きなマージン (8.9$\times$ speedup inference) で推論速度を向上するモデルアーキテクチャ、(2) 任意の解像度とアスペクト比の入力ソースイメージを可能にする周波数帯域置換モジュールの改善、(3) 局所化イメージ操作とスタイル固有のコンテンツ作成をコアメソッドに微調整するだけで可能とするモデル機能の拡張。
I2I翻訳におけるFBSDiff++の優位性, 視覚的品質, 効率性, 汎用性, 制御性について, 関連する先進的アプローチと比較して検証した。
関連論文リスト
- NOFT: Test-Time Noise Finetune via Information Bottleneck for Highly Correlated Asset Creation [70.96827354717459]
拡散モデルは、テキスト・ツー・イメージ(T2I)と画像・ツー・イメージ(I2I)を生成する強力なツールを提供する。
本研究では,高相関・多彩な画像を生成するため,安定拡散を用いたノイズファインチューンNOFTモジュールを提案する。
論文 参考訳(メタデータ) (2025-05-18T05:09:47Z) - FUSE: Label-Free Image-Event Joint Monocular Depth Estimation via Frequency-Decoupled Alignment and Degradation-Robust Fusion [92.4205087439928]
画像強調共同深度推定法は、頑健な知覚に相補的なモダリティを利用するが、一般化可能性の課題に直面している。
自己監督型転送(PST)と周波数デカップリング型フュージョンモジュール(FreDF)を提案する。
PSTは、画像基盤モデルとの遅延空間アライメントによるクロスモーダルな知識伝達を確立し、データ不足を効果的に軽減する。
FreDFは、低周波構造成分から高周波エッジ特性を明示的に分離し、モード比周波数ミスマッチを解消する。
この組み合わせのアプローチにより、FUSEはターゲットデータセットに対する軽量デコーダ適応のみを必要とするユニバーサルなイメージイベントを構築することができる。
論文 参考訳(メタデータ) (2025-03-25T15:04:53Z) - FiTv2: Scalable and Improved Flexible Vision Transformer for Diffusion Model [76.84519526283083]
textbfFlexible Vision Transformer (FiT) は、テキスト非制限解像度とアスペクト比で画像を生成するために設計されたトランスアーキテクチャである。
FiTv2は、高度なトレーニングフリーな外挿技術を導入する際に、FiTの収束速度を2倍に向上させる。
総合的な実験は、FiTv2の幅広い解像度での異常な性能を実証している。
論文 参考訳(メタデータ) (2024-10-17T15:51:49Z) - FBSDiff: Plug-and-Play Frequency Band Substitution of Diffusion Features for Highly Controllable Text-Driven Image Translation [19.65838242227773]
本稿では,大規模テキスト・ツー・イメージ(T2I)拡散モデルとイメージ・ツー・イメージ(I2I)パラダイムをプラグ・アンド・プレイ方式で適用する,新しい,簡潔かつ効率的なアプローチを提案する。
本手法は,周波数帯域のタイプや帯域幅を調整するだけで,参照画像の導出係数と導出強度の両方を柔軟に制御できる。
論文 参考訳(メタデータ) (2024-08-02T04:13:38Z) - Controlling Text-to-Image Diffusion by Orthogonal Finetuning [74.21549380288631]
そこで本研究では,テキストから画像への拡散モデルを下流タスクに適用するための原理的な微調整手法であるorthogonal Finetuning(OFT)を提案する。
既存の方法とは異なり、OFTは単位超球上の対のニューロン関係を特徴付ける超球面エネルギーを確実に保存することができる。
我々のOFTフレームワークは、生成品質と収束速度において既存の手法よりも優れていることを実証的に示す。
論文 参考訳(メタデータ) (2023-06-12T17:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。