論文の概要: FreeMorph: Tuning-Free Generalized Image Morphing with Diffusion Model
- arxiv url: http://arxiv.org/abs/2507.01953v1
- Date: Wed, 02 Jul 2025 17:58:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:23:00.443962
- Title: FreeMorph: Tuning-Free Generalized Image Morphing with Diffusion Model
- Title(参考訳): FreeMorph: 拡散モデルによるチューニング不要な一般化画像モフィング
- Authors: Yukang Cao, Chenyang Si, Jinghao Wang, Ziwei Liu,
- Abstract要約: FreeMorphは、異なるセマンティクスやレイアウトで入力を許容するイメージモーフィングのための、最初のチューニング不要の方法である。
評価の結果,FreeMorphは既存の手法よりも10倍50倍高速で,画像改質のための新しい最先端技術を確立した。
- 参考スコア(独自算出の注目度): 42.93222335677183
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: We present FreeMorph, the first tuning-free method for image morphing that accommodates inputs with different semantics or layouts. Unlike existing methods that rely on finetuning pre-trained diffusion models and are limited by time constraints and semantic/layout discrepancies, FreeMorph delivers high-fidelity image morphing without requiring per-instance training. Despite their efficiency and potential, tuning-free methods face challenges in maintaining high-quality results due to the non-linear nature of the multi-step denoising process and biases inherited from the pre-trained diffusion model. In this paper, we introduce FreeMorph to address these challenges by integrating two key innovations. 1) We first propose a guidance-aware spherical interpolation design that incorporates explicit guidance from the input images by modifying the self-attention modules, thereby addressing identity loss and ensuring directional transitions throughout the generated sequence. 2) We further introduce a step-oriented variation trend that blends self-attention modules derived from each input image to achieve controlled and consistent transitions that respect both inputs. Our extensive evaluations demonstrate that FreeMorph outperforms existing methods, being 10x ~ 50x faster and establishing a new state-of-the-art for image morphing.
- Abstract(参考訳): 提案するFreeMorphは,異なるセマンティクスやレイアウトの入力を許容する,画像モーフィングのための最初のチューニング不要な手法である。
事前訓練された拡散モデルを微調整し、時間制約やセマンティック/レイアウトの相違によって制限されている既存の方法とは異なり、FreeMorphは、インスタンスごとのトレーニングを必要とせずに、高忠実な画像モーフィングを提供する。
その効率性と可能性にもかかわらず、チューニング不要な手法は、マルチステップデノナイジングプロセスの非線形の性質と、事前訓練された拡散モデルから継承されたバイアスにより、高品質な結果を維持するための課題に直面している。
本稿では,2つの重要なイノベーションを統合することで,これらの課題に対処するFreeMorphを紹介する。
1)まず,自己アテンションモジュールを変更することで,入力画像からの明示的なガイダンスを取り入れた誘導対応球面補間設計を提案する。
さらに,各入力画像から導出される自己意図的モジュールをブレンドして,両入力を尊重する制御的かつ一貫した遷移を実現するステップ指向の変動傾向を導入する。
評価の結果,FreeMorphは既存の手法よりも10倍から50倍高速で,画像改質のための新たな最先端技術を確立した。
関連論文リスト
- Accelerate High-Quality Diffusion Models with Inner Loop Feedback [50.00066451431194]
内ループフィードバック (ILF) は拡散モデルの推論を高速化する新しい手法である。
ILFは、デノナイジングプロセスの将来の機能を予測するために、軽量モジュールをトレーニングする。
ILFは拡散変換器(DiT)とDiTベースのPixArt-alphaとPixArt-sigmaによるテキスト・ツー・画像生成の両方で高い性能を達成している。
論文 参考訳(メタデータ) (2025-01-22T18:59:58Z) - Semantic Guidance Tuning for Text-To-Image Diffusion Models [3.3881449308956726]
本研究では,推論中の拡散モデルの誘導方向を変調する学習自由アプローチを提案する。
まず,素早い意味論を概念の集合に分解し,各概念に関するガイダンスの軌跡をモニタリングする。
そこで本研究では,モデルが発散する概念に対して,誘導方向を制御するための手法を考案した。
論文 参考訳(メタデータ) (2023-12-26T09:02:17Z) - DiffMorpher: Unleashing the Capability of Diffusion Models for Image
Morphing [28.593023489682654]
DiffMorpherは、拡散モデルを用いて、スムーズで自然な画像のモーフィングを可能にする最初のアプローチである。
私たちのキーとなるアイデアは、2つのLoRAをそれぞれ組み合わせることで2つの画像の意味を捉え、LoRAパラメータと潜時ノイズの両方を補間することで、スムーズなセマンティック・トランジションを確保することです。
また,連続画像間のスムーズさをさらに高めるため,注意・注入手法と新しいサンプリングスケジュールを提案する。
論文 参考訳(メタデータ) (2023-12-12T16:28:08Z) - Gradpaint: Gradient-Guided Inpainting with Diffusion Models [71.47496445507862]
Denoising Diffusion Probabilistic Models (DDPM) は近年,条件付きおよび非条件付き画像生成において顕著な成果を上げている。
我々はGradPaintを紹介し、グローバルな一貫性のあるイメージに向けて世代を操る。
我々は、様々なデータセットで訓練された拡散モデルによく適応し、現在最先端の教師付きおよび教師なしの手法を改善している。
論文 参考訳(メタデータ) (2023-09-18T09:36:24Z) - A Variational Perspective on Solving Inverse Problems with Diffusion
Models [101.831766524264]
逆タスクは、データ上の後続分布を推測するものとして定式化することができる。
しかし、拡散過程の非線形的かつ反復的な性質が後部を引き付けるため、拡散モデルではこれは困難である。
そこで我々は,真の後続分布を近似する設計手法を提案する。
論文 参考訳(メタデータ) (2023-05-07T23:00:47Z) - Sliding at first order: Higher-order momentum distributions for
discontinuous image registration [5.987650121126747]
そこで本研究では,すべり動作をキャプチャする変形可能な画像登録手法を提案する。
大規模変形微分型メートル法 (LDDMM) の登録法は, 平滑な反りを生じるため, すべり運動の表現が困難である。
論文 参考訳(メタデータ) (2023-03-14T09:42:49Z) - SinDiffusion: Learning a Diffusion Model from a Single Natural Image [159.4285444680301]
SinDiffusionは1つの自然な画像からパッチの内部分布を捉えるためにデノナイズ拡散モデルを利用する。
SinDiffusionは、2つのコア設計に基づいている。まず、SinDiffusionは、段階的にスケールが成長する複数のモデルではなく、1つのスケールで1つのモデルで訓練されている。
第2に,拡散ネットワークのパッチレベルの受容領域は,画像のパッチ統計を捉える上で重要かつ効果的であることを示す。
論文 参考訳(メタデータ) (2022-11-22T18:00:03Z) - DiffuseMorph: Unsupervised Deformable Image Registration Along
Continuous Trajectory Using Diffusion Models [31.826844124173984]
DiffuseMorphと呼ばれる拡散モデルに基づく新しい確率的画像登録手法を提案する。
本モデルは,動画像と固定画像の変形のスコア関数を学習する。
本手法は, トポロジー保存機能により, 柔軟かつ高精度な変形を可能とする。
論文 参考訳(メタデータ) (2021-12-09T08:41:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。