論文の概要: Hierarchical Koopman Diffusion: Fast Generation with Interpretable Diffusion Trajectory
- arxiv url: http://arxiv.org/abs/2510.12220v1
- Date: Tue, 14 Oct 2025 07:17:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 21:19:14.976446
- Title: Hierarchical Koopman Diffusion: Fast Generation with Interpretable Diffusion Trajectory
- Title(参考訳): 階層的クープマン拡散:解釈的拡散軌道による高速発生
- Authors: Hanru Bai, Weiyang Ding, Difan Zou,
- Abstract要約: textbfHierarchical Koopman Diffusionは、一段階のサンプリングと解釈可能な生成軌道の両方を達成する新しいフレームワークである。
我々のフレームワークは,拡散モデルにおける高速サンプリングと解釈可能性のギャップを埋め,生成モデルにおける説明可能な画像合成の道を開く。
- 参考スコア(独自算出の注目度): 30.327899232038863
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Diffusion models have achieved impressive success in high-fidelity image generation but suffer from slow sampling due to their inherently iterative denoising process. While recent one-step methods accelerate inference by learning direct noise-to-image mappings, they sacrifice the interpretability and fine-grained control intrinsic to diffusion dynamics, key advantages that enable applications like editable generation. To resolve this dichotomy, we introduce \textbf{Hierarchical Koopman Diffusion}, a novel framework that achieves both one-step sampling and interpretable generative trajectories. Grounded in Koopman operator theory, our method lifts the nonlinear diffusion dynamics into a latent space where evolution is governed by globally linear operators, enabling closed-form trajectory solutions. This formulation not only eliminates iterative sampling but also provides full access to intermediate states, allowing manual intervention during generation. To model the multi-scale nature of images, we design a hierarchical architecture that disentangles generative dynamics across spatial resolutions via scale-specific Koopman subspaces, capturing coarse-to-fine details systematically. We empirically show that the Hierarchical Koopman Diffusion not only achieves competitive one-step generation performance but also provides a principled mechanism for interpreting and manipulating the generative process through spectral analysis. Our framework bridges the gap between fast sampling and interpretability in diffusion models, paving the way for explainable image synthesis in generative modeling.
- Abstract(参考訳): 拡散モデルは高忠実度画像生成において顕著に成功したが、本質的に反復的なデノナイジングプロセスのためにサンプリングが遅い。
最近のワンステップ手法は直接ノイズ・ツー・イメージマッピングを学習することで推論を加速するが、編集可能な生成のようなアプリケーションを可能にする重要な利点である拡散力学に固有の解釈可能性ときめ細かい制御を犠牲にする。
この二分法を解くために,一段階のサンプリングと解釈可能な生成軌道を両立させる新しいフレームワークである‘textbf{Hierarchical Koopman Diffusion} を導入する。
クープマン作用素理論に基づいて、この手法は非線形拡散力学を、大域的線形作用素によって進化が支配される潜在空間に持ち上げ、閉形式の軌道解を可能にする。
この定式化は反復サンプリングを除去するだけでなく、中間状態への完全なアクセスを提供し、生成時の手動介入を可能にする。
画像のマルチスケールな性質をモデル化するために,空間分解における生成力学をスケール特異的なクープマン部分空間で切り離す階層的アーキテクチャを設計し,粗大から細小までを体系的に捉えた。
階層的クープマン拡散は競合するワンステップ生成性能を達成するだけでなく、スペクトル解析によって生成過程を解釈・操作する原理的なメカニズムも提供することを実証的に示す。
我々のフレームワークは,拡散モデルにおける高速サンプリングと解釈可能性のギャップを埋め,生成モデルにおける説明可能な画像合成の道を開く。
関連論文リスト
- Fitting Image Diffusion Models on Video Datasets [30.688877034764474]
本稿では,連続ビデオフレームに存在する時間的帰納バイアスを利用して拡散訓練を改善する,シンプルで効果的なトレーニング戦略を提案する。
本手法はHandCoデータセット上で評価し,手動物体間相互作用が高密度時間的コヒーレンスを示す。
論文 参考訳(メタデータ) (2025-09-04T01:04:54Z) - Unfolding Generative Flows with Koopman Operators: Fast and Interpretable Sampling [26.912726794632732]
Conditional Flow Matching (CFM)は、連続時間生成モデルをトレーニングするためのシミュレーション不要のフレームワークを提供する。
我々は、CFMを加速し、クープマン作用素理論を統合することにより、その力学の解釈可能な表現を導入することを提案する。
論文 参考訳(メタデータ) (2025-06-27T15:16:16Z) - Consistent World Models via Foresight Diffusion [56.45012929930605]
我々は、一貫した拡散に基づく世界モデルを学習する上で重要なボトルネックは、最適下予測能力にあると主張している。
本稿では,拡散に基づく世界モデリングフレームワークであるForesight Diffusion(ForeDiff)を提案する。
論文 参考訳(メタデータ) (2025-05-22T10:01:59Z) - Toward Theoretical Insights into Diffusion Trajectory Distillation via Operator Merging [10.315743300140966]
拡散軌道蒸留は、高品質な出力を生成するがサンプリング速度の遅い拡散モデルのサンプリングを加速することを目的としている。
信号の忠実度を最大に保存する最適なマージ戦略を計算するためのプログラミングアルゴリズムを提案する。
本研究は, 拡散軌道蒸留の理論的理解を高め, 蒸留戦略改善のための実践的洞察を提供するものである。
論文 参考訳(メタデータ) (2025-05-21T21:13:02Z) - Oscillation Inversion: Understand the structure of Large Flow Model through the Lens of Inversion Method [60.88467353578118]
実世界のイメージを逆転させる固定点インスパイアされた反復的アプローチは収束を達成せず、異なるクラスタ間で振動することを示す。
本稿では,画像強調,ストロークベースのリカラー化,および視覚的プロンプト誘導画像編集を容易にする,シンプルで高速な分布転送手法を提案する。
論文 参考訳(メタデータ) (2024-11-17T17:45:37Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z) - A Variational Perspective on Solving Inverse Problems with Diffusion
Models [101.831766524264]
逆タスクは、データ上の後続分布を推測するものとして定式化することができる。
しかし、拡散過程の非線形的かつ反復的な性質が後部を引き付けるため、拡散モデルではこれは困難である。
そこで我々は,真の後続分布を近似する設計手法を提案する。
論文 参考訳(メタデータ) (2023-05-07T23:00:47Z) - Enhanced Controllability of Diffusion Models via Feature Disentanglement and Realism-Enhanced Sampling Methods [27.014858633903867]
拡散モデル(FDiff)の特徴分散のためのトレーニングフレームワークを提案する。
本稿では,拡散モデルの現実性を高め,制御性を高める2つのサンプリング手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T07:43:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。