論文の概要: High-Order Matching for One-Step Shortcut Diffusion Models
- arxiv url: http://arxiv.org/abs/2502.00688v1
- Date: Sun, 02 Feb 2025 06:19:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:05:31.103715
- Title: High-Order Matching for One-Step Shortcut Diffusion Models
- Title(参考訳): ワンステップショートカット拡散モデルの高次マッチング
- Authors: Bo Chen, Chengyue Gong, Xiaoyu Li, Yingyu Liang, Zhizhou Sha, Zhenmei Shi, Zhao Song, Mingda Wan,
- Abstract要約: 一段階のショートカット拡散モデルでは、視覚発生の可能性を示している。
ショートカットモデルの単純速度のみのアプローチは、固有の多様体の幾何学を捉えるのに失敗する。
我々は、高次監督を利用して流通輸送に革命をもたらすフレームワークHOMOを紹介する。
- 参考スコア(独自算出の注目度): 38.402723496998746
- License:
- Abstract: One-step shortcut diffusion models [Frans, Hafner, Levine and Abbeel, ICLR 2025] have shown potential in vision generation, but their reliance on first-order trajectory supervision is fundamentally limited. The Shortcut model's simplistic velocity-only approach fails to capture intrinsic manifold geometry, leading to erratic trajectories, poor geometric alignment, and instability-especially in high-curvature regions. These shortcomings stem from its inability to model mid-horizon dependencies or complex distributional features, leaving it ill-equipped for robust generative modeling. In this work, we introduce HOMO (High-Order Matching for One-Step Shortcut Diffusion), a game-changing framework that leverages high-order supervision to revolutionize distribution transportation. By incorporating acceleration, jerk, and beyond, HOMO not only fixes the flaws of the Shortcut model but also achieves unprecedented smoothness, stability, and geometric precision. Theoretically, we prove that HOMO's high-order supervision ensures superior approximation accuracy, outperforming first-order methods. Empirically, HOMO dominates in complex settings, particularly in high-curvature regions where the Shortcut model struggles. Our experiments show that HOMO delivers smoother trajectories and better distributional alignment, setting a new standard for one-step generative models.
- Abstract(参考訳): 1段階のショートカット拡散モデル (Frans, Hafner, Levine, Abbeel, ICLR 2025) は視覚発生の可能性を示しているが、一階軌道監視への依存は基本的に限定的である。
ショートカットモデルの単純速度のみのアプローチは、固有多様体の幾何を捉えることに失敗し、不規則な軌道、幾何学的アライメントの貧弱、不安定性(特に高曲率領域)をもたらす。
これらの欠点は、水平方向の依存関係や複雑な分布の特徴をモデル化できないことに起因する。
本研究では,高次監督を利用して流通輸送に革命をもたらすゲーム交換フレームワークHOMO(High-Order Matching for One-Step Shortcut Diffusion)を紹介する。
加速度、ジャーク、その他を組み込むことで、HOMOはショートカットモデルの欠陥を修正するだけでなく、前例のない滑らかさ、安定性、幾何学的精度を達成する。
理論的には、HOMOの高次監督により、より優れた近似精度が保証され、一階法よりも優れたことが証明される。
実証的に、HOMOは複雑な設定、特にショートカットモデルが苦労する高い曲率の領域で優位である。
実験の結果,HOMOはよりスムーズな軌道とより良い分布アライメントを提供し,一段階生成モデルのための新しい標準を設定できることがわかった。
関連論文リスト
- Merging Models on the Fly Without Retraining: A Sequential Approach to Scalable Continual Model Merging [75.93960998357812]
ディープモデルマージ(Deep Modelmerging)は、複数の微調整モデルを組み合わせて、さまざまなタスクやドメインにまたがる能力を活用する、新たな研究方向を示すものだ。
現在のモデルマージ技術は、全ての利用可能なモデルを同時にマージすることに集中しており、重量行列に基づく手法が主要なアプローチである。
本稿では,モデルを逐次処理するトレーニングフリーなプロジェクションベース連続マージ手法を提案する。
論文 参考訳(メタデータ) (2025-01-16T13:17:24Z) - Deep Autoencoder with SVD-Like Convergence and Flat Minima [1.0742675209112622]
我々は,コルモゴロフ障壁を克服するために,学習可能な重み付きハイブリッドオートエンコーダを提案する。
トレーニングされたモデルは、他のモデルに比べて何千倍もシャープさが小さいことを実証的に見出した。
論文 参考訳(メタデータ) (2024-10-23T00:04:26Z) - SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - Broadening Target Distributions for Accelerated Diffusion Models via a Novel Analysis Approach [49.97755400231656]
本研究では,新しいDDPMサンプリング器が,これまで考慮されていなかった3種類の分散クラスに対して高速化性能を実現することを示す。
この結果から, DDPM型加速サンプリング器におけるデータ次元$d$への依存性が改善された。
論文 参考訳(メタデータ) (2024-02-21T16:11:47Z) - STGlow: A Flow-based Generative Framework with Dual Graphormer for
Pedestrian Trajectory Prediction [22.553356096143734]
歩行者軌跡予測(STGlow)のための二重グラフマーを用いた新しい生成フローベースフレームワークを提案する。
本手法は,動作の正確なログライクな振る舞いを最適化することにより,基礎となるデータ分布をより正確にモデル化することができる。
いくつかのベンチマークによる実験結果から,本手法は従来の最先端手法に比べて性能が向上することが示された。
論文 参考訳(メタデータ) (2022-11-21T07:29:24Z) - Self-Supervised Hybrid Inference in State-Space Models [0.0]
我々は、潜在空間における非線形高階マルコフ連鎖を許容する状態空間モデルにおいて近似推論を行う。
生成モデルや監督のパラメータ化を、未破損の観測や真理潜伏状態による追加のパラメータ化に頼ってはいない。
カオスロレンツシステムにおいて,完全教師付きアプローチと比較して競合的な結果を得るとともに,変分推論に基づく手法よりも優れることを示す。
論文 参考訳(メタデータ) (2021-07-28T13:26:14Z) - Scaling Hidden Markov Language Models [118.55908381553056]
この研究は、HMMを言語モデリングデータセットに拡張するという課題を再考する。
本研究では,HMMを大規模状態空間に拡張する手法を提案する。
論文 参考訳(メタデータ) (2020-11-09T18:51:55Z) - Generative Model-Enhanced Human Motion Prediction [3.3073775218038883]
我々はHuman3.6MとCMUモーションキャプチャデータセットに基づく新しいOoDベンチマークを定式化する。
我々は差別的アーキテクチャをOoD失敗に固定化するためのハイブリッドフレームワークを導入し、それらを生成モデルで拡張する。
論文 参考訳(メタデータ) (2020-10-05T17:04:34Z) - Haar Wavelet based Block Autoregressive Flows for Trajectories [129.37479472754083]
歩行者等の軌道予測は,自律型エージェントの性能向上に不可欠である。
本稿では分割結合を利用した新しいハールウェーブレットに基づくブロック自己回帰モデルを提案する。
実世界の2つのデータセット上で、多種多様な正確な軌跡を生成するアプローチの利点について説明する。
論文 参考訳(メタデータ) (2020-09-21T13:57:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。