論文の概要: Terminal Velocity Matching
- arxiv url: http://arxiv.org/abs/2511.19797v1
- Date: Mon, 24 Nov 2025 23:55:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.208057
- Title: Terminal Velocity Matching
- Title(参考訳): 終端速度マッチング
- Authors: Linqi Zhou, Mathias Parger, Ayaan Haque, Jiaming Song,
- Abstract要約: 本稿では,高忠実度1段階と少数段階の生成モデルを実現するための流れマッチングの一般化である終端速度マッチング(TVM)を提案する。
TVMは2つの拡散タイムステップ間の遷移をモデル化し、その動作を初期時刻ではなく終点時刻で規則化する。
モデルがリプシッツ連続であるとき、TVMはデータとモデル分布の間の2ドルワッサーシュタイン距離の上限を提供する。
- 参考スコア(独自算出の注目度): 28.501512829631924
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose Terminal Velocity Matching (TVM), a generalization of flow matching that enables high-fidelity one- and few-step generative modeling. TVM models the transition between any two diffusion timesteps and regularizes its behavior at its terminal time rather than at the initial time. We prove that TVM provides an upper bound on the $2$-Wasserstein distance between data and model distributions when the model is Lipschitz continuous. However, since Diffusion Transformers lack this property, we introduce minimal architectural changes that achieve stable, single-stage training. To make TVM efficient in practice, we develop a fused attention kernel that supports backward passes on Jacobian-Vector Products, which scale well with transformer architectures. On ImageNet-256x256, TVM achieves 3.29 FID with a single function evaluation (NFE) and 1.99 FID with 4 NFEs. It similarly achieves 4.32 1-NFE FID and 2.94 4-NFE FID on ImageNet-512x512, representing state-of-the-art performance for one/few-step models from scratch.
- Abstract(参考訳): 本稿では,高忠実度1段階と少数段階の生成モデリングが可能な流れマッチングの一般化である終端速度マッチング(TVM)を提案する。
TVMは2つの拡散タイムステップ間の遷移をモデル化し、その動作を初期時刻ではなく終点時刻で規則化する。
モデルがリプシッツ連続であるとき、TVMはデータとモデル分布の間の2ドルワッサーシュタイン距離の上限を提供する。
しかし、Diffusion Transformerはこの特性を欠いているため、安定した単段階トレーニングを実現する最小限のアーキテクチャ変更を導入する。
実際にTVMを効率よくするために,トランスフォーマーアーキテクチャによく適合するJacobian-Vector Productsの後方通過をサポートするファステッドアテンションカーネルを開発した。
ImageNet-256x256では、TVMは1つの関数評価(NFE)を持つ3.29 FIDと4つのNFEを持つ1.99 FIDを達成する。
同様に、ImageNet-512x512で4.32の1-NFE FIDと2.94の4-NFE FIDを達成し、1/2ステップモデルでスクラッチから最先端のパフォーマンスを表現している。
関連論文リスト
- MeanFlow Transformers with Representation Autoencoders [71.45823902973349]
MeanFlow(MF)は、ノイズからデータへのジャンプを直接学習することで、効率的な数ステップ生成を可能にする拡散動機付き生成モデルである。
我々は、表現オートエンコーダ(RAE)の潜在空間におけるMFの効率的なトレーニングとサンプリング手法を開発する。
1ステップのFIDが2.03であり,バニラMFの3.43を上回っ,GFLOPSのサンプリングを38%削減し,ImageNet 256のトレーニングコストを83%削減した。
論文 参考訳(メタデータ) (2025-11-17T06:17:08Z) - StreamDiffusionV2: A Streaming System for Dynamic and Interactive Video Generation [65.90400162290057]
生成モデルは、コンテンツの作り方、スタイル、配信方法を再定義することで、ライブストリーミング業界を変革している。
ビデオ拡散の最近の進歩は、オフライン生成のための時間的一貫性とサンプリング効率を著しく改善した。
ライブオンラインストリーミングは厳しいサービスレベル(SLO)の下で動作します。 タイム・ツー・ファーストフレームは最小限でなければなりません。
論文 参考訳(メタデータ) (2025-11-10T18:51:28Z) - Decoupled MeanFlow: Turning Flow Models into Flow Maps for Accelerated Sampling [68.76215229126886]
Decoupled MeanFlowは、フローモデルをアーキテクチャ変更なしにフローマップモデルに変換するシンプルなデコード戦略である。
提案手法では, 拡散変圧器の最終ブロックを後続の時間ステップに設定し, 事前学習した流れモデルを直接フローマップとして再利用する。
ImageNet 256x256 と 512x512 では、われわれのモデルはそれぞれ2.16 と2.12 の1ステップ FID に達し、先行技術よりも大きなマージンで上回っている。
論文 参考訳(メタデータ) (2025-10-28T14:43:48Z) - DiCo: Revitalizing ConvNets for Scalable and Efficient Diffusion Modeling [41.128461167768805]
Diffusion Transformer (DiT) は、視覚生成のための有望な拡散モデルであるが、計算オーバーヘッドが大きい。
我々は、効率的かつ表現力のある拡散モデルを構築するための代替ビルディングブロックとして、畳み込みを再考する。
DiCo-XLは256x256のFIDと512x512のFID、2.7xと3.1xのスピードアップをそれぞれDiT-XL/2で達成している。
論文 参考訳(メタデータ) (2025-05-16T12:54:04Z) - FastViT: A Fast Hybrid Vision Transformer using Structural
Reparameterization [14.707312504365376]
我々は、最先端のレイテンシ-精度トレードオフを得るハイブリッドビジョントランスフォーマーアーキテクチャであるFastViTを紹介する。
我々は,当社のモデルがCMTの3.5倍,EfficientNetの4.9倍,モバイルデバイスのConvNeXtの1.9倍で,ImageNetデータセットと同じ精度であることを示す。
論文 参考訳(メタデータ) (2023-03-24T17:58:32Z) - MossFormer: Pushing the Performance Limit of Monaural Speech Separation
using Gated Single-Head Transformer with Convolution-Augmented Joint
Self-Attentions [26.862052778354016]
畳み込み強化された自己アテンションを持つシングルヘッドゲートトランスアーキテクチャであるtextitMossFormer を提案する。
MossFormer は、WSJ0-2/3mix と WHAM!
論文 参考訳(メタデータ) (2023-02-23T07:17:12Z) - An Empirical Study of Training End-to-End Vision-and-Language
Transformers [50.23532518166621]
我々はMETER(textbfMultimodal textbfEnd-to-end textbfTransformtextbfER)を提案する。
具体的には、視覚エンコーダ(例えば、CLIP-ViT、Swin変換器)、テキストエンコーダ(例えば、RoBERTa、DeBERTa)、マルチモーダルフュージョン(例えば、マージアテンション対共振器)である。
論文 参考訳(メタデータ) (2021-11-03T17:55:36Z) - Global Vision Transformer Pruning with Hessian-Aware Saliency [93.33895899995224]
この研究はヴィジュアルトランスフォーマー(ViT)モデルの共通設計哲学に挑戦する。
遅延を意識した規則化による直接遅延低減を実現し,すべての層や構造に匹敵する新しいヘッセン型構造解析基準を導出する。
DeiT-Baseモデルで反復的なプルーニングを実行すると、NViT(Novel ViT)と呼ばれる新しいアーキテクチャファミリが生まれ、パラメータをより効率的に利用する新しいパラメータが現れる。
論文 参考訳(メタデータ) (2021-10-10T18:04:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。