論文の概要: Blockwise Flow Matching: Improving Flow Matching Models For Efficient High-Quality Generation
- arxiv url: http://arxiv.org/abs/2510.21167v1
- Date: Fri, 24 Oct 2025 05:41:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.396083
- Title: Blockwise Flow Matching: Improving Flow Matching Models For Efficient High-Quality Generation
- Title(参考訳): Blockwise Flow Matching: 効率的な高品質生成のためのフローマッチングモデルの改善
- Authors: Dogyun Park, Taehoon Lee, Minseok Joo, Hyunwoo J. Kim,
- Abstract要約: フローマッチングモデルは、幅広い領域にわたる高忠実性データ生成の境界を押し上げている。
生成軌道を複数の時間セグメントに分割する新しいフレームワークであるBlockwise Flow Matching (BFM)を提案する。
BFMは2.1倍から4.9倍の高速化を実現している。
- 参考スコア(独自算出の注目度): 33.177998521195114
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, Flow Matching models have pushed the boundaries of high-fidelity data generation across a wide range of domains. It typically employs a single large network to learn the entire generative trajectory from noise to data. Despite their effectiveness, this design struggles to capture distinct signal characteristics across timesteps simultaneously and incurs substantial inference costs due to the iterative evaluation of the entire model. To address these limitations, we propose Blockwise Flow Matching (BFM), a novel framework that partitions the generative trajectory into multiple temporal segments, each modeled by smaller but specialized velocity blocks. This blockwise design enables each block to specialize effectively in its designated interval, improving inference efficiency and sample quality. To further enhance generation fidelity, we introduce a Semantic Feature Guidance module that explicitly conditions velocity blocks on semantically rich features aligned with pretrained representations. Additionally, we propose a lightweight Feature Residual Approximation strategy that preserves semantic quality while significantly reducing inference cost. Extensive experiments on ImageNet 256x256 demonstrate that BFM establishes a substantially improved Pareto frontier over existing Flow Matching methods, achieving 2.1x to 4.9x accelerations in inference complexity at comparable generation performance. Code is available at https://github.com/mlvlab/BFM.
- Abstract(参考訳): 近年、フローマッチングモデルは、幅広い領域にわたる高忠実度データ生成の境界を押し広げている。
通常、ノイズからデータへの生成軌道全体を学ぶために、単一の大きなネットワークを使用する。
その効果にもかかわらず、この設計はタイムステップ間で異なる信号特性を同時に捉えるのに苦労し、モデル全体の反復的な評価のためにかなりの推論コストを発生させる。
これらの制約に対処するため、我々は、生成軌道を複数の時間セグメントに分割する新しいフレームワークであるBlockwise Flow Matching (BFM)を提案する。
このブロックワイズ設計により、各ブロックが指定された間隔で効果的に専門化でき、推論効率とサンプル品質が向上する。
生成の忠実度をさらに高めるために,予め訓練された表現と整合した意味豊かな特徴に対して,速度ブロックを明示的に条件付けるセマンティック・フィーチャー・ガイダンス・モジュールを導入する。
さらに,推定コストを大幅に削減しつつ,セマンティックな品質を維持する軽量な特徴残差近似手法を提案する。
ImageNet 256x256の大規模な実験により、BFMは既存のフローマッチング法よりもパレートフロンティアを大幅に改善し、2.1倍から4.9倍の高速化を実現した。
コードはhttps://github.com/mlvlab/BFMで入手できる。
関連論文リスト
- Fast-dLLM v2: Efficient Block-Diffusion LLM [64.38006546510337]
Fast-dLLM v2はブロック拡散言語モデルで、訓練済みのARモデルをdLLMに適応して並列テキストを生成する。
これは、Dream(580Bトークン)のようなフルアテンション拡散LDMと比較して、トレーニングデータの500倍の減少を示す。
論文 参考訳(メタデータ) (2025-09-30T14:40:18Z) - Sortblock: Similarity-Aware Feature Reuse for Diffusion Model [9.749736545966694]
Diffusion Transformer (DiTs) は顕著な生成能を示した。
DiTのシーケンシャルな denoising プロセスは、高い推論遅延をもたらす。
トレーニング不要な推論アクセラレーションフレームワークであるSoltblockを提案する。
論文 参考訳(メタデータ) (2025-08-01T08:10:54Z) - Improving Progressive Generation with Decomposable Flow Matching [50.63174319509629]
Decomposable Flow Matching (DFM)は、ビジュアルメディアのプログレッシブな生成のためのシンプルで効果的なフレームワークである。
Imagenet-1k 512pxでは、DFMはベースアーキテクチャよりも35.2%改善され、ベースラインは26.4%向上した。
論文 参考訳(メタデータ) (2025-06-24T17:58:02Z) - DiffMoE: Dynamic Token Selection for Scalable Diffusion Transformers [86.5541501589166]
DiffMoEはバッチレベルのグローバルトークンプールで、トレーニング中に専門家がグローバルトークンの配布にアクセスできるようにする。
ImageNetベンチマークの拡散モデル間での最先端のパフォーマンスを実現する。
このアプローチの有効性は、クラス条件生成を超えて、テキスト・ツー・イメージ生成のようなより困難なタスクにも及んでいる。
論文 参考訳(メタデータ) (2025-03-18T17:57:07Z) - Boundary-aware Decoupled Flow Networks for Realistic Extreme Rescaling [49.215957313126324]
Invertible rescaling Network (IRN) やgenerative adversarial Network (GAN) などを含む最近の生成手法は、画像再スケーリングにおいて例外的な性能を示した。
しかし、IRNベースの手法は過度に滑らかな結果を生成する傾向にあり、一方、GANベースの手法は偽の細部を容易に生成する。
本稿では,現実的かつ視覚的に満足な結果を生成するために,境界対応デカップリングフローネットワーク(BDFlow)を提案する。
論文 参考訳(メタデータ) (2024-05-05T14:05:33Z) - StreamFlow: Streamlined Multi-Frame Optical Flow Estimation for Video
Sequences [31.210626775505407]
連続するフレーム間のオクルージョンは、長い間、光学的フロー推定において重要な課題を提起してきた。
本稿では,ビデオ入力に適したストリーム・イン・バッチ・マルチフレーム(SIM)パイプラインを提案する。
StreamFlowは、挑戦的なKITTIとSintelデータセットのパフォーマンスだけでなく、排他的領域でも特に改善されている。
論文 参考訳(メタデータ) (2023-11-28T07:53:51Z) - Flow Matching in Latent Space [2.9330609943398525]
フローマッチングは、印象的な経験的パフォーマンスを示す生成モデルをトレーニングするフレームワークである。
本稿では,事前学習されたオートエンコーダの潜時空間にフローマッチングを適用し,計算効率を向上させることを提案する。
我々の研究は、条件生成タスクのフローマッチングへの様々な条件の統合における先駆的な貢献である。
論文 参考訳(メタデータ) (2023-07-17T17:57:56Z) - Non-Separable Multi-Dimensional Network Flows for Visual Computing [62.50191141358778]
本研究では,非分離型多次元ネットワークフローに対する新しい定式化法を提案する。
フローは次元ごとに定義されるので、最大化フローは自動的に最適な特徴次元を選択する。
概念実証として,マルチオブジェクト追跡問題にフォーマリズムを適用し,ノイズに対するロバスト性の観点からMOT16ベンチマークのスカラー定式化よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-15T13:21:44Z) - Gradient Sparsification for Efficient Wireless Federated Learning with
Differential Privacy [25.763777765222358]
フェデレートラーニング(FL)により、分散クライアントは、生データを互いに共有することなく、機械学習モデルを協調的にトレーニングできる。
モデルのサイズが大きくなるにつれて、送信帯域の制限によるトレーニングのレイテンシが低下し、個人情報が劣化すると同時に、差分プライバシ(DP)保護を使用する。
我々は、収束性能を犠牲にすることなく、トレーニング効率を向上させるために、FLフレームワーク無線チャネルのスペース化を提案する。
論文 参考訳(メタデータ) (2023-04-09T05:21:15Z) - Low-Latency Federated Learning over Wireless Channels with Differential
Privacy [142.5983499872664]
フェデレートラーニング(FL)では、モデルトレーニングはクライアントに分散し、ローカルモデルは中央サーバによって集約される。
本稿では,各クライアントの差分プライバシ(DP)要件だけでなく,全体としてのトレーニング性能に制約された無線チャネル上でのFLトレーニング遅延を最小限に抑えることを目的とする。
論文 参考訳(メタデータ) (2021-06-20T13:51:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。