論文の概要: Exploring and Exploiting Stability in Latent Flow Matching
- arxiv url: http://arxiv.org/abs/2605.08398v1
- Date: Fri, 08 May 2026 19:04:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:49.613525
- Title: Exploring and Exploiting Stability in Latent Flow Matching
- Title(参考訳): 潜流整合の探索と爆発安定性
- Authors: Rania Briq, Michael Kamp, Ohad Fried, Sarel Cohen, Stefan Kesselheim,
- Abstract要約: 本研究では,Latent Flow-Matching(LFM)モデルがデータ削減やモデル容量縮小など,さまざまな種類の摂動に対して堅牢であることを示す。
この安定性を利用して、より効率的なトレーニングと推論のための実用的なアルゴリズムを導出します。
- 参考スコア(独自算出の注目度): 16.778525121536074
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we show that Latent Flow-Matching (LFM) models are robust to different types of perturbations, including data reduction and model capacity shrinkage. We characterize this stability by their tendency to generate similar outputs under identical noise seeds. We provide a perspective relating this phenomenon to flow matching theory, which indicates that this stability is inherent to the FM objective. We further exploit this stability to derive practical algorithms for more efficient training and inference. Concretely, first, we show that by training LFM models on significantly reduced datasets, the performance does not degrade perceptually or quantitatively. This yields multiple advantages, such as reducing training time by converging faster under limited compute budget, and alleviating annotation effort when training conditional models. Second, LFM stability under architectural shrinkage gives rise to a two-model coarse-to-fine approach, one using a light-weight architecture for the first phase of the FM trajectory, and one with higher capacity for the second, thereby reducing the inference cost substantially. To determine which samples are informative, we introduce three sample-scoring criteria and evaluate them under standard metrics for generative models. Our results are thoroughly evaluated on multiple datasets, demonstrating the practical advantage of this stability, including data saving and a more than two-fold inference speedup while generating comparable outputs.
- Abstract(参考訳): 本研究では,Latent Flow-Matching(LFM)モデルが,データ削減やモデル容量縮小など,さまざまな種類の摂動に対して堅牢であることを示す。
我々は、この安定性を、同じノイズシードの下で同様の出力を生成する傾向によって特徴づける。
本稿では,この現象と流れマッチング理論の関係を考察し,この安定性がFMの目的に固有のものであることを示す。
さらに、この安定性を活用して、より効率的なトレーニングと推論のための実用的なアルゴリズムを導出します。
具体的には,まず,LFMモデルを大幅に縮小したデータセット上でトレーニングすることにより,その性能が知覚的,定量的に低下しないことを示す。
これは、限られた計算予算の下でより速く収束することでトレーニング時間を短縮し、条件付きモデルをトレーニングする際のアノテーションの労力を軽減するなど、多くの利点をもたらす。
第2に、アーキテクチャ収縮下でのLFM安定性は、FM軌道の第1フェーズに軽量アーキテクチャを用い、第2フェーズに高いキャパシティを有するアーキテクチャを用いて、2モデル間粗大化のアプローチをもたらすため、推論コストを大幅に削減する。
そこで本研究では,どのサンプルが有意であるかを判定するために,3つのサンプルスコア基準を導入し,それらを生成モデルのための標準指標で評価する。
結果は複数のデータセットで徹底的に評価され、データ保存や2倍以上の推論スピードアップを含む、この安定性の実用的利点を実証し、同等の出力を生成する。
関連論文リスト
- Modest-Align: Data-Efficient Alignment for Vision-Language Models [67.48633659305592]
クロスモーダルアライメントモデルは、リソース制約のある環境での運用において、過信と劣化したパフォーマンスに悩まされることが多い。
我々は,ロバスト性と効率性に配慮した軽量アライメントフレームワークであるModest-Alignを提案する。
本手法は,実世界の低リソースシナリオにおけるクロスモーダルアライメントを実現するための,実用的でスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2025-10-24T16:11:10Z) - MaP: A Unified Framework for Reliable Evaluation of Pre-training Dynamics [72.00014675808228]
大規模言語モデルの不安定性評価プロセスは、真の学習力学を曖昧にする。
textbfMaPは、アンダーラインMergingアンダーラインとアンダーラインPass@kメトリックを統合するフレームワークです。
実験により、MaPはよりスムーズな性能曲線を示し、ラン間分散を低減し、より一貫性のあるランキングを保証する。
論文 参考訳(メタデータ) (2025-10-10T11:40:27Z) - Efficient Perplexity Bound and Ratio Matching in Discrete Diffusion Language Models [0.0]
データと学習分布のKL分散に関する3つの新しい定理を導入する。
クリーンなデータと破損したデータの相互エントロピーを最小化することにより、スコアエントロピーを利用したモデルよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2025-07-06T10:54:37Z) - Adaptive Cubic Regularized Second-Order Latent Factor Analysis Model [14.755426957558868]
高次元および不完全HDIデータセットは、様々な現実世界のアプリケーションに広く普及している。
本稿では,情報不安定を緩和するための2つのアプローチを提案する。
ACRS HDIは、ALFが高速進行(SACR)モデルよりも高い表現を示すことを示した。
論文 参考訳(メタデータ) (2025-07-03T03:15:54Z) - Solving Inverse Problems with FLAIR [68.87167940623318]
本稿では,フローベース生成モデルを逆問題に先立って活用する学習自由変分フレームワークFLAIRを提案する。
標準画像ベンチマークの結果、FLAIRは再現性やサンプルの多様性の観点から、既存の拡散法や流れ法よりも一貫して優れていることが示された。
論文 参考訳(メタデータ) (2025-06-03T09:29:47Z) - A Theoretical Perspective: How to Prevent Model Collapse in Self-consuming Training Loops [55.07063067759609]
高品質なデータは大規模な生成モデルのトレーニングには不可欠だが、オンラインで利用可能な実際のデータの膨大な蓄積はほとんど枯渇している。
モデルは、さらなるトレーニングのために独自のデータを生成し、自己消費訓練ループ(STL)を形成する。
一部のモデルは劣化または崩壊するが、他のモデルはこれらの失敗をうまく回避し、理論的な理解にかなりのギャップを残している。
論文 参考訳(メタデータ) (2025-02-26T06:18:13Z) - Improving Consistency Models with Generator-Augmented Flows [16.049476783301724]
一貫性モデルは、ニューラルネットワークの単一前方通過におけるスコアベース拡散の多段階サンプリングを模倣する。
それらは、一貫性の蒸留と一貫性のトレーニングの2つの方法を学ぶことができる。
本稿では,一貫性モデルから得られたノイズデータを対応する出力へ転送する新しい流れを提案する。
論文 参考訳(メタデータ) (2024-06-13T20:22:38Z) - The Missing U for Efficient Diffusion Models [3.712196074875643]
拡散確率モデル(Diffusion Probabilistic Models)は、画像合成、ビデオ生成、分子設計などのタスクにおいて、記録破りのパフォーマンスをもたらす。
それらの能力にもかかわらず、その効率、特に逆過程では、収束速度が遅いことと計算コストが高いため、依然として課題である。
本研究では,連続力学系を利用した拡散モデルのための新しいデノナイジングネットワークの設計手法を提案する。
論文 参考訳(メタデータ) (2023-10-31T00:12:14Z) - The Surprising Effectiveness of Diffusion Models for Optical Flow and
Monocular Depth Estimation [42.48819460873482]
拡散確率モデルは、その印象的な忠実さと多様性で画像生成を変換した。
また,タスク固有のアーキテクチャや損失関数を使わずに,光学的フローと単眼深度の推定に優れることを示す。
論文 参考訳(メタデータ) (2023-06-02T21:26:20Z) - Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル
GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。
本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T15:32:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。