論文の概要: Transition Matching: Scalable and Flexible Generative Modeling
- arxiv url: http://arxiv.org/abs/2506.23589v1
- Date: Mon, 30 Jun 2025 07:51:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.96317
- Title: Transition Matching: Scalable and Flexible Generative Modeling
- Title(参考訳): トランジションマッチング:スケーラブルでフレキシブルな生成モデリング
- Authors: Neta Shaul, Uriel Singer, Itai Gat, Yaron Lipman,
- Abstract要約: 本稿では,拡散流モデルと連続AR生成の両方を統一・発展させる離散時間連続状態生成パラダイムであるTransition Matching(TM)を紹介する。
TMは複雑な生成タスクをより単純なマルコフ遷移に分解し、表現的な非決定論的確率遷移カーネルと任意の非連続的な監督プロセスを可能にする。
- 参考スコア(独自算出の注目度): 36.605030979361516
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion and flow matching models have significantly advanced media generation, yet their design space is well-explored, somewhat limiting further improvements. Concurrently, autoregressive (AR) models, particularly those generating continuous tokens, have emerged as a promising direction for unifying text and media generation. This paper introduces Transition Matching (TM), a novel discrete-time, continuous-state generative paradigm that unifies and advances both diffusion/flow models and continuous AR generation. TM decomposes complex generation tasks into simpler Markov transitions, allowing for expressive non-deterministic probability transition kernels and arbitrary non-continuous supervision processes, thereby unlocking new flexible design avenues. We explore these choices through three TM variants: (i) Difference Transition Matching (DTM), which generalizes flow matching to discrete-time by directly learning transition probabilities, yielding state-of-the-art image quality and text adherence as well as improved sampling efficiency. (ii) Autoregressive Transition Matching (ARTM) and (iii) Full History Transition Matching (FHTM) are partially and fully causal models, respectively, that generalize continuous AR methods. They achieve continuous causal AR generation quality comparable to non-causal approaches and potentially enable seamless integration with existing AR text generation techniques. Notably, FHTM is the first fully causal model to match or surpass the performance of flow-based methods on text-to-image task in continuous domains. We demonstrate these contributions through a rigorous large-scale comparison of TM variants and relevant baselines, maintaining a fixed architecture, training data, and hyperparameters.
- Abstract(参考訳): 拡散およびフローマッチングモデルにはメディア生成が大幅に進歩するが、その設計空間は十分に探索されており、若干改善が制限されている。
同時に、自動回帰(AR)モデル、特に連続トークンを生成するモデルは、テキストとメディアを統一するための有望な方向として現れている。
本稿では,拡散流モデルと連続AR生成の両方を統一・発展させる離散時間連続状態生成パラダイムであるTransition Matching(TM)を紹介する。
TMは複雑な生成タスクをより単純なマルコフ遷移に分解し、表現力のある非決定論的確率遷移カーネルと任意の非連続的な監視プロセスを可能にし、新しいフレキシブルな設計経路を解放する。
3つのTM変種を通してこれらの選択を探索する。
一 差分遷移マッチング(DTM)は、遷移確率を直接学習し、最先端の画像品質とテキストの付着性を付与し、サンプリング効率を向上させることにより、離散時間へのフローマッチングを一般化する。
(II)自己回帰遷移マッチング(ARTM)と
3) 完全履歴遷移マッチング(FHTM)は, 連続AR手法を一般化した部分的および完全因果モデルである。
それらは、非因果アプローチに匹敵する継続的因果AR生成品質を実現し、既存のARテキスト生成技術とのシームレスな統合を可能にする可能性がある。
特に、FHTMは、連続したドメインにおけるテキスト・ツー・イメージ・タスクにおけるフローベースのメソッドのパフォーマンスを一致または上回る最初の完全な因果モデルである。
これらの貢献は、TM変種と関連するベースラインの厳密な大規模比較を通じて実証され、固定されたアーキテクチャ、トレーニングデータ、ハイパーパラメータが維持される。
関連論文リスト
- Improving Progressive Generation with Decomposable Flow Matching [50.63174319509629]
Decomposable Flow Matching (DFM)は、ビジュアルメディアのプログレッシブな生成のためのシンプルで効果的なフレームワークである。
Imagenet-1k 512pxでは、DFMはベースアーキテクチャよりも35.2%改善され、ベースラインは26.4%向上した。
論文 参考訳(メタデータ) (2025-06-24T17:58:02Z) - Solving Inverse Problems with FLAIR [59.02385492199431]
フローベースの潜在生成モデルは、驚くべき品質の画像を生成でき、テキスト・ツー・イメージ生成も可能である。
本稿では,フローベース生成モデルを逆問題の前兆として活用する新しい学習自由変分フレームワークFLAIRを提案する。
標準画像ベンチマークの結果、FLAIRは再現性やサンプルの多様性の観点から、既存の拡散法や流れ法よりも一貫して優れていることが示された。
論文 参考訳(メタデータ) (2025-06-03T09:29:47Z) - FUDOKI: Discrete Flow-based Unified Understanding and Generation via Kinetic-Optimal Velocities [76.46448367752944]
MLLM(Multimodal large language model)は、単一のフレームワーク内で視覚的理解と画像生成を統一する言語である。
ほとんどの既存のMLLMはAutore(AR)アーキテクチャに依存しており、将来の開発に固有の制限を課している。
本稿では,離散フローマッチングに基づく統一マルチモーダルモデルであるFUDOKIを紹介する。
論文 参考訳(メタデータ) (2025-05-26T15:46:53Z) - Fast Autoregressive Models for Continuous Latent Generation [49.079819389916764]
自己回帰モデルは、特にNLPにおいて、シーケンシャルなデータ生成において顕著な成功を収めている。
最近の研究で、マスク付き自己回帰モデル(MAR)は拡散ヘッドを用いて連続空間内のトーケン分布をモデル化することによって量子化をバイパスする。
本稿では,MARの拡散ヘッドを軽量ショートカットヘッドに置き換える新しいフレームワークであるFast AutoRegressive Model (FAR)を提案する。
論文 参考訳(メタデータ) (2025-04-24T13:57:08Z) - FELLE: Autoregressive Speech Synthesis with Token-Wise Coarse-to-Fine Flow Matching [51.32059240975148]
FELLEは、言語モデリングとトークンワイドフローマッチングを統合する自動回帰モデルである。
各連続値トークンに対して、FELLEは、前ステップからの情報を組み込んで、フローマッチングにおける一般的な事前分布を変更する。
FELLEは、言語モデルの出力に基づいて階層的に連続値のトークンを生成する。
論文 参考訳(メタデータ) (2025-02-16T13:54:32Z) - GRAMA: Adaptive Graph Autoregressive Moving Average Models [26.755971450887333]
本稿では,学習可能な自動回帰移動平均(ARMA)フレームワークに基づくグラフ適応手法であるGRAMAを紹介する。
静的グラフデータからシーケンシャルグラフデータへの変換により、GRAMAは効率的で柔軟な長距離情報伝搬を可能にする。
また、GRAMAと選択SSMの理論的関係を確立し、長距離依存関係をキャプチャする能力に関する洞察を提供する。
論文 参考訳(メタデータ) (2025-01-22T09:09:17Z) - RDPM: Solve Diffusion Probabilistic Models via Recurrent Token Prediction [17.005198258689035]
拡散確率モデル(DPM)は、高忠実度画像合成のデファクトアプローチとして登場した。
本稿では, 再帰的拡散確率モデル(RDPM, Recurrent Diffusion Probabilistic Model)を提案する。
論文 参考訳(メタデータ) (2024-12-24T12:28:19Z) - TS-HTFA: Advancing Time Series Forecasting via Hierarchical Text-Free Alignment with Large Language Models [14.411646409316624]
時系列予測の新しい手法である textbfHierarchical textbfText-textbfFree textbfAlignment (textbfTS-HTFA) を導入する。
我々は、QR分解語埋め込みと学習可能なプロンプトに基づいて、ペア化されたテキストデータを適応的な仮想テキストに置き換える。
複数の時系列ベンチマークの実験は、HTFAが最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2024-09-23T12:57:24Z) - Diffusion Glancing Transformer for Parallel Sequence to Sequence
Learning [52.72369034247396]
モーダリティ拡散プロセスと残差グランシングサンプリングを併用した拡散グランシング変換器を提案する。
DIFFGLATは、自己回帰モデルと非自己回帰モデルの両方と比較して、高速な復号速度を維持しながら、より優れた生成精度を実現する。
論文 参考訳(メタデータ) (2022-12-20T13:36:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。