論文の概要: Exploring the Design Space of Transition Matching
- arxiv url: http://arxiv.org/abs/2512.12465v1
- Date: Sat, 13 Dec 2025 21:34:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.272813
- Title: Exploring the Design Space of Transition Matching
- Title(参考訳): 遷移マッチングの設計空間の探索
- Authors: Uriel Singer, Yaron Lipman,
- Abstract要約: 本稿では,トランジションマッチング(TM)フレームワークにおける頭部の設計,訓練,サンプリングについて,大規模かつ体系的な調査を行う。
TMは、拡散・流れマッチングモデルと連続状態自己回帰モデルを一般化する生成モデリングの新しいパラダイムである。
- 参考スコア(独自算出の注目度): 28.72249421384186
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transition Matching (TM) is an emerging paradigm for generative modeling that generalizes diffusion and flow-matching models as well as continuous-state autoregressive models. TM, similar to previous paradigms, gradually transforms noise samples to data samples, however it uses a second ``internal'' generative model to implement the transition steps, making the transitions more expressive compared to diffusion and flow models. To make this paradigm tractable, TM employs a large backbone network and a smaller "head" module to efficiently execute the generative transition step. In this work, we present a large-scale, systematic investigation into the design, training and sampling of the head in TM frameworks, focusing on its time-continuous bidirectional variant. Through comprehensive ablations and experimentation involving training 56 different 1.7B text-to-image models (resulting in 549 unique evaluations) we evaluate the affect of the head module architecture and modeling during training as-well as a useful family of stochastic TM samplers. We analyze the impact on generation quality, training, and inference efficiency. We find that TM with an MLP head, trained with a particular time weighting and sampled with high frequency sampler provides best ranking across all metrics reaching state-of-the-art among all tested baselines, while Transformer head with sequence scaling and low frequency sampling is a runner up excelling at image aesthetics. Lastly, we believe the experiments presented highlight the design aspects that are likely to provide most quality and efficiency gains, while at the same time indicate what design choices are not likely to provide further gains.
- Abstract(参考訳): 遷移マッチング(TM)は、拡散・流れマッチングモデルと連続状態自己回帰モデルを一般化する生成モデルのための新しいパラダイムである。
TMは、従来のパラダイムと同様、徐々にノイズサンプルをデータサンプルに変換するが、遷移ステップを実装するために第2の 'internal'' 生成モデルを使用し、拡散や流れモデルと比較して遷移をより表現力のあるものにしている。
このパラダイムを抽出可能にするため、TMは大きなバックボーンネットワークとより小さな"ヘッド"モジュールを使用して、生成遷移ステップを効率的に実行する。
本研究では,TMフレームワークにおける頭部の設計,訓練,サンプリングに関する大規模かつ体系的な研究を行い,その経時的双方向変動に着目した。
56の異なる1.7Bのテキスト・ツー・イメージ・モデル(549のユニークな評価)のトレーニングを含む総合的な改善と実験を通じて,頭部モジュールのアーキテクチャとモデリングが,確率的TMサンプリングの有用なファミリーとして有用であることを評価した。
生成品質、トレーニング、推論効率への影響を分析します。
MLPヘッドを用いたTMは、特定の時間重み付けでトレーニングされ、高頻度サンプリング器でサンプリングされ、テストされたすべてのベースラインのうち、最先端まで到達する全ての指標で最高のランキングを提供するのに対し、シーケンシャルスケーリングと低周波サンプリングのトランスフォーマーヘッドは、画像美学に優れたランナーである。
最後に、実験の結果は、最も品質と効率のよいものを提供する可能性のある設計面を強調し、同時に、どのような設計選択が更なる利益をもたらすことはないかを示唆していると信じています。
関連論文リスト
- Improving Progressive Generation with Decomposable Flow Matching [50.63174319509629]
Decomposable Flow Matching (DFM)は、ビジュアルメディアのプログレッシブな生成のためのシンプルで効果的なフレームワークである。
Imagenet-1k 512pxでは、DFMはベースアーキテクチャよりも35.2%改善され、ベースラインは26.4%向上した。
論文 参考訳(メタデータ) (2025-06-24T17:58:02Z) - Large EEG-U-Transformer for Time-Step Level Detection Without Pre-Training [1.3254304182988286]
局所的特徴と大域的特徴の両方を捉えることで表現を効率的に学習する単純なU字モデルを提案する。
他のウィンドウレベルの分類モデルと比較して,本手法は時間段階の予測を直接出力する。
我々のモデルは、てんかんおよび他の神経疾患における人工知能に関する国際会議において、2025年の第1回「青信号検出チャレンジ」で優勝した。
論文 参考訳(メタデータ) (2025-04-01T01:33:42Z) - Latent Thought Models with Variational Bayes Inference-Time Computation [52.63299874322121]
ラテント思考モデル(LTM)は、ラテント空間における明示的な事前モデルに従う明示的なラテント思考ベクトルを包含する。
LTMは自己回帰モデルや離散拡散モデルよりも優れたサンプルおよびパラメータ効率を示す。
論文 参考訳(メタデータ) (2025-02-03T17:50:34Z) - Visual Fourier Prompt Tuning [63.66866445034855]
本稿では,大規模なトランスフォーマーモデルに適用するための汎用的で効果的な方法として,Visual Fourier Prompt Tuning (VFPT)法を提案する。
提案手法では,高速フーリエ変換を即時埋め込みに取り入れ,空間領域情報と周波数領域情報の両方を調和的に検討する。
提案手法は,2つのベンチマークにおいて,現状のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-11-02T18:18:35Z) - Improving Efficiency of Diffusion Models via Multi-Stage Framework and Tailored Multi-Decoder Architectures [12.703947839247693]
拡散モデルは強力な深層生成ツールとして登場し、様々な応用に優れている。
しかし、その顕著な生成性能は、遅いトレーニングとサンプリングによって妨げられている。
これは、広範囲の前方および逆拡散軌道を追跡する必要があるためである。
本稿では,これらの課題に対処するための経験的知見から着想を得た多段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-14T17:48:09Z) - Guided Flows for Generative Modeling and Decision Making [55.42634941614435]
その結果,ガイドフローは条件付き画像生成やゼロショット音声合成におけるサンプル品質を著しく向上させることがわかった。
特に、我々は、拡散モデルと比較して、オフライン強化学習設定axスピードアップにおいて、まず、計画生成にフローモデルを適用する。
論文 参考訳(メタデータ) (2023-11-22T15:07:59Z) - Model ensemble instead of prompt fusion: a sample-specific knowledge
transfer method for few-shot prompt tuning [85.55727213502402]
我々は、ソースタスクのソフトプロンプトから知識を伝達することで、プロンプトチューニングにおける数ショットのパフォーマンスを改善することに集中する。
我々はソースモデル(SESoM)のサンプル固有アンサンブルを提案する。
SESoMは、ソースモデルが出力されるときに、ターゲットの各サンプルに対するソースモデルのコントリビューションを個別に調整することを学ぶ。
論文 参考訳(メタデータ) (2022-10-23T01:33:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。