論文の概要: Towards Faster Language Model Inference Using Mixture-of-Experts Flow Matching
- arxiv url: http://arxiv.org/abs/2604.15009v1
- Date: Thu, 16 Apr 2026 13:36:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.923493
- Title: Towards Faster Language Model Inference Using Mixture-of-Experts Flow Matching
- Title(参考訳): Mixture-of-Experts Flow Matching を用いた言語モデル推論の高速化
- Authors: Aihua Li,
- Abstract要約: 我々は,Transformer と Mamba アーキテクチャを併用した非自己回帰型 (NAR) 言語モデリング手法 YAN を開発した。
複数の下流タスク全体で、YANは自動回帰(AR)と拡散ベースのNAR言語モデルの両方に匹敵する生成品質を達成し、サンプリングステップはわずか3ステップで済む。
これにより、ARベースラインよりも40倍のスピードアップ、拡散言語モデルよりも最大103倍のスピードアップが得られる。
- 参考スコア(独自算出の注目度): 1.4653929698362125
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Flow matching retains the generation quality of diffusion models while enabling substantially faster inference, making it a compelling paradigm for generative modeling. However, when applied to language modeling, it exhibits fundamental limitations in representing complex latent distributions with irregular geometries, such as anisotropy and multimodality. To address these challenges, we propose a mixture-of-experts flow matching (MoE-FM) framework, which captures complex global transport geometries in latent space by decomposing them into locally specialized vector fields. Building on MoE-FM, we develop a non-autoregressive (NAR) language modeling approach, named YAN, instantiated with both Transformer and Mamba architectures. Across multiple downstream tasks, YAN achieves generation quality on par with both autoregressive (AR) and diffusion-based NAR language models, while requiring as few as three sampling steps. This yields a $40\times$ speedup over AR baselines and up to a $10^3\times$ speedup over diffusion language models, demonstrating substantial efficiency advantages for language modeling.
- Abstract(参考訳): フローマッチングは拡散モデルの生成品質を維持しつつ、かなり高速な推論を可能にし、生成モデルにとって魅力的なパラダイムである。
しかし、言語モデリングに適用すると、非等方性や多モード性のような不規則な測地を持つ複素潜伏分布の基本的な制限が現れる。
これらの課題に対処するため、我々は、局所的に専門化されたベクトル場に分解することで、潜在空間における複雑なグローバルトランスポートジオメトリをキャプチャする、ME-FM(mixed-of-experts flow matching)フレームワークを提案する。
MoE-FM をベースとして,Transformer と Mamba アーキテクチャを併用した非自己回帰型 (NAR) 言語モデリング手法 YAN を開発した。
複数の下流タスク全体で、YANは自動回帰(AR)と拡散ベースのNAR言語モデルの両方に匹敵する生成品質を達成し、サンプリングステップはわずか3ステップで済む。
これにより、ARベースラインよりも40\times$のスピードアップと、拡散言語モデルよりも10^3\times$のスピードアップが得られる。
関連論文リスト
- Omni-Diffusion: Unified Multimodal Understanding and Generation with Masked Discrete Diffusion [66.78268790956493]
オムニ・ディフュージョン(Omni-Diffusion)は、マスクベースの離散拡散モデルに基づいて構築された、最初の任意のマルチモーダル言語モデルである。
本手法は2つ以上のモダリティを処理する既存のマルチモーダルシステムに匹敵する性能または性能を示す。
論文 参考訳(メタデータ) (2026-03-06T18:59:57Z) - One-step Language Modeling via Continuous Denoising [36.18484491074519]
本研究では,フローベース連続デノゲーションを利用した言語モデルが,品質と速度の両面で離散拡散よりも優れていることを示す。
我々の研究は、離散拡散過程は離散モダリティ上の生成的モデリングに必要である、という広く支持されている仮説に疑問を投げかける。
論文 参考訳(メタデータ) (2026-02-18T19:23:07Z) - Autoregressive Models Rival Diffusion Models at ANY-ORDER Generation [35.63237650402896]
Any-order Any-subset Autoregressive Modeling (A3)を提案する。
A3は、任意のトークングループと生成順序に標準ARファクタライゼーションを拡張するフレームワークである。
質問応答、常識推論、ストーリーインフィルの実験は、A3が拡散ベースモデルより優れていることを示している。
論文 参考訳(メタデータ) (2026-01-19T17:03:48Z) - Breaking the Bottleneck with DiffuApriel: High-Throughput Diffusion LMs with Mamba Backbone [6.76700377196741]
両方向マンバのバックボーン上に構築されたマスク付き拡散言語モデルであるDiffuAprielを紹介する。
この結果から, 双方向状態空間アーキテクチャは, マスク拡散LMの強力なデノイザとして機能することが示唆された。
論文 参考訳(メタデータ) (2025-11-19T23:23:49Z) - Improving Progressive Generation with Decomposable Flow Matching [50.63174319509629]
Decomposable Flow Matching (DFM)は、ビジュアルメディアのプログレッシブな生成のためのシンプルで効果的なフレームワークである。
Imagenet-1k 512pxでは、DFMはベースアーキテクチャよりも35.2%改善され、ベースラインは26.4%向上した。
論文 参考訳(メタデータ) (2025-06-24T17:58:02Z) - Revisiting Multi-Agent World Modeling from a Diffusion-Inspired Perspective [54.77404771454794]
拡散モデルを用いたマルチエージェント強化学習(MARL)のためのフレキシブルで堅牢な世界モデルを開発する。
本手法はDiffusion-Inspired Multi-Agent World Model (DIMA) を用いて,複数のマルチエージェント制御ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2025-05-27T09:11:38Z) - Multimodal Latent Language Modeling with Next-Token Diffusion [111.93906046452125]
マルチモーダル生成モデルは、離散データ(テキストやコードなど)と連続データ(画像、オーディオ、ビデオなど)の両方を扱う統一的なアプローチを必要とする。
因果変換器を用いて連続データと離散データをシームレスに統合する潜在言語モデリング(LatentLM)を提案する。
論文 参考訳(メタデータ) (2024-12-11T18:57:32Z) - Energy-Based Diffusion Language Models for Text Generation [126.23425882687195]
エネルギーベース拡散言語モデル(Energy-based Diffusion Language Model, EDLM)は、拡散ステップごとに全シーケンスレベルで動作するエネルギーベースモデルである。
我々のフレームワークは、既存の拡散モデルよりも1.3$times$のサンプリングスピードアップを提供する。
論文 参考訳(メタデータ) (2024-10-28T17:25:56Z) - Improving Fine-Grained Control via Aggregation of Multiple Diffusion Models [7.011853084733679]
本稿では,ネットワークアーキテクチャを微粒化するための新しい学習自由度アルゴリズムを提案する。
このアルゴリズムは、複数の拡散モデルの特徴を特定のモデルに統合し、特定の特徴を活性化し、きめ細かい制御を可能にする。
実験結果から,AMDMはトレーニングなしで微粒化制御を著しく改善し,その有効性が検証された。
論文 参考訳(メタデータ) (2024-10-02T06:16:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。