論文の概要: Evo: Autoregressive-Diffusion Large Language Models with Evolving Balance
- arxiv url: http://arxiv.org/abs/2603.06617v1
- Date: Fri, 20 Feb 2026 15:26:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-15 16:38:22.442218
- Title: Evo: Autoregressive-Diffusion Large Language Models with Evolving Balance
- Title(参考訳): Evo: バランスの進化を伴う自己回帰拡散型大規模言語モデル
- Authors: Junde Wu, Minhao Hu, Jiayuan Zhu, Yuyuan Liu, Tianyi Zhang, Kang Li, Jingkun Chen, Jiazhen Pan, Min Xu, Yueming Jin,
- Abstract要約: 自己回帰(AR)と拡散に基づく言語生成を橋渡しする二元性潜在軌道モデルである textbfEvo を導入する。
各トークンはベクトル値の埋め込みと関連付けられ、[0, 1]$の進行変数$t_iで進化し、その意味的な成熟度を示す。
Evo 8Bは15種類のベンチマークで最先端または高度に競合する結果を得る。
- 参考スコア(独自算出の注目度): 29.902058862315915
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce \textbf{Evo}, a duality latent trajectory model that bridges autoregressive (AR) and diffusion-based language generation within a continuous evolutionary generative framework. Rather than treating AR decoding and diffusion generation as separate paradigms, Evo reconceptualizes text generation as a latent flow: each token is associated with a vector-valued embedding that evolves over a progression variable $t_i \in [0, 1]$, indicating its semantic maturity. Low $t_i$ values correspond to confident AR-like refinement, while high values invoke diffusion-style planning, allowing the model to adaptively balance AR and diffusion based on uncertainty. Theoretically, we show that both AR and diffusion models emerge as discretizations of a shared probability flow, and we derive Evo's training objective from a unified variational ELBO. The model is implemented as a time-conditioned Transformer governed by a shared vector field, trained end-to-end to jointly infer latent codes and their progression times. During decoding, Evo performs efficient, semantics-aware refinement, achieving high-quality outputs without sacrificing speed. Empirically, Evo 8B achieves state-of-the-art or highly competitive results on 15 diverse benchmarks, including reasoning (GSM8K, ARC-C), code generation (HumanEval, MBPP), and general language understanding, while maintaining fast inference speed. Our results demonstrate that Evo delivers a new paradigm for LLM design with strong generation quality, robust symbolic reasoning, and decoding efficiency.
- Abstract(参考訳): 本稿では,自己回帰(AR)と拡散に基づく言語生成を連続的進化生成フレームワーク内にブリッジする,双対性潜在軌道モデルである「textbf{Evo}」を紹介する。
それぞれのトークンは、進行変数$t_i \in [0, 1]$上で進化するベクトル値の埋め込みと関連付けられ、その意味的な成熟度を示す。
低い$t_i$値は自信あるARライクな改善に対応し、高い値は拡散スタイルの計画を呼び起こし、不確実性に基づいたARと拡散の適応的バランスを可能にする。
理論的には、ARモデルと拡散モデルの両方が共有確率フローの離散化として出現し、Evoのトレーニング目標を統一変動型ELBOから導出する。
このモデルは、共有ベクトルフィールドが支配する時間条件変換器として実装され、遅延コードとその進行時間を共同で推論するように訓練されたエンドツーエンドである。
復号化中、Evoは効率よくセマンティクスを意識した改良を行い、速度を犠牲にすることなく高品質な出力を達成する。
実証的には、Evo 8Bは推論(GSM8K, ARC-C)、コード生成(HumanEval, MBPP)、一般的な言語理解を含む15の様々なベンチマークにおいて、高速な推論速度を維持しながら、最先端または高い競争力を発揮する。
以上の結果から,EvoはLLM設計のパラダイムとして,優れた生成品質,ロバストなシンボル推論,復号効率を実現している。
関連論文リスト
- Auto-Regressive Masked Diffusion Models [9.239507801466322]
仮面拡散モデル (MDM) は言語モデリングの有望なアプローチとして登場している。
自動回帰モデル(ARM)と比較してパフォーマンスのギャップがあり、より多くのトレーニングイテレーションが必要です。
本稿では,自己回帰型マスケッド拡散モデルを提案する。これは,自己回帰型モデルのトレーニング効率と,拡散型モデルの並列生成能力を統一するものである。
論文 参考訳(メタデータ) (2026-01-23T18:42:30Z) - MammothModa2: A Unified AR-Diffusion Framework for Multimodal Understanding and Generation [20.14002849273559]
統一マルチモーダルモデルは、単一のフレームワーク内で理解と生成を統合することを目的としている。
本稿では,自己回帰拡散(AR-Diffusion)フレームワークであるMammothModa2(Mammoth2)を紹介する。
Mammoth2は、公開ベンチマークで強力なテキスト・ツー・イメージと命令ベースの編集性能を提供する。
論文 参考訳(メタデータ) (2025-11-23T03:25:39Z) - Muddit: Liberating Generation Beyond Text-to-Image with a Unified Discrete Diffusion Model [118.52589065972795]
テキストと画像の両モードをまたいで高速かつ並列に生成できる,統一的な離散拡散変換器であるMudditを導入する。
Mudditは、スクラッチからトレーニングされた以前の統一拡散モデルとは異なり、トレーニング済みのテキストからイメージまでのバックボーンから、強力な視覚的事前情報を軽量のテキストデコーダに統合する。
論文 参考訳(メタデータ) (2025-05-29T16:15:48Z) - FUDOKI: Discrete Flow-based Unified Understanding and Generation via Kinetic-Optimal Velocities [76.46448367752944]
MLLM(Multimodal large language model)は、単一のフレームワーク内で視覚的理解と画像生成を統一する言語である。
ほとんどの既存のMLLMはAutore(AR)アーキテクチャに依存しており、将来の開発に固有の制限を課している。
本稿では,離散フローマッチングに基づく統一マルチモーダルモデルであるFUDOKIを紹介する。
論文 参考訳(メタデータ) (2025-05-26T15:46:53Z) - Energy-Based Diffusion Language Models for Text Generation [126.23425882687195]
エネルギーベース拡散言語モデル(Energy-based Diffusion Language Model, EDLM)は、拡散ステップごとに全シーケンスレベルで動作するエネルギーベースモデルである。
我々のフレームワークは、既存の拡散モデルよりも1.3$times$のサンプリングスピードアップを提供する。
論文 参考訳(メタデータ) (2024-10-28T17:25:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。