論文の概要: FLARE: Diffusion for Hybrid Language Model
- arxiv url: http://arxiv.org/abs/2606.01774v1
- Date: Mon, 01 Jun 2026 06:58:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:31.473834
- Title: FLARE: Diffusion for Hybrid Language Model
- Title(参考訳): FLARE:ハイブリッド言語モデルのための拡散
- Authors: Yuchen Zhu, Jing Shi, Chongjian Ge, Hao Tan, Yiran Xu, Wanrong Zhu, Jason Kuen, Koustava Goswami, Rajiv Jain, Yongxin Chen, Molei Tao, Jiuxiang Gu,
- Abstract要約: FLAREは、ハイブリッドアテンションな大規模言語モデルのための体系的な変換フレームワークである。
トークン平等なAR/拡散目標、ハードウェア対応カーネル、統一推論を組み合わせることで、ひとつのチェックポイントがARスタイルの検証された復号化と拡散スタイルの並列復号化の両方をサポートすることができる。
この結果から,実際のdLLMは復号化アルゴリズムだけでなく,データ品質や現在のブロック拡散目標のトレーニング非効率によって制限されていることが示唆された。
- 参考スコア(独自算出の注目度): 72.60770374799634
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Autoregressive (AR) large language models (LLMs) have achieved broad practical success, but sequential decoding remains a key bottleneck for low-latency deployment. Recent efficient-inference work has progressed along two axes: reducing the cost of each model invocation through efficient architectures, and reducing serial decoding steps through parallel generation. Hybrid attention backbones address the former, while diffusion language models (dLLMs) pursue the latter via iterative parallel denoising. Combining these advantages remains challenging: AR-to-dLLM conversion often fails to preserve seed-checkpoint capability, and hybrid-attention recurrent states and masking constraints make diffusion training and serving nontrivial. We present FLARE, a systematic conversion framework for hybrid-attention LLMs. Our analysis identifies transfer data quality as the primary determinant of capability preservation, outweighing loss formulation and attention-mask design. The resulting framework combines a token-equal AR-and-diffusion objective, hardware-aware kernels, and unified inference, enabling one checkpoint to support both AR-style verified decoding and diffusion-style parallel denoising. Starting from strong AR checkpoints with limited post-training data, FLARE is competitive with leading open-source dLLMs across model scales and delivers consistent throughput gains over open-source dLLM baselines in single-GPU concurrent serving. Our results further suggest that practical dLLMs are limited not only by decoding algorithms, but also by transfer data quality and the training inefficiency of current block-diffusion objectives, motivating joint design of data, objectives, architectures, and inference systems.
- Abstract(参考訳): Autoregressive (AR) Large Language Model (LLM) は広く実用化されているが、シーケンシャルデコーディングは低遅延デプロイメントにおいて重要なボトルネックとなっている。
最近の効率的な推論作業は、効率的なアーキテクチャによる各モデル呼び出しのコスト削減と、並列生成によるシリアルデコードステップの削減という、2つの軸に沿って進んでいる。
ハイブリッドアテンションバックボーンは前者に対応し、拡散言語モデル(dLLMs)は後者を反復的並列化によって追求する。
AR-to-dLLM変換はシードチェックポイント能力の維持に失敗することが多く、ハイブリッドアテンションリカレント状態とマスキング制約が拡散トレーニングと非自明な機能を提供します。
本稿では,ハイブリッドアテンションLLMの体系的変換フレームワークであるFLAREを提案する。
本分析では, 伝達データ品質を, 機能保存, 損失定式化, 注目マスク設計の第一決定要因として同定する。
結果として得られたフレームワークは、トークン平等なAR/拡散目標、ハードウェア対応カーネル、統一推論を組み合わせることで、ひとつのチェックポイントがARスタイルの検証された復号化と拡散スタイルの並列復号化の両方をサポートすることができる。
FLAREは、トレーニング後の限られたデータを持つ強力なARチェックポイントから始まり、モデルスケールにわたるオープンソースのdLLMと競合し、シングルGPUコンカレントサービスにおけるオープンソースのdLLMベースラインよりも一貫したスループット向上を提供する。
さらに,実際のdLLMはデコードアルゴリズムだけでなく,データ品質や現在のブロック拡散目標のトレーニング非効率,データ,目的,アーキテクチャ,推論システムの共同設計の動機付けなどによって制限されていることが示唆された。
関連論文リスト
- DARE: Diffusion Large Language Models Alignment and Reinforcement Executor [36.88819250898739]
textbfDARE (textbfdLLMs textbfAlignment and textbfReinforcement textbfExecutor) は,dLLMの訓練後評価を行うオープンフレームワークである。
論文 参考訳(メタデータ) (2026-04-05T18:13:19Z) - AsynDBT: Asynchronous Distributed Bilevel Tuning for efficient In-Context Learning with Large Language Models [4.4866154758274375]
In-context Learning (ICL) は、LLMが入力内で提供される例を使って新しいタスクに適応できる有望なパラダイムとして登場した。
ICLを組み込んだ以前のFLアプローチは、重度のストラグラー問題と、異種非同一データに関連する課題に悩まされてきた。
本稿では,LLMからのフィードバックに基づいて,文脈内学習サンプルの最適化とフラグメントのプロンプトを行う非同期分散バイレベルチューニング(AsynDBT)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2026-02-06T13:07:49Z) - Prism: Efficient Test-Time Scaling via Hierarchical Search and Self-Verification for Discrete Diffusion Language Models [96.0074341403456]
LLM推論を改善するための実用的な方法として、推論時計算が再導入されている。
テスト時間スケーリング(TTS)アルゴリズムの多くは、自動回帰デコーディングに依存している。
そこで我々は,dLLM のための効率的な TTS フレームワーク Prism を提案する。
論文 参考訳(メタデータ) (2026-02-02T09:14:51Z) - Fast-dLLM v2: Efficient Block-Diffusion LLM [64.38006546510337]
Fast-dLLM v2はブロック拡散言語モデルで、訓練済みのARモデルをdLLMに適応して並列テキストを生成する。
これは、Dream(580Bトークン)のようなフルアテンション拡散LDMと比較して、トレーニングデータの500倍の減少を示す。
論文 参考訳(メタデータ) (2025-09-30T14:40:18Z) - Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding [51.711605076319216]
拡散に基づく大規模言語モデル (Diffusion LLM) は、並列復号機能を持つ非自己回帰テキスト生成を約束している。
本稿では,双方向拡散モデルに適したブロック単位で近似したKVキャッシュ機構を提案する。
本稿では,信頼しきい値を超えるトークンを選択的に復号し,依存関係違反を軽減し,生成品質を維持できる信頼度対応並列復号方式を提案する。
論文 参考訳(メタデータ) (2025-05-28T17:39:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。