論文の概要: From AR to Diffusion: Efficiently Adapting Large Language Models with Strictly Causal and Elastic Horizons
- arxiv url: http://arxiv.org/abs/2605.27387v2
- Date: Thu, 28 May 2026 04:27:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 07:09:36.516812
- Title: From AR to Diffusion: Efficiently Adapting Large Language Models with Strictly Causal and Elastic Horizons
- Title(参考訳): ARから拡散へ - 厳密な因果と弾性ホライズンを持つ大規模言語モデルに効果的に適応する
- Authors: Xiangyu Ma, Teng Xiao, Zuchao Li, Lefei Zhang,
- Abstract要約: 拡散モデルは効率的な並列テキスト生成を約束するが、双方向の注意に依存し、事前訓練された自己回帰(AR)モデルによる構造的ミスマッチを生成する。
本稿では,ARバックボーンを拡散パラダイムに効率的に適応するフレームワークであるFLUIDを提案する。
実験により、FLUIDは訓練コストを桁違いに削減しつつ、最先端の性能を達成することが示された。
- 参考スコア(独自算出の注目度): 74.25767873168745
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models promise efficient parallel text generation but rely on bidirectional attention, creating a structural mismatch with pre-trained Autoregressive (AR) models. This incompatibility precludes reusing robust AR priors, necessitating prohibitive pre-training from scratch. To bridge this gap, we propose FLUID, a framework that efficiently adapts AR backbones to the diffusion paradigm. By enforcing Strictly Causal Alignment, FLUID enables seamless initialization from standard GPT-style checkpoints, circumventing the need for massive pre-training. Furthermore, we introduce Elastic Horizons, an entropy-driven mechanism that dynamically modulates denoising strides based on local information density rather than fixed schedules. Experiments demonstrate that FLUID achieves state-of-the-art performance while reducing training costs by orders of magnitude, effectively reconciling established AR foundations with efficient parallel generation. Our code is available at https://github.com/Oli-lab-nun/FLUID/tree/main.
- Abstract(参考訳): 拡散モデルは効率的な並列テキスト生成を約束するが、双方向の注意に依存し、事前訓練された自己回帰(AR)モデルによる構造的ミスマッチを生成する。
この非互換性は、堅牢なARプリセットの使用を阻止し、スクラッチから禁止的な事前トレーニングを必要とします。
このギャップを埋めるために,ARバックボーンを拡散パラダイムに効率的に適応するフレームワークであるFLUIDを提案する。
Strictly Causal Alignmentを強制することにより、FLUIDは標準のGPTスタイルのチェックポイントからのシームレスな初期化を可能にし、大規模な事前トレーニングの必要性を回避することができる。
さらに, 固定スケジュールではなく, 局所情報密度に基づいて動的に復調ストライドを変調するエントロピー駆動機構であるElastic Horizonsを導入する。
実験により、FLUIDは訓練コストを桁違いに削減し、既存のARファンデーションを効率的に並列生成することで、最先端のパフォーマンスを実現していることが示された。
私たちのコードはhttps://github.com/Oli-lab-nun/FLUID/tree/main.orgから入手可能です。
関連論文リスト
- FLARE: Diffusion for Hybrid Language Model [72.60770374799634]
FLAREは、ハイブリッドアテンションな大規模言語モデルのための体系的な変換フレームワークである。
トークン平等なAR/拡散目標、ハードウェア対応カーネル、統一推論を組み合わせることで、ひとつのチェックポイントがARスタイルの検証された復号化と拡散スタイルの並列復号化の両方をサポートすることができる。
この結果から,実際のdLLMは復号化アルゴリズムだけでなく,データ品質や現在のブロック拡散目標のトレーニング非効率によって制限されていることが示唆された。
論文 参考訳(メタデータ) (2026-06-01T06:58:15Z) - SLE-FNO: Single-Layer Extensions for Task-Agnostic Continual Learning in Fourier Neural Operators [0.4369550829556577]
新たな実験条件やシミュレーション体制は、以前のデータに再アクセスすることなく、外挿やモデル更新を必要とするため、大きく異なる場合がある。
これにより、破滅的な忘れを防ぎながら、分散シフトに適応できる継続的学習(CL)フレームワークの必要性が生まれます。
本稿では,SLE(Single-Layer Extension)とFNO(Fourier Neural Operator)を組み合わせたアーキテクチャベースアプローチ(SLE-FNO)を提案する。
論文 参考訳(メタデータ) (2026-03-20T18:30:38Z) - Causal Autoregressive Diffusion Language Model [70.7353007255797]
CARDは厳密な因果注意マスク内の拡散過程を再構成し、単一の前方通過で密集した1対1の監視を可能にする。
我々の結果は,CARDが並列生成のレイテンシの利点を解放しつつ,ARMレベルのデータ効率を実現することを示す。
論文 参考訳(メタデータ) (2026-01-29T17:38:29Z) - DiRL: An Efficient Post-Training Framework for Diffusion Language Models [54.405206032785706]
Diffusion Language Models (dLLMs) はAuto-Regressive(AR)モデルに代わる有望な代替品として登場した。
既存の手法は、訓練と推論の間の計算の非効率性と客観的なミスマッチに悩まされている。
我々は,FlexAttention-accelerated blockwise trainingとLMDeploy-timized inferenceを密接に統合した,効率的なポストトレーニングフレームワークであるDiRLを紹介した。
論文 参考訳(メタデータ) (2025-12-23T08:33:19Z) - SDAR: A Synergistic Diffusion-AutoRegression Paradigm for Scalable Sequence Generation [62.14510717860079]
本稿では, 自己回帰モデルの学習効率を, 拡散の並列推論能力で統一するSynergistic Diffusion-Autoregressionパラダイムを提案する。
SDARは、十分に訓練された自己回帰モデル(AR)を、簡潔でデータ効率のよい適応を通じてブロックワイズ拡散モデルに変換する、軽量なパラダイム変換を実行する。
この知見に基づいて、SDARは最小コストで効率的なAR-拡散変換を実現し、並列生成を可能にしながら、ARレベルのパフォーマンスを維持する。
論文 参考訳(メタデータ) (2025-10-07T17:29:28Z) - Advantage Weighted Matching: Aligning RL with Pretraining in Diffusion Models [35.36024202299119]
拡散の政策段階的手法である textbfAdvantage Weighted Matching (AWM) を導入する。
AWMは、事前学習と同一のモデリング目標を維持しながら、高逆サンプルの影響を高め、低逆サンプルを抑制する。
これは事前学習とRLを概念的かつ実践的に統一し、政策次数理論と整合性を持ち、分散を減少させ、より高速な収束をもたらす。
論文 参考訳(メタデータ) (2025-09-29T17:02:20Z) - Communication-Efficient Wireless Federated Fine-Tuning for Large-Scale AI Models [13.742950928229078]
Low-Rank Adaptation (LoRA) は、完全に微調整された大型モデルではなく、コンパクトで低ランクな行列を訓練することでこれらの問題に対処する。
本稿では,学習性能と通信効率の両方を最適化する無線フェデレーションLoRAファインチューニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-01T06:15:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。