論文の概要: Don't Retrain, Align: Adapting Autoregressive LMs to Diffusion LMs via Representation Alignment
- arxiv url: http://arxiv.org/abs/2605.06885v1
- Date: Thu, 07 May 2026 19:35:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.583583
- Title: Don't Retrain, Align: Adapting Autoregressive LMs to Diffusion LMs via Representation Alignment
- Title(参考訳): Don't Retrain, Align: Adapting Autoregressive LMs to Diffusion LMs through Representation Alignment
- Authors: Fred Zhangzhi Peng, Alexis Fox, Anru R. Zhang, Alexander Tong,
- Abstract要約: 拡散言語モデル(DLM)は、最近、標準自己回帰(AR)モデルを補完する機能を実証した。
我々は,AR-to-DLM変換中に,次点予測によって学習した内部表現幾何を明示的に保存できるかを問う。
本稿では,事前訓練されたARモデルから表現を再利用するために,双方向マスク拡散モデルを適用する表現アライメント対象であるREPR-ALIGNを紹介する。
- 参考スコア(独自算出の注目度): 46.75006425771645
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion language models (DLMs) have recently demonstrated capabilities that complement standard autoregressive (AR) models, particularly in non-sequential generation and bidirectional editing. Although recent work has shown that pretrained autoregressive checkpoints can be converted into diffusion language models, existing recipes primarily transfer parameters through continued denoising training with objective- and attention-level modifications. We instead ask whether the internal representation geometry learned by next-token prediction can be explicitly preserved during AR-to-DLM conversion. We hypothesize that much of the semantic structure learned by AR pretraining can transfer across generation orders, and thus DLM training should be viewed as relearning the decoding path rather than relearning language representations. To investigate this, we introduce REPR-ALIGN, a representation alignment objective that adapts a bidirectional masked diffusion model to reuse representations from a pretrained AR model of identical architecture. Concretely, we align the hidden states of the DLM to the frozen AR model at every layer using cosine similarity, while optimizing the standard masked denoising objective. This simple alignment, with no adapters and no architectural changes beyond the attention mask, yields up to 4x training acceleration in our setting and is particularly effective in low-data regimes. Our results suggest that linguistic representations can transfer across generation order, and that representation alignment provides a simple and effective technique for training diffusion language models. Code is available at https://github.com/pengzhangzhi/Open-dLLM.
- Abstract(参考訳): 拡散言語モデル(DLM)は、最近、標準的な自己回帰モデル(AR)モデルを補完する機能、特に非逐次生成と双方向編集の機能を実証した。
近年の研究では、事前学習された自己回帰チェックポイントが拡散言語モデルに変換できることが示されているが、既存のレシピは主に、客観的および注意レベルの修正による継続的な認知訓練を通じてパラメータを伝達する。
そこで我々は,AR-to-DLM変換中に,次点予測によって学習した内部表現幾何を明示的に保存できるかを問う。
我々は、ARプレトレーニングによって学習される意味構造の多くは、生成順序をまたいで伝達できるので、DLMトレーニングは、言語表現を再学習するのではなく、復号パスを学習するものとして見なすべきである、と仮定する。
そこで我々は,同じアーキテクチャの事前訓練されたARモデルから表現を再利用するために,双方向マスク拡散モデルを適用する表現アライメント対象REPR-ALIGNを提案する。
具体的には,DLMの隠蔽状態をコサイン類似性を用いて各層における凍結ARモデルに整列し,標準的なマスク付き遮蔽目標を最適化する。
このシンプルなアライメントは、アダプタがなく、アテンションマスク以外のアーキテクチャ上の変更もなく、私たちの設定では最大4倍のトレーニングアクセラレーションをもたらします。
この結果から,言語表現は生成順序をまたいで伝達可能であることが示唆され,表現アライメントは拡散言語モデルを訓練するための単純かつ効果的な手法を提供する。
コードはhttps://github.com/pengzhangzhi/Open-dLLMで入手できる。
関連論文リスト
- TextLDM: Language Modeling with Continuous Latent Diffusion [89.69255520673248]
拡散変換器(DiT)は、VAEラテント空間におけるフローマッチングで訓練され、画像やビデオ間で統一された視覚生成を行う。
最小限のアーキテクチャ変更で視覚的潜伏拡散のレシピをテキスト生成に転送するTextLDMを提案する。
論文 参考訳(メタデータ) (2026-05-08T13:54:34Z) - Skip to the Good Part: Representation Structure & Inference-Time Layer Skipping in Diffusion vs. Autoregressive LLMs [39.20818218608441]
自己回帰型(AR)言語モデルは左から右への予測によって漸進的に表現を形成するが、拡散型言語モデル(dLLM)はフルシーケンス・デノケーションによって訓練される。
拡散の目的は、より階層的な抽象化の異なる結果となり、初期層の冗長性が大きくなり、相対バイアスが減少することがわかった。
静的でタスクに依存しない推論時層分割法を導入し,アーキテクチャ変更やKV-cacheの共有を必要としない。
ネイティブdLLMは推論とコード生成ベンチマークで90%以上の性能を維持しながら、最大18.75%のFLOP削減を実現している。
論文 参考訳(メタデータ) (2026-03-08T05:31:52Z) - Efficient-DLM: From Autoregressive to Diffusion Language Models, and Beyond in Speed [76.49335677120031]
拡散言語モデル(dLM)は、並列で非自己回帰的な生成を可能にする有望なパラダイムとして登場した。
我々は,ARモデルのタスク精度を保ちながら,ARモデルからDLMへの変換を高速なDLMに変換することを検討した。
論文 参考訳(メタデータ) (2025-12-16T04:12:17Z) - Anchored Diffusion Language Model [39.17770765212062]
本稿では,アンカーネットワークを介して重要なトークン上の分布を予測する新しいフレームワークであるAnchored Diffusion Language Model (ADLM)を紹介する。
ADLMはLM1BとOpenWebTextでテストの難易度を大幅に改善し、以前のDLMよりも25.4%向上した。
また、MAUVEスコアでARモデルを上回っており、DLMがARモデルよりも優れた人間的なテキストを生成するのはこれが初めてである。
論文 参考訳(メタデータ) (2025-05-24T01:34:14Z) - Unleashing the Potential of Large Language Models for Text-to-Image Generation through Autoregressive Representation Alignment [32.11442595627763]
Autoregressive Representation Alignment(ARRA)は,自己回帰型LLMにおけるグローバルコヒーレントなテキスト・ツー・イメージ生成をアーキテクチャ変更なしに解放する,新たなトレーニングフレームワークである。
ARRAは、LLMの隠れ状態と、グローバルな視覚的アライメントロスとハイブリッドトークン [オブジェクトオブジェクト]を介して、外部視覚基盤モデルからの視覚的表現とを一致させる
大規模な実験はARRAのプラグアンドプレイの汎用性を検証する。
論文 参考訳(メタデータ) (2025-03-10T13:49:28Z) - Scaling Diffusion Language Models via Adaptation from Autoregressive Models [105.70889434492143]
拡散言語モデル(DLM)は、テキスト生成モデルのための将来性のある新しいパラダイムとして登場した。
170Mから7BまでのARモデルをDiffuGPTとDiffuLLaMAの拡散モデルに変換し、200B未満のトークンでトレーニングできることを示す。
実験の結果,これらのモデルは初期のDLMよりも優れており,ARと競合していることがわかった。
論文 参考訳(メタデータ) (2024-10-23T14:04:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。