論文の概要: Skip to the Good Part: Representation Structure & Inference-Time Layer Skipping in Diffusion vs. Autoregressive LLMs
- arxiv url: http://arxiv.org/abs/2603.07475v1
- Date: Sun, 08 Mar 2026 05:31:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:14.622779
- Title: Skip to the Good Part: Representation Structure & Inference-Time Layer Skipping in Diffusion vs. Autoregressive LLMs
- Title(参考訳): 良い部分へのスキップ:拡散における表現構造と推論時間層スキッピングと自己回帰LDM
- Authors: Raghavv Goel, Risheek Garrepalli, Sudhanshu Agrawal, Chris Lott, Mingu Lee, Fatih Porikli,
- Abstract要約: 自己回帰型(AR)言語モデルは左から右への予測によって漸進的に表現を形成するが、拡散型言語モデル(dLLM)はフルシーケンス・デノケーションによって訓練される。
拡散の目的は、より階層的な抽象化の異なる結果となり、初期層の冗長性が大きくなり、相対バイアスが減少することがわかった。
静的でタスクに依存しない推論時層分割法を導入し,アーキテクチャ変更やKV-cacheの共有を必要としない。
ネイティブdLLMは推論とコード生成ベンチマークで90%以上の性能を維持しながら、最大18.75%のFLOP削減を実現している。
- 参考スコア(独自算出の注目度): 39.20818218608441
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autoregressive (AR) language models form representations incrementally through left-to-right prediction, whereas diffusion language models (dLLMs) are trained via full-sequence denoising. Although recent dLLMs match AR performance, it remains unclear whether diffusion objectives fundamentally reshape internal representations across depth. We perform the first layer- and token-wise representational analysis comparing native dLLMs (LLaDA), native AR models (Qwen2.5), and AR-initialized dLLMs (Dream-7B). We find that diffusion objectives result in different, more hierarchical abstractions with substantial early-layer redundancy and reduced recency bias, while AR objectives produce tightly coupled, depth-dependent representations. Critically, AR-initialized dLLMs retain AR-like representational dynamics despite diffusion training, revealing persistent initialization bias. Leveraging this observed representational redundancy, we introduce a static, task-agnostic inference-time layer-skipping method requiring no architectural changes or KV-cache sharing. Native dLLMs achieve up to 18.75% FLOPs reduction while preserving over 90% performance on reasoning and code generation benchmarks, whereas AR models degrade sharply under comparable skipping. These results link training objectives to representational structure and enable practical, cache-orthogonal efficiency gains.
- Abstract(参考訳): 自己回帰型(AR)言語モデルは左から右への予測によって漸進的に表現を形成するが、拡散型言語モデル(dLLM)はフルシーケンス・デノケーションによって訓練される。
最近のdLLMはARの性能と一致するが、拡散目的が奥行きの内的表現を根本的に再構成するかどうかは不明である。
まず,ネイティブdLLM(LLaDA),ネイティブARモデル(Qwen2.5),AR初期化dLLM(Dream-7B)を比較した。
拡散目的は初期層冗長性と相対バイアスを減少させるとともに,AR目的は密結合した深度依存表現を生成する。
批判的に、ARの初期化dLLMは拡散訓練にもかかわらずARライクな表現力学を維持し、永続的な初期化バイアスを呈する。
このような表現冗長性を生かして,静的かつタスクに依存しない推論時層分割手法を導入する。
ネイティブdLLMは推論とコード生成ベンチマークで90%以上の性能を維持しながら最大18.75%のFLOPを削減できる。
これらの結果は、トレーニング目標を表現構造にリンクさせ、実用的なキャッシュ直交効率向上を可能にする。
関連論文リスト
- Efficient-DLM: From Autoregressive to Diffusion Language Models, and Beyond in Speed [76.49335677120031]
拡散言語モデル(dLM)は、並列で非自己回帰的な生成を可能にする有望なパラダイムとして登場した。
我々は,ARモデルのタスク精度を保ちながら,ARモデルからDLMへの変換を高速なDLMに変換することを検討した。
論文 参考訳(メタデータ) (2025-12-16T04:12:17Z) - Fast-dLLM v2: Efficient Block-Diffusion LLM [64.38006546510337]
Fast-dLLM v2はブロック拡散言語モデルで、訓練済みのARモデルをdLLMに適応して並列テキストを生成する。
これは、Dream(580Bトークン)のようなフルアテンション拡散LDMと比較して、トレーニングデータの500倍の減少を示す。
論文 参考訳(メタデータ) (2025-09-30T14:40:18Z) - Scale-Wise VAR is Secretly Discrete Diffusion [48.994983608261286]
次なるスケール予測 Visual Autoregressive Generation (VAR) は、拡散ベースモデルを超えながら、最近顕著な性能を示した。
本稿では,VARを再検討し,マルコフの注意マスクを装着した場合,VARは離散拡散と数学的に等価であることを示す。
本稿では, 繰り返し改良やVARへのアーキテクチャ不効率の低減, 収束の高速化, 推論コストの低減, ゼロショット再構成の改善など, 拡散の利点を直接インポートする方法を示す。
論文 参考訳(メタデータ) (2025-09-26T17:58:04Z) - Anchored Diffusion Language Model [39.17770765212062]
本稿では,アンカーネットワークを介して重要なトークン上の分布を予測する新しいフレームワークであるAnchored Diffusion Language Model (ADLM)を紹介する。
ADLMはLM1BとOpenWebTextでテストの難易度を大幅に改善し、以前のDLMよりも25.4%向上した。
また、MAUVEスコアでARモデルを上回っており、DLMがARモデルよりも優れた人間的なテキストを生成するのはこれが初めてである。
論文 参考訳(メタデータ) (2025-05-24T01:34:14Z) - RestoreVAR: Visual Autoregressive Generation for All-in-One Image Restoration [51.77917733024544]
潜時拡散モデル(LDM)はオールインワン画像復元法(AiOR)の知覚的品質を改善した。
LDMは反復的なデノゲーションプロセスによって推論が遅くなり、時間に敏感なアプリケーションでは実用的でない。
VAR(Visual Autoregressive Modeling)は、スケールスペースの自己回帰を行い、最先端の拡散変換器に匹敵する性能を実現する。
論文 参考訳(メタデータ) (2025-05-23T15:52:26Z) - d1: Scaling Reasoning in Diffusion Large Language Models via Reinforcement Learning [31.531278643184656]
最近の大規模言語モデル(LLM)は、オンライン強化学習(RL)の恩恵を受ける強力な推論能力を示している。
教師付きファインタニング(SFT)とRLの組み合わせにより,事前学習したマスク付きdLLMを推論モデルに適応するフレームワークであるd1を提案する。
d1は最高の性能を示し、最先端のdLLMの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2025-04-16T16:08:45Z) - Lightweight Diffusion Models with Distillation-Based Block Neural
Architecture Search [55.41583104734349]
拡散蒸留に基づくブロックワイドニューラルネットワークサーチ(NAS)により拡散モデルの構造的冗長性を自動的に除去することを提案する。
事前訓練を受けた教師がより多い場合、DiffNASを利用して、教師よりもパフォーマンスが良い最小限のアーキテクチャを探索する。
従来のブロックワイズNAS法とは異なり、DiffNASはブロックワイズ局所探索戦略と、関節ダイナミックロスを伴う再訓練戦略を含んでいる。
論文 参考訳(メタデータ) (2023-11-08T12:56:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。