論文の概要: Layer Collapse in Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2605.06366v2
- Date: Mon, 11 May 2026 08:56:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 16:21:29.399567
- Title: Layer Collapse in Diffusion Language Models
- Title(参考訳): 拡散言語モデルにおける層崩壊
- Authors: Alexander Conzelmann, Albert Catalan-Tatjer, Shiwei Liu,
- Abstract要約: 拡散言語モデル (DLM) は自己回帰言語モデル (AR) の代替として登場した。
DLMの層崩壊は, 過度なトレーニングによるものではなく, 過度なトレーニングによるものであることを示す。
私たちの発見は、非常に実践的な意味を持っている。
- 参考スコア(独自算出の注目度): 54.880703002010144
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion language models (DLMs) have recently emerged as competitive alternatives to autoregressive (AR) language models, yet differences in their activation dynamics remain poorly understood. We characterize these dynamics in LLaDA-8B and identify a striking layer-collapse property: a few early layers exhibit highly similar, collapsed activation patterns dominated by a single large super-outlier persisting over a long token range. Despite its apparent redundancy, this outlier is critical: pruning it causes outputs to degrade into repetitive random token loops. Paradoxically, layers in LLaDA contain more redundant representations overall, with redundancy most pronounced in earlier layers -- the reverse of AR models, where deeper layers grow redundant due to undertraining. Our analysis indicates that layer collapse in DLMs is not driven by undertraining but by overtraining: a dominant outlier becomes an indispensable information carrier while remaining representations collapse into redundant structure. These findings have strong practical implications, verified through controlled pre-training experiments. DLMs are surprisingly robust to compression: LLaDA under 3-bit GPTQ quantization drops only -1.8% on GSM8K, whereas Llama-3.1-8B drops -64.7%. Optimal sparsity allocation also reverses between families: at 50% average sparsity, allocating more to early layers in LLaDA yields +8.4% over the reverse strategy, while the same allocation costs Llama -8.4%. Our findings reveal that the DLM training objective fundamentally reshapes layer dynamics relative to AR models, with direct consequences for compression and deployment. Code: github.com/Conzel/super-outlier-dlm.
- Abstract(参考訳): 拡散言語モデル(DLM)は、近年、自己回帰(AR)言語モデルの競合代替として登場したが、アクティベーションのダイナミクスの相違はよく分かっていない。
我々はこれらのダイナミクスをLLaDA-8Bで特徴付け、顕著な層崩壊特性を識別する:いくつかの初期の層は、長いトークン範囲に留まる1つの大きな超降圧器が支配する非常によく似た、崩壊した活性化パターンを示す。
出力をプルーニングすることで、繰り返しランダムなトークンループに分解する。
パラドックス的には、LLaDAのレイヤは全体としてより冗長な表現を含んでおり、以前のレイヤで最も顕著な冗長性はARモデルの逆で、アンダートレーニングによってより深いレイヤが冗長になる。
分析の結果,DLMの層崩壊は過度な訓練によって行われるのではなく,過剰な訓練によって引き起こされることが明らかとなった。
これらの知見は、制御された事前学習実験を通じて検証された、強力な実用的意味を持つ。
3ビット GPTQ 以下の LLaDA は GSM8K で -1.8% しか低下しないのに対し、Llama-3.1-8B は-64.7% である。
LLaDAの初期層に割り当てる割合は、逆戦略で+8.4%、Llama -8.4%である。
以上の結果から,DLMトレーニングの目的は,ARモデルに対する層動特性を根本的に改善することであり,圧縮や展開に直接影響することが示唆された。
コード:github.com/Conzel/super-outlier-dlm。
関連論文リスト
- Skip to the Good Part: Representation Structure & Inference-Time Layer Skipping in Diffusion vs. Autoregressive LLMs [39.20818218608441]
自己回帰型(AR)言語モデルは左から右への予測によって漸進的に表現を形成するが、拡散型言語モデル(dLLM)はフルシーケンス・デノケーションによって訓練される。
拡散の目的は、より階層的な抽象化の異なる結果となり、初期層の冗長性が大きくなり、相対バイアスが減少することがわかった。
静的でタスクに依存しない推論時層分割法を導入し,アーキテクチャ変更やKV-cacheの共有を必要としない。
ネイティブdLLMは推論とコード生成ベンチマークで90%以上の性能を維持しながら、最大18.75%のFLOP削減を実現している。
論文 参考訳(メタデータ) (2026-03-08T05:31:52Z) - On GRPO Collapse in Search-R1: The Lazy Likelihood-Displacement Death Spiral [59.14787085809595]
この障害を引き起こす中核的なメカニズムとしてLazy Likelihood Displacement(LLD)を同定する。
LDDは早期に出現し、自己強化性LDDデススパイラル(LDD Death Spiral)を引き起こす。
本稿では,GRPO のための軽量な確率保存正則化 LLDS を提案する。
論文 参考訳(メタデータ) (2025-12-03T19:41:15Z) - TL;DR: Too Long, Do Re-weighting for Efficient LLM Reasoning Compression [55.37723860832064]
高度なデータアノテーションに依存しない動的比に基づくトレーニングパイプラインを提案する。
我々は、DeepSeek-R1-Distill-7BとDeepSeek-R1-Distill-14Bのモデルと、様々な難易度を持つ様々なベンチマークのモデルに対するアプローチを検証する。
論文 参考訳(メタデータ) (2025-06-03T09:23:41Z) - DLP: Dynamic Layerwise Pruning in Large Language Models [20.810186827378434]
プルーニングはパラメータスケールの削減とLarge Language Models(LLM)の推論効率の向上のために広く採用されている。
動的レイヤワイズ・プルーニング(DLP)と呼ばれる新しい手法を提案する。
モデル重みと入力アクティベーション情報を統合することで各層の相対的重要性を適応的に決定し,それに応じてプルーニング率を割り当てる。
論文 参考訳(メタデータ) (2025-05-27T07:35:00Z) - Language Models are Hidden Reasoners: Unlocking Latent Reasoning Capabilities via Self-Rewarding [74.31981011985681]
大きな言語モデル(LLM)は印象的な機能を示しているが、それでも複数のステップを必要とする複雑な推論タスクに苦戦している。
LaTRO(LaTent Reasoning Optimization)は、潜在分布からのサンプリングとして推論を定式化するためのフレームワークである。
複数のモデルアーキテクチャを用いて、GSM8KおよびARC-Challengeデータセットの実験を通してLaTROを検証する。
論文 参考訳(メタデータ) (2024-11-06T22:02:30Z) - ShortGPT: Layers in Large Language Models are More Redundant Than You Expect [38.148626520751385]
LLM(Large Language Models)の多くの層は高い類似性を示し、いくつかの層はネットワーク機能において無視できる役割を担っている。
レイヤ除去という,冗長なレイヤを直接削除する,簡単なプルーニング手法を提案する。
実験により,我々はShortGPT(ショートGPT)と呼ぶ手法を,モデルプルーニングにおける従来のSOTA(State-of-the-art)手法よりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2024-03-06T17:04:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。