論文の概要: UltraLLaDA: Scaling the Context Length to 128K for Diffusion Large Language Models
- arxiv url: http://arxiv.org/abs/2510.10481v1
- Date: Sun, 12 Oct 2025 07:26:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.967739
- Title: UltraLLaDA: Scaling the Context Length to 128K for Diffusion Large Language Models
- Title(参考訳): UltraLLaDA: 拡散大言語モデルのためのコンテキスト長を128Kに拡張する
- Authors: Guangxin He, Shen Nie, Fengqi Zhu, Yuankang Zhao, Tianyi Bai, Ran Yan, Jie Fu, Chongxuan Li, Binhang Yuan,
- Abstract要約: 本稿では,拡散LDMのコンテキストウィンドウを拡張するためのポストトレーニング手法のケーススタディを提案する。
標準的な回転位置埋め込み(RoPE)拡張に対する簡単な修正は,拡散過程に固有の確率的モデリングに有効であることを示す。
128Kのコンテキストウィンドウを持つ拡散LDMであるUltraLLaDAを導入する。
- 参考スコア(独自算出の注目度): 41.014375501829655
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion LLMs have attracted growing interest, with plenty of recent work emphasizing their great potential in various downstream tasks; yet the long-context behavior of diffusion LLMs remains largely uncharted. We present a case study of post-training techniques for extending the context window of diffusion LLMs (i.e., LLaDA) without retraining from scratch. We show that a simple modification to the standard Rotary Positional Embeddings (RoPE) extension effectively accommodates the probabilistic modeling inherent in the diffusion process, enabling stable scaling to longer context ranges. We further compare masking strategies used during post-training and analyze their impact on optimization stability and long-range recall. Instantiating these insights, we introduce UltraLLaDA, a diffusion LLM with a 128K-token context window that, in our empirical evaluation on long-context tasks, significantly outperforms training-free baselines. Our experimental results highlight the special positional extension as a key lever for scaling diffusion LLMs to extended contexts and offer practical guidance for practitioners seeking 128K-scale context via efficient post-training.
- Abstract(参考訳): 拡散LDMの関心は高まり、近年の多くの研究は下流の様々なタスクにおいてそれらの大きな可能性を強調している。
本稿では,拡散LDM(LLaDA)のコンテキストウィンドウをスクラッチから再トレーニングすることなく拡張するためのポストトレーニング手法のケーススタディを提案する。
標準的なロータリー位置埋め込み(RoPE)拡張に対する簡単な変更は,拡散過程に固有の確率的モデリングを効果的に適用し,より長いコンテキスト範囲に安定したスケーリングを可能にすることを示す。
さらに,ポストトレーニングで使用するマスキング戦略を比較し,最適化安定性と長距離リコールへの影響を解析する。
これらの知見を実証し、128Kのコンテキストウィンドウを持つ拡散LDMであるUltraLLaDAを導入する。
実験の結果,拡張文脈に拡散LLMを拡大するためのキーレバーとしての特別な位置拡張が強調され,効率的な後トレーニングを通じて128Kスケールのコンテキストを求める実践者に対して実践的なガイダンスが得られた。
関連論文リスト
- LongLLaDA: Unlocking Long Context Capabilities in Diffusion LLMs [63.580867975515474]
拡散LDMと従来の自己回帰LDMの長文性能を比較検討する。
LLaDAとNTKベースのRoPE外挿法を統合したLongLLaDAを提案する。
論文 参考訳(メタデータ) (2025-06-17T11:45:37Z) - Why Does the Effective Context Length of LLMs Fall Short? [68.34573617977013]
本稿では,SifTed Rotray 位置埋め込み (STRING) について紹介する。
ストリングは、トレーニング中の元の非効率な位置を上書きするために、よく訓練された位置をシフトし、既存のトレーニング期間内でのパフォーマンスを向上させる。
実験結果から, STRINGは最新の大規模モデルの性能を劇的に向上させることがわかった。
論文 参考訳(メタデータ) (2024-10-24T13:51:50Z) - Extending LLMs' Context Window with 100 Samples [42.52554295241792]
LLM(Large Language Models)は、事前訓練されたコンテキストウィンドウを超えて、外挿能力に制限があることが知られている。
最近の研究は回転位置埋め込み(RoPE)を改良してコンテキストウィンドウを拡張しようとしている。
我々は、RoPEのベース周波数の調整と注意ログのスケーリングを組み合わせて、LLMがより大きなコンテキストウインドウに効率的に適応するのに役立つ新しい拡張をRoPEに導入する。
論文 参考訳(メタデータ) (2024-01-13T07:57:01Z) - CLEX: Continuous Length Extrapolation for Large Language Models [68.43814043853347]
大規模言語モデル(LLM)のためのCLEX(Continuous Longth Extrapolation)を提案する。
CLEXはコンテキストウィンドウを4倍または8倍のトレーニング長に拡張するが、性能は劣化しない。
我々のモデルは4k長でトレーニングされ、最先端のオープンソースモデルに対して最大32k長でトレーニングされた。
論文 参考訳(メタデータ) (2023-10-25T08:13:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。