論文の概要: LongLLaDA: Unlocking Long Context Capabilities in Diffusion LLMs
- arxiv url: http://arxiv.org/abs/2506.14429v2
- Date: Sun, 22 Jun 2025 13:08:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 12:48:19.123945
- Title: LongLLaDA: Unlocking Long Context Capabilities in Diffusion LLMs
- Title(参考訳): LongLLaDA: 拡散LDMにおける長いコンテキスト能力のアンロック
- Authors: Xiaoran Liu, Zhigeng Liu, Zengfeng Huang, Qipeng Guo, Ziwei He, Xipeng Qiu,
- Abstract要約: 拡散LDMと従来の自己回帰LDMの長文性能を比較検討する。
LLaDAとNTKベースのRoPE外挿法を統合したLongLLaDAを提案する。
- 参考スコア(独自算出の注目度): 63.580867975515474
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Diffusion Models, or diffusion LLMs, have emerged as a significant focus in NLP research, with substantial effort directed toward understanding their scalability and downstream task performance. However, their long-context capabilities remain unexplored, lacking systematic analysis or methods for context extension. In this work, we present the first systematic investigation comparing the long-context performance of diffusion LLMs and traditional auto-regressive LLMs. We first identify a unique characteristic of diffusion LLMs, unlike auto-regressive LLMs, they maintain remarkably stable perplexity during direct context extrapolation. Moreover, where auto-regressive models fail outright during the Needle-In-A-Haystack task with context exceeding their pretrained length, we discover diffusion LLMs exhibit a distinct local perception phenomenon, enabling successful retrieval from recent context segments. We explain both phenomena through the lens of Rotary Position Embedding (RoPE) scaling theory. Building on these observations, we propose LongLLaDA, a training-free method that integrates LLaDA with the NTK-based RoPE extrapolation. Our results validate that established extrapolation scaling laws remain effective for extending the context windows of diffusion LLMs. Furthermore, we identify long-context tasks where diffusion LLMs outperform auto-regressive LLMs and others where they fall short. Consequently, this study establishes the first length extrapolation method for diffusion LLMs while providing essential theoretical insights and empirical benchmarks critical for advancing future research on long-context diffusion LLMs. The code is available at https://github.com/OpenMOSS/LongLLaDA.
- Abstract(参考訳): 大規模言語拡散モデル(LLM)は、NLP研究において重要な焦点として現れ、そのスケーラビリティと下流のタスクパフォーマンスを理解するために多大な努力を払っている。
しかし、その長期コンテキスト能力は未解明のままであり、文脈拡張のための体系的な分析や方法が欠如している。
本研究では,拡散LDMと従来の自己回帰LDMの長文性能を比較検討する。
まず, 拡散LDMの特異な特徴を, 自己回帰LDMと異なり, 直接的文脈外挿において顕著に安定なパープレキシティを維持している。
さらに,Needle-In-A-Haystackタスク中に自己回帰モデルが失敗した場合,拡散LLMは局所的な知覚現象を呈し,近年の文脈セグメントからの検索を成功させる。
両現象はロータリー位置埋め込み(RoPE)スケーリング理論のレンズを通して説明する。
LLaDAとNTKベースのRoPE外挿法を統合したLongLLaDAを提案する。
提案法は, 拡散LDMのコンテキストウィンドウの拡張に有効であることを示す。
さらに,拡散LDMが自己回帰LDMなどよりも優れる長文タスクを識別する。
そこで本研究では,長文拡散LDMの研究を推し進めるために重要な理論的洞察と実証的ベンチマークを提供しながら,拡散LDMの最初の長さ外挿法を確立した。
コードはhttps://github.com/OpenMOSS/LongLLaDAで公開されている。
関連論文リスト
- LLM Cannot Discover Causality, and Should Be Restricted to Non-Decisional Support in Causal Discovery [30.24849564413826]
LLMの自己回帰的相関モデルが本質的に因果推論の理論的根拠を欠いていることを実証する。
我々は、故意にプロンプトエンジニアリングが彼らの業績を誇張し、現在の文献の多くで報告された一貫した好ましい結果を説明するのに役立つことを示している。
我々は,LLMを鼻で適用することから,因果発見の根本原理を尊重する専門的なモデルや訓練方法の開発に焦点を移すことをコミュニティに求めて結論付けた。
論文 参考訳(メタデータ) (2025-06-01T05:38:56Z) - Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。
近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。
そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文 参考訳(メタデータ) (2025-02-04T17:26:58Z) - Learning on Graphs with Large Language Models(LLMs): A Deep Dive into Model Robustness [39.57155321515097]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な性能を示している。
LLMがグラフ上での学習において堅牢性を示すかどうかは不明である。
論文 参考訳(メタデータ) (2024-07-16T09:05:31Z) - Rethinking Interpretability in the Era of Large Language Models [76.1947554386879]
大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著な機能を示している。
自然言語で説明できる能力により、LLMは人間に与えられるパターンのスケールと複雑さを拡大することができる。
これらの新しい機能は、幻覚的な説明や膨大な計算コストなど、新しい課題を提起する。
論文 参考訳(メタデータ) (2024-01-30T17:38:54Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。