論文の概要: LongLLaDA: Unlocking Long Context Capabilities in Diffusion LLMs
- arxiv url: http://arxiv.org/abs/2506.14429v2
- Date: Sun, 22 Jun 2025 13:08:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 12:48:19.123945
- Title: LongLLaDA: Unlocking Long Context Capabilities in Diffusion LLMs
- Title(参考訳): LongLLaDA: 拡散LDMにおける長いコンテキスト能力のアンロック
- Authors: Xiaoran Liu, Zhigeng Liu, Zengfeng Huang, Qipeng Guo, Ziwei He, Xipeng Qiu,
- Abstract要約: 拡散LDMと従来の自己回帰LDMの長文性能を比較検討する。
LLaDAとNTKベースのRoPE外挿法を統合したLongLLaDAを提案する。
- 参考スコア(独自算出の注目度): 63.580867975515474
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Diffusion Models, or diffusion LLMs, have emerged as a significant focus in NLP research, with substantial effort directed toward understanding their scalability and downstream task performance. However, their long-context capabilities remain unexplored, lacking systematic analysis or methods for context extension. In this work, we present the first systematic investigation comparing the long-context performance of diffusion LLMs and traditional auto-regressive LLMs. We first identify a unique characteristic of diffusion LLMs, unlike auto-regressive LLMs, they maintain remarkably stable perplexity during direct context extrapolation. Moreover, where auto-regressive models fail outright during the Needle-In-A-Haystack task with context exceeding their pretrained length, we discover diffusion LLMs exhibit a distinct local perception phenomenon, enabling successful retrieval from recent context segments. We explain both phenomena through the lens of Rotary Position Embedding (RoPE) scaling theory. Building on these observations, we propose LongLLaDA, a training-free method that integrates LLaDA with the NTK-based RoPE extrapolation. Our results validate that established extrapolation scaling laws remain effective for extending the context windows of diffusion LLMs. Furthermore, we identify long-context tasks where diffusion LLMs outperform auto-regressive LLMs and others where they fall short. Consequently, this study establishes the first length extrapolation method for diffusion LLMs while providing essential theoretical insights and empirical benchmarks critical for advancing future research on long-context diffusion LLMs. The code is available at https://github.com/OpenMOSS/LongLLaDA.
- Abstract(参考訳): 大規模言語拡散モデル(LLM)は、NLP研究において重要な焦点として現れ、そのスケーラビリティと下流のタスクパフォーマンスを理解するために多大な努力を払っている。
しかし、その長期コンテキスト能力は未解明のままであり、文脈拡張のための体系的な分析や方法が欠如している。
本研究では,拡散LDMと従来の自己回帰LDMの長文性能を比較検討する。
まず, 拡散LDMの特異な特徴を, 自己回帰LDMと異なり, 直接的文脈外挿において顕著に安定なパープレキシティを維持している。
さらに,Needle-In-A-Haystackタスク中に自己回帰モデルが失敗した場合,拡散LLMは局所的な知覚現象を呈し,近年の文脈セグメントからの検索を成功させる。
両現象はロータリー位置埋め込み(RoPE)スケーリング理論のレンズを通して説明する。
LLaDAとNTKベースのRoPE外挿法を統合したLongLLaDAを提案する。
提案法は, 拡散LDMのコンテキストウィンドウの拡張に有効であることを示す。
さらに,拡散LDMが自己回帰LDMなどよりも優れる長文タスクを識別する。
そこで本研究では,長文拡散LDMの研究を推し進めるために重要な理論的洞察と実証的ベンチマークを提供しながら,拡散LDMの最初の長さ外挿法を確立した。
コードはhttps://github.com/OpenMOSS/LongLLaDAで公開されている。
関連論文リスト
- Smooth Reading: Bridging the Gap of Recurrent LLM to Self-Attention LLM on Long-Context Tasks [22.376992141725495]
人間の読み方から着想を得たチャンクワイド推論手法であるSmooth Readingを提案する。
実験結果から,長文タスクにおけるリカレントLLMとセルフアテンションLLMのパフォーマンスギャップが大幅に狭まることがわかった。
提案手法は, 自己注意型LPMに比べて3倍高速に学習し, 64kコンテキストで2倍高速に推定する。
論文 参考訳(メタデータ) (2025-07-25T15:02:45Z) - LLM Cannot Discover Causality, and Should Be Restricted to Non-Decisional Support in Causal Discovery [30.24849564413826]
LLMの自己回帰的相関モデルが本質的に因果推論の理論的根拠を欠いていることを実証する。
我々は、故意にプロンプトエンジニアリングが彼らの業績を誇張し、現在の文献の多くで報告された一貫した好ましい結果を説明するのに役立つことを示している。
我々は,LLMを鼻で適用することから,因果発見の根本原理を尊重する専門的なモデルや訓練方法の開発に焦点を移すことをコミュニティに求めて結論付けた。
論文 参考訳(メタデータ) (2025-06-01T05:38:56Z) - R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。
本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。
提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-03-07T17:14:44Z) - Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。
近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。
そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文 参考訳(メタデータ) (2025-02-04T17:26:58Z) - ALR$^2$: A Retrieve-then-Reason Framework for Long-context Question Answering [42.146660039671076]
我々は,大規模言語モデル(LLM)のための検索・推論フレームワークを開発した。
現代のLLMは、関連した事実を正確に回収するのに苦労し、代わりにしばしば「検索された事実」を幻覚させる。
本稿では,LLMの長文推論能力を明示的な2段階手順で拡張する手法であるALR$2$を紹介する。
論文 参考訳(メタデータ) (2024-10-04T08:29:12Z) - Learning on Graphs with Large Language Models(LLMs): A Deep Dive into Model Robustness [39.57155321515097]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な性能を示している。
LLMがグラフ上での学習において堅牢性を示すかどうかは不明である。
論文 参考訳(メタデータ) (2024-07-16T09:05:31Z) - Rethinking Interpretability in the Era of Large Language Models [76.1947554386879]
大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著な機能を示している。
自然言語で説明できる能力により、LLMは人間に与えられるパターンのスケールと複雑さを拡大することができる。
これらの新しい機能は、幻覚的な説明や膨大な計算コストなど、新しい課題を提起する。
論文 参考訳(メタデータ) (2024-01-30T17:38:54Z) - Extending LLMs' Context Window with 100 Samples [42.52554295241792]
LLM(Large Language Models)は、事前訓練されたコンテキストウィンドウを超えて、外挿能力に制限があることが知られている。
最近の研究は回転位置埋め込み(RoPE)を改良してコンテキストウィンドウを拡張しようとしている。
我々は、RoPEのベース周波数の調整と注意ログのスケーリングを組み合わせて、LLMがより大きなコンテキストウインドウに効率的に適応するのに役立つ新しい拡張をRoPEに導入する。
論文 参考訳(メタデータ) (2024-01-13T07:57:01Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Survey on Factuality in Large Language Models: Knowledge, Retrieval and
Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。
LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文 参考訳(メタデータ) (2023-10-11T14:18:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。