論文の概要: EndPrompt: Efficient Long-Context Extension via Terminal Anchoring
- arxiv url: http://arxiv.org/abs/2605.14589v1
- Date: Thu, 14 May 2026 09:00:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.739103
- Title: EndPrompt: Efficient Long-Context Extension via Terminal Anchoring
- Title(参考訳): EndPrompt: ターミナルアンコリングによる効率的な長期拡張
- Authors: Han Tian, Luxuan Chen, Xinran Chen, Rui Kong, Fang Wang, Jiamin Chen, Jinman Zhao, Yuchen Li, Jiashu Zhao, Shuaiqiang Wang, Haoyi Xiong, Dawei Yin,
- Abstract要約: 本稿では,短いトレーニングシーケンスのみを用いて,効果的なコンテキスト拡張を実現する手法であるEndPromptを提案する。
我々は、元の短いコンテキストを無傷の第1セグメントとして保存し、短い端末プロンプトを第2セグメントとして追加し、ターゲットコンテキスト長の近傍に位置指標を割り当てる。
エンドプロンプトの平均RULERスコアは76.03で、LongBenchでは最高であり、LCEG(72.24)、LongLoRA(72.95)、フル長のファインチューニングを上回っている。
- 参考スコア(独自算出の注目度): 62.81677226065374
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Extending the context window of large language models typically requires training on sequences at the target length, incurring quadratic memory and computational costs that make long-context adaptation expensive and difficult to reproduce. We propose EndPrompt, a method that achieves effective context extension using only short training sequences. The core insight is that exposing a model to long-range relative positional distances does not require constructing full-length inputs: we preserve the original short context as an intact first segment and append a brief terminal prompt as a second segment, assigning it positional indices near the target context length. This two-segment construction introduces both local and long-range relative distances within a short physical sequence while maintaining the semantic continuity of the training text--a property absent in chunk-based simulation approaches that split contiguous context. We provide a theoretical analysis grounded in Rotary Position Embedding and the Bernstein inequality, showing that position interpolation induces a rigorous smoothness constraint over the attention function, with shared Transformer parameters further suppressing unstable extrapolation to unobserved intermediate distances. Applied to LLaMA-family models extending the context window from 8K to 64K, EndPrompt achieves an average RULER score of 76.03 and the highest average on LongBench, surpassing LCEG (72.24), LongLoRA (72.95), and full-length fine-tuning (69.23) while requiring substantially less computation. These results demonstrate that long-context generalization can be induced from sparse positional supervision, challenging the prevailing assumption that dense long-sequence training is necessary for reliable context-window extension. The code is available at https://github.com/clx1415926/EndPrompt.
- Abstract(参考訳): 大きな言語モデルのコンテキストウィンドウを拡張するには、典型的にはターゲット長のシーケンスをトレーニングする必要がある。
本稿では,短いトレーニングシーケンスのみを用いて,効果的なコンテキスト拡張を実現する手法であるEndPromptを提案する。
中心となる洞察は、モデルを長距離の相対的な位置距離に露出させることで、元の短いコンテキストを無傷の第1セグメントとして保存し、短い端末プロンプトを第2セグメントとして追加し、ターゲットのコンテキスト長に近い位置指標を割り当てる、という完全な入力を構築する必要がないことである。
この2分割構成は、連続したコンテキストを分割するチャンクベースのシミュレーションアプローチに欠けている特性であるトレーニングテキストのセマンティックな連続性を維持しつつ、局所的および長距離な相対距離を短い物理シーケンス内で導入する。
本稿では、回転位置埋め込みとベルンシュタインの不等式に基づく理論的解析を行い、位置補間が注意関数に対する厳密な滑らか性制約を誘導し、共有トランスフォーマーパラメータは不安定な外挿を未観測中間距離にさらに抑制することを示した。
コンテキストウィンドウを8Kから64Kに拡張するLLaMAモデルに対して、EndPromptは平均RULERスコア76.03を達成し、LCEG(72.24)、LongLoRA(72.95)、フル長の微調整(69.23)をはるかに少ない計算で上回っている。
これらの結果から,コンテキスト・ウインドウ拡張に高密度な長期学習が必要であるという仮定に挑戦し,疎度な位置監視から長期コンテキストの一般化を導出できることが示唆された。
コードはhttps://github.com/clx1415926/EndPrompt.comで公開されている。
関連論文リスト
- Shuffle the Context: RoPE-Perturbed Self-Distillation for Long-Context Adaptation [86.62036852878354]
大規模言語モデル(LLM)は、信頼性の高い長文理解を必要とする設定でますます運用される。
位置ロバスト性を向上させるトレーニングレギュレータであるRoPE-Perturbed Self-Distillationを提案する。
Llama-3-8BとQwen-3-4Bの長文適応実験は、長文ベンチマークにおいて一貫した利得を示す。
論文 参考訳(メタデータ) (2026-04-15T18:46:35Z) - $π$-Attention: Periodic Sparse Transformers for Efficient Long-Context Modeling [5.216774377033164]
PiAttentionは周期的なスパース変換器で、注意をリングローカルな地区に分解する。
PiAttentionは、RingAttentionよりも8.3%低いパープレキシティで、高密度の注意品質と一致または超える。
論文 参考訳(メタデータ) (2025-11-12T09:09:13Z) - Beyond Length: Quantifying Long-Range Information for Long-Context LLM Pretraining Data [67.46386646195818]
我々はLongFilterを紹介した。LongFilterは、長文事前学習に適したトレーニングデータをキュレートするフレームワークである。
LongFilterは、長いコンテキスト下でのモデル予測と短いコンテキスト設定の対比によって、拡張コンテキストによって提供される情報ゲインを測定する。
LLaMA-3-8Bによる実験は、コンテキスト長を8Kから64Kに拡張し、LongFilterが効率よく高品質のデータを選択し、HELMET、LongBench、RULERなどのベンチマークで大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2025-10-29T06:21:08Z) - LaMPE: Length-aware Multi-grained Positional Encoding for Adaptive Long-context Scaling Without Training [45.74983991122073]
大規模言語モデル(LLM)は、入力が事前学習されたコンテキストウインドウを超えると、大幅な性能低下を経験する。
近年の研究では、OOD位置を固定写像戦略で分配範囲に再配置することでこの問題を緩和している。
本研究では,Longth-aware Multi-grained Positional Scaling (LaMPE)を提案する。
論文 参考訳(メタデータ) (2025-08-04T11:22:13Z) - Long Context Alignment with Short Instructions and Synthesized Positions [56.1267385315404]
本稿では,ステップスキッピングアライメント(SkipAlign)を紹介する。
これは、Large Language Models(LLMs)の長期コンテキスト機能を強化するために設計された新しい技術である。
ベースモデルとアライメントデータセットを慎重に選択することで、SkipAlignは6Bパラメータだけで最高のパフォーマンスを実現し、LongBenchのGPT-3.5-Turbo-16Kのような強力なベースラインに匹敵する。
論文 参考訳(メタデータ) (2024-05-07T01:56:22Z) - CLEX: Continuous Length Extrapolation for Large Language Models [68.43814043853347]
大規模言語モデル(LLM)のためのCLEX(Continuous Longth Extrapolation)を提案する。
CLEXはコンテキストウィンドウを4倍または8倍のトレーニング長に拡張するが、性能は劣化しない。
我々のモデルは4k長でトレーニングされ、最先端のオープンソースモデルに対して最大32k長でトレーニングされた。
論文 参考訳(メタデータ) (2023-10-25T08:13:02Z) - Extending Context Window of Large Language Models via Positional
Interpolation [26.076599895589098]
我々は,RoPEをベースとした事前学習LLMのコンテキストウィンドウサイズを,最小限の微調整(1000ステップ以内)で最大32768まで拡張する位置補間法を提案する。
パスキー検索,言語モデリング,LLaMA 7B から 65B までの長い文書要約など,長いコンテキストを必要とするタスクに対して,強い経験的結果を示す。
論文 参考訳(メタデータ) (2023-06-27T16:26:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。