論文の概要: Stacked from One: Multi-Scale Self-Injection for Context Window Extension
- arxiv url: http://arxiv.org/abs/2603.04759v1
- Date: Thu, 05 Mar 2026 03:16:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.050245
- Title: Stacked from One: Multi-Scale Self-Injection for Context Window Extension
- Title(参考訳): Stacked from One: コンテキストウィンドウ拡張のためのマルチスケールセルフインジェクション
- Authors: Wei Han, Pan Zhou, Shuicheng Yan,
- Abstract要約: Modelnameは、多粒度コンテキスト圧縮とクエリ対応情報取得に基づく新しいフレームワークである。
modelnameachievesパフォーマンスは、強いベースラインと同等か、優れている。
- 参考スコア(独自算出の注目度): 69.24689919827817
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The limited context window of contemporary large language models (LLMs) remains a primary bottleneck for their broader application across diverse domains. Although continual pre-training on long-context data offers a straightforward solution, it incurs prohibitive data acquisition and computational costs. To address this challenge, we propose~\modelname, a novel framework based on multi-grained context compression and query-aware information acquisition. SharedLLM comprises two stacked short-context LLMs: a lower model serving as a compressor and an upper model acting as a decoder. The lower model compresses long inputs into compact, multi-grained representations, which are then forwarded to the upper model for context-aware processing. To maximize efficiency, this information transfer occurs exclusively at the lowest layers, bypassing lengthy forward passes and redundant cross-attention operations. This entire process, wherein the upper and lower models are derived from the same underlying LLM layers, is termed~\textit{self-injection}. To support this architecture, a specialized tree-based data structure enables the efficient encoding and query-aware retrieval of contextual information. Despite being trained on sequences of only 8K tokens, \modelname~effectively generalizes to inputs exceeding 128K tokens. Across a comprehensive suite of long-context modeling and understanding benchmarks, \modelname~achieves performance superior or comparable to strong baselines, striking an optimal balance between efficiency and accuracy. Furthermore, these design choices allow \modelname~to substantially reduce the memory footprint and yield notable inference speedups ($2\times$ over streaming and $3\times$ over encoder-decoder architectures).
- Abstract(参考訳): 現代の大規模言語モデル(LLM)の限られたコンテキストウィンドウは、さまざまなドメインにわたる幅広いアプリケーションにとって、依然として主要なボトルネックとなっている。
長いコンテキストデータに対する連続的な事前トレーニングは、簡単なソリューションを提供するが、禁忌なデータ取得と計算コストを発生させる。
この課題に対処するために,多粒度コンテキスト圧縮とクエリ対応情報取得に基づく新しいフレームワークである~\modelnameを提案する。
共有LLMは、圧縮機として機能する下級モデルとデコーダとして機能する上級モデルである。
下位モデルは、長い入力を圧縮してコンパクトで多粒度な表現とし、その後、コンテキスト認識処理のために上位モデルに転送する。
効率を最大化するために、この情報転送は最小層のみに行われ、長いフォワードパスと冗長なクロスアテンション操作をバイパスする。
この過程の全体は、上と下にあるモデルは同じ LLM 層から導出され、~\textit{self-injection} と呼ばれる。
このアーキテクチャをサポートするために、特別なツリーベースのデータ構造は、コンテキスト情報の効率的なエンコーディングとクエリアウェア検索を可能にする。
たった8Kトークンのシーケンスで訓練されているにもかかわらず、 \modelname~は128Kトークンを超える入力に効果的に一般化する。
長いコンテキストモデリングと理解のベンチマークの包括的なスイートの中で、‘modelname~achievesパフォーマンスが優れているか、あるいは強力なベースラインに匹敵するので、効率と精度の最適なバランスが取れます。
さらに、これらの設計選択により、 \modelname~はメモリフットプリントを大幅に減らし、ストリーミングよりも2\times$、エンコーダ-デコーダアーキテクチャよりも3\times$で顕著な推論スピードアップを得ることができる。
関連論文リスト
- Scaling LLM Speculative Decoding: Non-Autoregressive Forecasting in Large-Batch Scenarios [76.85739138203014]
本稿では,一方向および注目メカニズムを加速する新しいアーキテクチャであるSpecFormerを紹介する。
また,SpecFormerはトレーニング要求の低減と計算コストの削減を実現している。
論文 参考訳(メタデータ) (2025-11-25T14:20:08Z) - Every Step Counts: Decoding Trajectories as Authorship Fingerprints of dLLMs [63.82840470917859]
本稿では,dLLMの復号化機構をモデル属性の強力なツールとして利用できることを示す。
本稿では、デコードステップ間の構造的関係を捉え、モデル固有の振る舞いをよりよく明らかにする、DDM(Directed Decoding Map)と呼ばれる新しい情報抽出手法を提案する。
論文 参考訳(メタデータ) (2025-10-02T06:25:10Z) - SitEmb-v1.5: Improved Context-Aware Dense Retrieval for Semantic Association and Long Story Comprehension [77.93156509994994]
本研究では,検索性能を向上させるために,より広いコンテキストウインドウに条件付きで短いチャンクを表現する方法を示す。
既存の埋め込みモデルは、そのような場所のコンテキストを効果的にエンコードするのに十分な装備がない。
我々の手法は、最先端の埋め込みモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2025-08-03T23:59:31Z) - Two are better than one: Context window extension with multi-grained self-injection [111.1376461868317]
SharedLLMは、多粒度コンテキスト圧縮とクエリ対応情報検索の設計哲学に基づく新しいアプローチである。
本研究では,テキストチャンクの多粒度コンテキスト情報を効率的にエンコードし,保存し,検索するための木構造データ構造を提案する。
論文 参考訳(メタデータ) (2024-10-25T06:08:59Z) - LOCOST: State-Space Models for Long Document Abstractive Summarization [76.31514220737272]
長いコンテキスト入力を持つ条件付きテキスト生成のための状態空間モデルに基づくエンコーダデコーダアーキテクチャであるLOCOSTを提案する。
計算複雑性が$O(L log L)$の場合、このアーキテクチャは疎注意パターンに基づく最先端モデルよりもはるかに長いシーケンスを処理できる。
論文 参考訳(メタデータ) (2024-01-31T15:33:37Z) - LLMLingua: Compressing Prompts for Accelerated Inference of Large
Language Models [22.06402870816756]
大きな言語モデル(LLM)は、その驚くべき能力のために様々なアプリケーションに適用されている。
本稿では,意味的整合性を維持するための予算制御を伴う粗大なプロンプト圧縮手法であるLLMLinguaを提案する。
提案手法により,最先端性能が得られ,最大20倍圧縮が可能であり,性能損失が少ないことを示す。
論文 参考訳(メタデータ) (2023-10-09T14:10:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。