論文の概要: APCE: Adaptive Progressive Context Expansion for Long Context Processing
- arxiv url: http://arxiv.org/abs/2510.12051v1
- Date: Tue, 14 Oct 2025 01:26:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.137105
- Title: APCE: Adaptive Progressive Context Expansion for Long Context Processing
- Title(参考訳): APCE:ロングコンテキスト処理のための適応的プログレッシブコンテキスト拡張
- Authors: Baisub Lee, Sanghyun Byun, Mohanad Odema, Jung Guack, Jacob Song, Woo Seong Chung,
- Abstract要約: 本稿では,処理において最も重要な入力チャンクを選択するためのコンテキスト認識ソリューションとしてAPCEを提案する。
入力を直接操作することで、APCEは基盤となるハードウェアやスケーラブルな環境への厳格な依存から切り離される。
実験により,APCEの総密度ベースラインに比べて,APCEの総和性能は優れていた。
- 参考スコア(独自算出の注目度): 0.5274824616260646
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deploying useful Long-Context Transformer Models (LCTMs) requires addressing two key challenges: (1) A growing memory footprint due to quadratic self-attention and linear KV-cache scaling in memory as sequence length increases; (2) the ContextRot phenomena where empirical evidence suggests that transformer architecture's performance degrades with increasing context length. Given the shared dependency on the input, a natural question arises: Can we surgically select the most important input chunks for processing to synergistically (a) reduce the memory footprint, and (b) mitigate the ContextRot effects? In this paper, we answer this question in the affirmative for long-context summarization tasks. We propose APCE as a context-aware solution to select the most important input chunks through low-dimensional semantic similarity matching with the current query. By directly operating on the input, APCE decouples from strict dependency on underlying hardware or CUDA environments, promising a compatible solution scalable to different deployment systems. Our empirical evaluations have demonstrated superior or on-par summarization performance for APCE compared to the full dense baseline using a fraction (50%-70%) of the input sequence resulting in KV-cache and self-attention memory efficiency improvements. We hope our findings inspire further research on context-aware efficiency solutions for LCTMs geared towards other relevant long-context tasks.
- Abstract(参考訳): LCTM(Long-Context Transformer Models)のデプロイには,(1)2次自己アテンションによるメモリフットプリントの増大と,シーケンス長の増加に伴うメモリの線形KVキャッシュスケーリング,(2)コンテクストアーキテクチャのパフォーマンスが,コンテキスト長の増加とともに低下することを示すContextRot現象の2つの重要な課題に対処する必要がある。
入力の共有依存性を考えると、自然な疑問が生まれます。 処理において最も重要な入力チャンクを外科的に選択して、相乗的に処理できますか?
(a)メモリフットプリントを減らし
(b)ContextRotの効果を緩和する?
本稿では,長文要約タスクに対する肯定的回答として,この疑問に答える。
そこで我々は,APCE をコンテキスト認識型ソリューションとして提案し,クエリに適合する低次元意味的類似性を用いて,最も重要な入力チャンクを選択する。
入力を直接操作することで、APCEは基盤となるハードウェアやCUDA環境への厳格な依存から切り離し、異なるデプロイメントシステムにスケーラブルな互換性のあるソリューションを約束する。
実験により, 入力シーケンスの分数(50%-70%)を用いて, KVキャッシュと自己アテンション記憶効率の向上を図った。
我々の研究成果は、他の関連する長文タスクに向け、LCTMの文脈認識効率ソリューションに関するさらなる研究を促すことを願っている。
関連論文リスト
- REFRAG: Rethinking RAG based Decoding [67.4862300145604]
REFRAGは効率的なデコードフレームワークで、RAGアプリケーションの遅延を圧縮し、感知し、拡張し、改善する。
本稿では,RAG,マルチターン会話,長期文書要約など,多種多様な長文タスクを対象としたREFRAGの厳密な検証を行う。
論文 参考訳(メタデータ) (2025-09-01T03:31:44Z) - Lag-Relative Sparse Attention In Long Context Training [8.365610885641276]
本稿では,LagKV圧縮法で固定されたLag-Relative Sparse Attention(LRSA)を長期学習後に提案する。
本手法はチャンク・バイ・チャンク・プリフィルを行い, 固定サイズのラグウィンドウにおいて, 最上位のキー値ペアを選択する。
論文 参考訳(メタデータ) (2025-06-13T06:49:53Z) - Compress, Gather, and Recompute: REFORMing Long-Context Processing in Transformers [58.98923344096319]
REFORMは、2フェーズアプローチによって、長いコンテキストを効率的に処理する新しい推論フレームワークである。
RULERとBABILongでそれぞれ1Mコンテキスト長で50%以上と27%のパフォーマンス向上を達成した。
また、Infinite-BenchとMM-NIAHのベースラインを上回り、さまざまなタスクやドメインの柔軟性を示す。
論文 参考訳(メタデータ) (2025-06-01T23:49:14Z) - Squeezed Attention: Accelerating Long Context Length LLM Inference [61.787865959140994]
本稿では,入力コンテキストの大部分を固定したアプリケーションを高速化するために,Squeezed Attentionを提案する。
推論中、ユーザ入力からのクエリトークンとセントロイドを比較し、固定されたコンテキストからどのキーが意味論的に関連しているかを予測する。
また,線形から対数的への注意の複雑さを,固定した文脈長に対して低減できる階層型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-14T18:54:19Z) - A Thorough Performance Benchmarking on Lightweight Embedding-based Recommender Systems [67.52782366565658]
State-of-the-art recommender system (RS) は、埋め込みベクトルによって符号化される分類的特徴に依存し、結果として非常に大きな埋め込みテーブルとなる。
軽量埋め込み型RSの繁栄にもかかわらず、評価プロトコルには幅広い多様性が見られる。
本研究では, LERSの性能, 効率, クロスタスク転送性について, 徹底的なベンチマークによる検討を行った。
論文 参考訳(メタデータ) (2024-06-25T07:45:00Z) - Bifurcated Attention: Accelerating Massively Parallel Decoding with Shared Prefixes in LLMs [39.16152482491236]
Bifurcated attentionは、共有コンテキストバッチデコードシナリオにおける言語モデル推論を強化するために設計された手法である。
提案手法は,高バッチサイズおよび拡張コンテキスト長のレイテンシに寄与する重要な要因である冗長メモリIOコストの課題に対処する。
論文 参考訳(メタデータ) (2024-03-13T16:30:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。