論文の概要: Overflow Prevention Enhances Long-Context Recurrent LLMs
- arxiv url: http://arxiv.org/abs/2505.07793v1
- Date: Mon, 12 May 2025 17:45:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.525875
- Title: Overflow Prevention Enhances Long-Context Recurrent LLMs
- Title(参考訳): オーバーフロー防止はLLMの長期化を促進する
- Authors: Assaf Ben-Kish, Itamar Zimerman, M. Jehanzeb Mirza, James Glass, Leonid Karlinsky, Raja Giryes,
- Abstract要約: LLMの最近のトレンドは、長いコンテキスト処理効率を改善するために、再帰的なサブクワッドラティックモデルの開発である。
本研究では,大規模な長期コンテキストモデルにおいて,その固定サイズ再帰記憶が性能に与える影響について検討する。
実験の結果、これらのモデルが拡張コンテキストでトレーニングされている場合でも、長いコンテキストの使用は未利用のままであることが判明した。
- 参考スコア(独自算出の注目度): 41.8230324612529
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A recent trend in LLMs is developing recurrent sub-quadratic models that improve long-context processing efficiency. We investigate leading large long-context models, focusing on how their fixed-size recurrent memory affects their performance. Our experiments reveal that, even when these models are trained for extended contexts, their use of long contexts remains underutilized. Specifically, we demonstrate that a chunk-based inference procedure, which identifies and processes only the most relevant portion of the input can mitigate recurrent memory failures and be effective for many long-context tasks: On LongBench, our method improves the overall performance of Falcon3-Mamba-Inst-7B by 14%, Falcon-Mamba-Inst-7B by 28%, RecurrentGemma-IT-9B by 50%, and RWKV6-Finch-7B by 51%. Surprisingly, this simple approach also leads to state-of-the-art results in the challenging LongBench v2 benchmark, showing competitive performance with equivalent size Transformers. Furthermore, our findings raise questions about whether recurrent models genuinely exploit long-range dependencies, as our single-chunk strategy delivers stronger performance - even in tasks that presumably require cross-context relations.
- Abstract(参考訳): LLMの最近のトレンドは、長いコンテキスト処理効率を改善するために、再帰的なサブクワッドラティックモデルの開発である。
本研究では,大規模な長期コンテキストモデルにおいて,その固定サイズ再帰記憶が性能に与える影響について検討する。
実験の結果、これらのモデルが拡張コンテキストでトレーニングされている場合でも、長いコンテキストの使用は未利用のままであることが判明した。
具体的には、入力の最も関連性の高い部分のみを識別・処理するチャンクベースの推論手法が、繰り返し発生するメモリ障害を軽減し、多くの長時間コンテキストタスクに有効であることを示す: LongBenchでは、私たちの手法はFalcon3-Mamba-Inst-7Bの14%、Falcon-Mamba-Inst-7Bの28%、RecurrentGemma-IT-9Bの50%、RWKV6-Finch-7Bの51%の性能を改善する。
驚くべきことに、この単純なアプローチは、挑戦的なLongBench v2ベンチマークにおける最先端の結果をもたらし、同等のサイズのTransformerと競合する性能を示している。
さらに、単一チャンク戦略は、おそらくコンテキスト間の関係を必要とするタスクであっても、より強力なパフォーマンスを提供するので、リカレントモデルが真に長距離依存を活用できるかどうかという疑問も持ち上がっています。
関連論文リスト
- ParallelComp: Parallel Long-Context Compressor for Length Extrapolation [51.68913021512016]
ParallelCompは、長文外挿のためのトレーニング不要のメソッドである。
コンテクスト長を4Kから128Kに拡張し、高いスループットを維持し、パープレキシティを保存する。
我々の分析は、並列注意機構における注意バイアスに関する新たな洞察を提供する。
論文 参考訳(メタデータ) (2025-02-20T07:10:43Z) - Does RAG Really Perform Bad For Long-Context Processing? [15.889864680212147]
RetroLMは長文処理のための新しいフレームワークである。
従来の方法とは異なり、RetroLMはKVレベルの検索拡張を採用している。
この枠組みに基づいて,臨界ページの正確な検索を行うための特殊検索器を開発した。
論文 参考訳(メタデータ) (2025-02-17T05:02:25Z) - LCIRC: A Recurrent Compression Approach for Efficient Long-form Context and Query Dependent Modeling in LLMs [10.84210988032097]
本稿では,長文列をモデルの長さ制限を超えて効率的に処理できるLCIRC(Long-form Context Injection with Recurrent Compression)を提案する。
また、クエリ依存コンテキストモデリングを導入し、クエリ関連情報を選択的に圧縮し、モデルが最も関連するコンテンツを保持することを保証する。
論文 参考訳(メタデータ) (2025-02-10T04:02:18Z) - Breaking the Context Bottleneck on Long Time Series Forecasting [6.36010639533526]
長期の時系列予測は、経済、エネルギー、輸送における計画と意思決定に不可欠である。
最近の進歩によりこれらのモデルの効率は向上したが、より長いシーケンスを効果的に活用することの難しさは持続している。
長いシーケンスの効率的かつ効率的な処理を実現するために,Logsparse Decomposable Multiscaling (LDM) フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-21T10:29:34Z) - Rethinking Token Reduction for State Space Models [47.00760373683448]
状態空間モデル(SSM)のための調整・統一されたポストトレーニングトークン削減手法を提案する。
我々のアプローチはトークンの重要性と類似性を統合し、プルーニングとマージの両方を活用する。
本手法は,Mamba-2を用いた6つのベンチマークにおいて,従来の手法と比較して平均精度を5.7%から13.1%向上させる。
論文 参考訳(メタデータ) (2024-10-16T00:06:13Z) - Untie the Knots: An Efficient Data Augmentation Strategy for Long-Context Pre-Training in Language Models [21.90388980448712]
長いコンテキストを扱うためのトレーニングモデルには、大きな課題があります。
継続事前学習フェーズで使用される新しいデータ拡張戦略であるUntie the Knots(textbfUtK)を紹介する。
我々は、UtKがRULER上で128Kの文脈長で75%と84.5%の精度を達成したことを示す200億のトークンで訓練された7Bと72Bのパラメータを持つモデルに関する広範な実験を行った。
論文 参考訳(メタデータ) (2024-09-07T09:28:55Z) - ReMamba: Equip Mamba with Effective Long-Sequence Modeling [50.530839868893786]
本研究では,長い文脈の理解能力を高めるReMambaを提案する。
ReMambaは2段階のプロセスで選択的圧縮と適応のテクニックを取り入れている。
論文 参考訳(メタデータ) (2024-08-28T02:47:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。