論文の概要: Smooth Reading: Bridging the Gap of Recurrent LLM to Self-Attention LLM on Long-Context Tasks
- arxiv url: http://arxiv.org/abs/2507.19353v1
- Date: Fri, 25 Jul 2025 15:02:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 16:16:49.005247
- Title: Smooth Reading: Bridging the Gap of Recurrent LLM to Self-Attention LLM on Long-Context Tasks
- Title(参考訳): Smooth Reading: 長時間作業における反復LDMから自己注意LDMへのギャップを埋める
- Authors: Kai Liu, Zhan Su, Peijie Dong, Fengran Mo, Jianfei Gao, ShaoTing Zhang, Kai Chen,
- Abstract要約: 人間の読み方から着想を得たチャンクワイド推論手法であるSmooth Readingを提案する。
実験結果から,長文タスクにおけるリカレントLLMとセルフアテンションLLMのパフォーマンスギャップが大幅に狭まることがわかった。
提案手法は, 自己注意型LPMに比べて3倍高速に学習し, 64kコンテキストで2倍高速に推定する。
- 参考スコア(独自算出の注目度): 22.376992141725495
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, recurrent large language models (Recurrent LLMs) with linear computational complexity have re-emerged as efficient alternatives to self-attention-based LLMs (Self-Attention LLMs), which have quadratic complexity. However, Recurrent LLMs often underperform on long-context tasks due to their limited fixed-size memory. Previous research has primarily focused on enhancing the memory capacity of Recurrent LLMs through architectural innovations, but these approaches have not yet enabled Recurrent LLMs to match the performance of Self-Attention LLMs on long-context tasks. We argue that this limitation arises because processing the entire context at once is not well-suited for Recurrent LLMs. In this paper, we propose Smooth Reading, a chunk-wise inference method inspired by human reading strategies. Smooth Reading processes context in chunks and iteratively summarizes the contextual information, thereby reducing memory demands and making the approach more compatible with Recurrent LLMs. Our experimental results show that this method substantially narrows the performance gap between Recurrent and Self-Attention LLMs on long-context tasks, while preserving the efficiency advantages of Recurrent LLMs. Our Smooth Reading boosts SWA-3B-4k (a Recurrent LLM) from 5.68% lower to 3.61% higher performance than Self-Attention LLMs on LongBench. Besides, our method maintains the high efficiency, training 3x faster and inferring 2x faster at 64k context compared to Self-Attention LLMs. To our knowledge, this is the first work to achieve comparable performance using Recurrent LLMs compared with Self-Attention LLMs on long-context tasks. We hope our method will inspire future research in this area. To facilitate further progress, we will release code and dataset.
- Abstract(参考訳): 近年,線形計算複雑性を持つリカレント大規模言語モデル (Recurrent LLMs) が,2次複雑性を持つ自己注意型LLM (Self-Attention LLMs) の代替として再登場している。
しかし、リカレントLDMは、固定サイズのメモリが限られているため、長いコンテキストタスクでは性能が劣ることが多い。
従来の研究は主にアーキテクチャの革新を通じて、リカレントLLMのメモリ容量の向上に重点を置いてきたが、これらのアプローチは、長期的タスクにおける自己注意LLMの性能にマッチするリカレントLLMをまだ実現していない。
この制限は、一度にコンテキスト全体を処理しても Recurrent LLM には適さないため生じると我々は主張する。
本稿では,人間の読み方から着想を得たチャンクワイド推論手法であるSmooth Readingを提案する。
Smooth Reading Processs context in chunks and iterationively sums the contextual information, so reduce memory demand and makes the approach to Recurrent LLMs。
実験結果から, この手法は, リカレントLLMとセルフアテンションLLMの長文タスクにおける性能ギャップを大幅に狭めるとともに, リカレントLLMの効率性を保っていることがわかった。
我々のSmooth ReadingはSWA-3B-4k(リカレントLDM)を5.68%から3.61%に向上させる。
さらに,本手法は,自己注意型LPMに比べて3倍高速で,64kコンテキストで2倍高速に学習する。
我々の知る限り、これはリカレントLDMとロングコンテキストタスクにおけるセルフアテンションLDMとを比較して比較した最初の成果である。
我々はこの分野での今後の研究に刺激を与えることを期待している。
さらなる進展を促進するため、コードとデータセットをリリースします。
関連論文リスト
- LLM4VV: Evaluating Cutting-Edge LLMs for Generation and Evaluation of Directive-Based Parallel Programming Model Compiler Tests [7.6818904666624395]
本稿では,コンパイラテストの生成にLLMを用いたデュアルLLMシステムと実験について述べる。
LLMは、品質の高いコンパイラテストを生成し、それらを自動的に検証する有望な可能性を持っていることは明らかである。
論文 参考訳(メタデータ) (2025-07-29T02:34:28Z) - LongLLaDA: Unlocking Long Context Capabilities in Diffusion LLMs [63.580867975515474]
拡散LDMと従来の自己回帰LDMの長文性能を比較検討する。
LLaDAとNTKベースのRoPE外挿法を統合したLongLLaDAを提案する。
論文 参考訳(メタデータ) (2025-06-17T11:45:37Z) - Iterative Self-Incentivization Empowers Large Language Models as Agentic Searchers [74.17516978246152]
大規模言語モデル(LLM)は、従来の手法を進化させるために情報検索に広く統合されている。
エージェント検索フレームワークであるEXSEARCHを提案する。
4つの知識集約ベンチマークの実験では、EXSEARCHはベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2025-05-26T15:27:55Z) - The Lottery LLM Hypothesis, Rethinking What Abilities Should LLM Compression Preserve? [35.74365188072962]
本稿では,LLMの最近の進歩として,検索強化生成,多段階推論,外部ツール,計算表現性について概説する。
本稿では,与えられたLLMとタスクに対して,元のLLMと同じ性能を生み出すことのできる,より小さなLLMが存在することを示唆する抽選LLM仮説を提案する。
論文 参考訳(メタデータ) (2025-02-24T15:39:35Z) - Efficiency Unleashed: Inference Acceleration for LLM-based Recommender Systems with Speculative Decoding [61.45448947483328]
LLMベースのレコメンダシステム(LASER)の投機的復号化によるロスレス高速化について紹介する。
LASERは、検索効率を高めるためのカスタマイズされた検索プールと、ドラフトトークンの受け入れ率を改善するための緩和検証を備えている。
LASERは公開データセットの3~5倍のスピードアップを実現し、オンラインA/Bテスト中に約67%の計算リソースを節約する。
論文 参考訳(メタデータ) (2024-08-11T02:31:13Z) - Improve Temporal Awareness of LLMs for Sequential Recommendation [61.723928508200196]
大規模言語モデル(LLM)は、幅広い汎用タスクを解く際、印象的なゼロショット能力を示した。
LLMは時間的情報の認識と利用に不足しており、シーケンシャルなデータの理解を必要とするタスクではパフォーマンスが悪い。
LLMに基づくシーケンシャルレコメンデーションのために、歴史的相互作用の中で時間情報を利用する3つのプロンプト戦略を提案する。
論文 参考訳(メタデータ) (2024-05-05T00:21:26Z) - Small Models, Big Insights: Leveraging Slim Proxy Models To Decide When and What to Retrieve for LLMs [60.40396361115776]
本稿では,スリムプロキシモデルを用いた大規模言語モデル (LLM) における知識不足を検知する新しい協調手法であるSlimPLMを提案する。
パラメータがはるかに少ないプロキシモデルを採用し、回答を回答としています。
ヒューリスティックな回答は、LLM内の既知の未知の知識と同様に、ユーザの質問に答えるために必要な知識を予測するのに使用される。
論文 参考訳(メタデータ) (2024-02-19T11:11:08Z) - InfLLM: Training-Free Long-Context Extrapolation for LLMs with an Efficient Context Memory [93.20588235940453]
本稿では,トレーニング不要なメモリベースのInfLLMを提案する。
InfLLMは、リモートコンテキストを追加のメモリユニットに格納し、トークン関連ユニットを注目するために効率的なメカニズムを使用する。
シーケンス長が$1,024$Kにスケールしても、InfLLMは依然として、長距離依存関係を効果的にキャプチャする。
論文 参考訳(メタデータ) (2024-02-07T06:50:42Z) - LLM Maybe LongLM: Self-Extend LLM Context Window Without Tuning [67.39585115936329]
LLMには、微調整なしで長いコンテキストを処理できる固有の能力がある、と我々は主張する。
バイレベルアテンション情報を構築することで,LLMのコンテキストウィンドウを拡張するためのSelfExtendを提案する。
複数のベンチマークで包括的な実験を行い、その結果、既存のLLMのコンテキストウィンドウ長を効果的に拡張できることが示されている。
論文 参考訳(メタデータ) (2024-01-02T18:30:51Z) - Investigating Answerability of LLMs for Long-Form Question Answering [35.41413072729483]
実用的で影響力のある応用がいくつかあるので、長文質問応答(LFQA)に焦点を当てる。
本稿では,要約の要約から質問生成手法を提案し,長い文書の要約からフォローアップ質問を生成することで,困難な設定を実現できることを示す。
論文 参考訳(メタデータ) (2023-09-15T07:22:56Z) - Response Length Perception and Sequence Scheduling: An LLM-Empowered LLM
Inference Pipeline [22.08897444328099]
大規模言語モデル(LLM)はAIの分野に革命をもたらし、様々なタスクで前例のない能力を示している。
本稿では,LLMのパワーを利用する効率的なLLM推論パイプラインを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:36:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。