論文の概要: Probing the Limits of Compressive Memory: A Study of Infini-Attention in Small-Scale Pretraining
- arxiv url: http://arxiv.org/abs/2512.23862v1
- Date: Mon, 29 Dec 2025 21:02:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.215584
- Title: Probing the Limits of Compressive Memory: A Study of Infini-Attention in Small-Scale Pretraining
- Title(参考訳): 圧縮記憶の限界を探る:小型予備訓練における無限注意の検討
- Authors: Ruizhe Huang, Kexuan Zhang, Yihao Fang, Baifeng Yu,
- Abstract要約: 本研究では,小言語モデル(SLM)の小規模事前学習について検討する。
Infini-attentionは、ローカルの注意を守りながら、過去のセグメントから圧縮されたメモリを構築する。
この結果から,SLMにおける堅牢な長期コンテキストの実現は,Infini-attentionのようなアーキテクチャ記憶の恩恵を受けることが示唆された。
- 参考スコア(独自算出の注目度): 4.504354174605603
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This study investigates small-scale pretraining for Small Language Models (SLMs) to enable efficient use of limited data and compute, improve accessibility in low-resource settings and reduce costs. To enhance long-context extrapolation in compact models, we focus on Infini-attention, which builds a compressed memory from past segments while preserving local attention. In our work, we conduct an empirical study using 300M-parameter LLaMA models pretrained with Infini-attention. The model demonstrates training stability and outperforms the baseline in long-context retrieval. We identify the balance factor as a key part of the model performance, and we found that retrieval accuracy drops with repeated memory compressions over long sequences. Even so, Infini-attention still effectively compensates for the SLM's limited parameters. Particularly, despite performance degradation at a 16,384-token context, the Infini-attention model achieves up to 31% higher accuracy than the baseline. Our findings suggest that achieving robust long-context capability in SLMs benefits from architectural memory like Infini-attention.
- Abstract(参考訳): 本研究では,Small Language Models (SLM) の大規模事前学習を行い,データと計算の効率的な利用,低リソース環境におけるアクセシビリティの向上,コスト削減を図る。
本研究では,局所的な注意を保ちながら,過去のセグメントから圧縮メモリを構築するInfini-attentionに着目した。
本研究では,インフィニアテンションで事前学習した300MパラメータLLaMAモデルを用いた実験的検討を行った。
このモデルはトレーニングの安定性を示し、長文検索においてベースラインを上回っている。
モデル性能の重要な部分としてバランス係数を同定し、長いシーケンスで繰り返しメモリ圧縮を行うと、検索精度が低下することを示した。
それでも、インフィニアテンションはSLMの限られたパラメータを効果的に補償する。
特に、16,384 tokenの文脈での性能劣化にもかかわらず、Infini-attentionモデルはベースラインよりも最大31%高い精度を達成する。
この結果から,SLMにおける堅牢な長期コンテキストの実現は,Infini-attentionのようなアーキテクチャ記憶の恩恵を受けることが示唆された。
関連論文リスト
- Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free [81.65559031466452]
我々は、ゲーティング強化ソフトマックスアテンションの変種を調べる実験を行った。
SDPA(Scaled Dot-Product Attention)後の頭部特異的シグモイドゲートを簡易に修正することで,性能が向上することがわかった。
論文 参考訳(メタデータ) (2025-05-10T17:15:49Z) - InfiniPot: Infinite Context Processing on Memory-Constrained LLMs [17.111422610001227]
InfiniPotは、トレーニング済みの大規模言語モデルで広範囲のシーケンスを効率的に管理できるように設計された、新しいKVキャッシュ制御フレームワークである。
InfiniPotは、将来のコンテキストにアクセスしなくても、重要なデータを効果的に維持する。
この研究は、広範囲の現実世界のシナリオに適用できるようにするための大きな言語モデルの実現に向けた大きな進歩を示している。
論文 参考訳(メタデータ) (2024-10-02T13:09:41Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - ReAttention: Training-Free Infinite Context with Finite Attention Scope [65.91272939057592]
ReAttentionは、十分なメモリリソースの下で、有限の注意範囲を持つ無限のコンテキストをサポートするトレーニング不要のアプローチである。
本稿では,LongBench,L-Eval,InfiniteBenchにおけるReAttentionの性能を検証し,従来の手法と同等であることを示す。
LLaMA3.1-8B や Mistral-v0.3-7B など,LLaMA3.1-8B や Mistral-v0.3-7B など,LLaMA3.2-3B-chat のコンテキスト長を128$times$ から 4M に拡張して,LLaMA3.2-3B-chat のコンテキスト長を少なくとも 1M までサポートすることができる。
論文 参考訳(メタデータ) (2024-07-21T14:23:37Z) - Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention [6.713196608291278]
本研究では,トランスフォーマーをベースとしたLarge Language Modelを,メモリと計算を境界とした無限に長い入力に拡張する効率的な手法を提案する。
提案手法の重要な要素は、Infini-attentionと呼ばれる新しい注意手法である。
論文 参考訳(メタデータ) (2024-04-10T16:18:42Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z) - Online Continual Learning Without the Storage Constraint [67.66235695269839]
我々は、kNN分類器を固定された事前訓練された特徴抽出器とともに継続的に更新する簡単なアルゴリズムを提案する。
高速に変化するストリームに適応し、安定性のギャップをゼロにし、小さな計算予算内で動作し、機能のみを格納することで、ストレージ要件を低くすることができる。
2つの大規模オンライン連続学習データセットにおいて、既存の手法を20%以上の精度で上回ることができる。
論文 参考訳(メタデータ) (2023-05-16T08:03:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。