論文の概要: xLSTM Scaling Laws: Competitive Performance with Linear Time-Complexity
- arxiv url: http://arxiv.org/abs/2510.02228v1
- Date: Thu, 02 Oct 2025 17:14:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:21.244492
- Title: xLSTM Scaling Laws: Competitive Performance with Linear Time-Complexity
- Title(参考訳): xLSTMスケーリング法則:線形時間複雑度による競合性能
- Authors: Maximilian Beck, Kajetan Schweighofer, Sebastian Böck, Sebastian Lehner, Sepp Hochreiter,
- Abstract要約: スケーリング法則は、大規模言語モデルの成功において中心的な役割を果たす。
xLSTMのような最近の選択肢は、コンテキスト長に関する線形複雑性を提供する。
xLSTMの利点は、トレーニングと推論のコンテキストが大きくなるにつれて拡大します。
- 参考スコア(独自算出の注目度): 22.40851170527
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Scaling laws play a central role in the success of Large Language Models (LLMs), enabling the prediction of model performance relative to compute budgets prior to training. While Transformers have been the dominant architecture, recent alternatives such as xLSTM offer linear complexity with respect to context length while remaining competitive in the billion-parameter regime. We conduct a comparative investigation on the scaling behavior of Transformers and xLSTM along the following lines, providing insights to guide future model design and deployment. First, we study the scaling behavior for xLSTM in compute-optimal and over-training regimes using both IsoFLOP and parametric fit approaches on a wide range of model sizes (80M-7B) and number of training tokens (2B-2T). Second, we examine the dependence of optimal model sizes on context length, a pivotal aspect that was largely ignored in previous work. Finally, we analyze inference-time scaling characteristics. Our findings reveal that in typical LLM training and inference scenarios, xLSTM scales favorably compared to Transformers. Importantly, xLSTM's advantage widens as training and inference contexts grow.
- Abstract(参考訳): スケール法則は、大規模言語モデル(LLM)の成功において中心的な役割を担い、トレーニング前の計算予算に対するモデル性能の予測を可能にする。
トランスフォーマーは支配的なアーキテクチャであるが、最近のxLSTMのような代替手段は、コンテキスト長に関して線形な複雑さを提供する一方で、数十億パラメータのシステムでは競争力を維持している。
トランスフォーマーとxLSTMのスケーリング挙動について、以下の線に沿って比較検討を行い、将来のモデル設計と展開の指針を提供する。
まず、IsoFLOPとパラメトリック適合法(80M-7B)とトレーニングトークン数(2B-2T)を用いて、計算最適およびオーバートレーニング体制におけるxLSTMのスケーリング挙動について検討した。
第2に,従来の研究では無視されていた重要な側面である文脈長に対する最適モデルサイズの影響について検討した。
最後に,推定時間のスケーリング特性を解析する。
その結果,典型的なLLMトレーニングや推論のシナリオでは,xLSTMはトランスフォーマーと比較して好適にスケールすることがわかった。
重要な点として、xLSTMの利点はトレーニングと推論のコンテキストが大きくなるにつれて拡大する。
関連論文リスト
- AF-MAT: Aspect-aware Flip-and-Fuse xLSTM for Aspect-based Sentiment Analysis [0.6498237940960344]
我々は,xLSTMの強みを利用するフレームワークであるAF-MAT(Aspect-aware Flip-and-Fuse xLSTM)を紹介する。
AF-MATは、専用アスペクトゲートを導入するAspect-awareMatrix LSTMメカニズムを備えており、メモリ更新中にターゲットアスペクトに意味のあるトークンを選択的に強調することができる。
AF-MATが最先端のベースラインを上回る3つのベンチマークデータセットの実験により、ABSAタスクの精度が向上した。
論文 参考訳(メタデータ) (2025-07-01T22:21:33Z) - Communication-Efficient Language Model Training Scales Reliably and Robustly: Scaling Laws for DiLoCo [22.7130140114906]
固定計算予算下でのLLMのトレーニングにおいて,DiLoCoのスケーリング法挙動について検討した。
DiLoCoはモデルサイズで予測可能かつ堅牢にスケールする。
十分に調整された場合、DiLoCoはモデルサイズでデータ並列トレーニングよりもスケールし、小さなモデルサイズでもデータ並列トレーニングよりパフォーマンスがよい。
論文 参考訳(メタデータ) (2025-03-12T20:04:38Z) - Cost-Optimal Grouped-Query Attention for Long-Context Modeling [45.981681856747365]
Grouped-Query Attention(GQA)は、大規模言語モデルにおける注目層の計算コストを削減するための広く採用されている戦略である。
我々は,文脈長,モデルサイズ,GQA構成,モデル損失の関係を分析する。
コスト最適GQA構成の導出法を提案する。
論文 参考訳(メタデータ) (2025-03-12T17:50:42Z) - Latent Thought Models with Variational Bayes Inference-Time Computation [52.63299874322121]
ラテント思考モデル(LTM)は、ラテント空間における明示的な事前モデルに従う明示的なラテント思考ベクトルを包含する。
LTMは自己回帰モデルや離散拡散モデルよりも優れたサンプルおよびパラメータ効率を示す。
論文 参考訳(メタデータ) (2025-02-03T17:50:34Z) - Optimizing Sequential Recommendation Models with Scaling Laws and Approximate Entropy [104.48511402784763]
SRモデルの性能法則は,モデルの性能とデータ品質の関係を理論的に調査し,モデル化することを目的としている。
データ品質を評価するために、従来のデータ量メトリクスと比較して、より曖昧なアプローチを示すために、近似エントロピー(ApEn)を提案する。
論文 参考訳(メタデータ) (2024-11-30T10:56:30Z) - Bi-Mamba+: Bidirectional Mamba for Time Series Forecasting [5.166854384000439]
長期時系列予測(LTSF)は、将来のトレンドとパターンに関するより長い洞察を提供する。
近年,Mamba という新しい状態空間モデル (SSM) が提案されている。
入力データに対する選択的機能とハードウェア対応並列計算アルゴリズムにより、Mambaは予測性能と計算効率のバランスをとる大きな可能性を示した。
論文 参考訳(メタデータ) (2024-04-24T09:45:48Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。