論文の概要: Gecko: An Efficient Neural Architecture Inherently Processing Sequences with Arbitrary Lengths
- arxiv url: http://arxiv.org/abs/2601.06463v1
- Date: Sat, 10 Jan 2026 07:12:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.828001
- Title: Gecko: An Efficient Neural Architecture Inherently Processing Sequences with Arbitrary Lengths
- Title(参考訳): Gecko: 任意の長さでシーケンスを効率的に処理するニューラルネットワーク
- Authors: Xuezhe Ma, Shicheng Wen, Linghao Jin, Bilge Acun, Ruihang Lai, Bohan Hou, Will Lin, Hao Zhang, Songlin Yang, Ryan Lee, Mengxi Wu, Jonathan May, Luke Zettlemoyer, Carole-Jean Wu,
- Abstract要約: 本稿では,Mega と Megalodon の設計を継承するニューラルアーキテクチャである Gecko を提案する。
70億のパラメータと2兆のトレーニングトークンのスケールで、Llama2とMegalodonの事前トレーニングを制御して比較すると、Geckoはより効率的な効率と長時間コンテキストのスケーラビリティを実現している。
- 参考スコア(独自算出の注目度): 72.23218641825571
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Designing a unified neural network to efficiently and inherently process sequential data with arbitrary lengths is a central and challenging problem in sequence modeling. The design choices in Transformer, including quadratic complexity and weak length extrapolation, have limited their ability to scale to long sequences. In this work, we propose Gecko, a neural architecture that inherits the design of Mega and Megalodon (exponential moving average with gated attention), and further introduces multiple technical components to improve its capability to capture long range dependencies, including timestep decay normalization, sliding chunk attention mechanism, and adaptive working memory. In a controlled pretraining comparison with Llama2 and Megalodon in the scale of 7 billion parameters and 2 trillion training tokens, Gecko achieves better efficiency and long-context scalability. Gecko reaches a training loss of 1.68, significantly outperforming Llama2-7B (1.75) and Megalodon-7B (1.70), and landing close to Llama2-13B (1.67). Notably, without relying on any context-extension techniques, Gecko exhibits inherent long-context processing and retrieval capabilities, stably handling sequences of up to 4 million tokens and retrieving information from contexts up to $4\times$ longer than its attention window. Code: https://github.com/XuezheMax/gecko-llm
- Abstract(参考訳): 任意の長さのシーケンシャルデータを効率的かつ本質的に処理する統合ニューラルネットワークを設計することは、シーケンスモデリングにおける中心的で困難な問題である。
Transformerの設計選択は、二次的な複雑さと弱い長さの補間を含む、長いシーケンスにスケールする能力に制限がある。
本稿では,Mega と Megalodon の設計を継承するニューラルアーキテクチャである Gecko を提案する。また,時間経過減衰正規化やスライディングチャンクアテンション機構,適応型ワーキングメモリなどの長距離依存を捉える能力を改善するために,複数の技術コンポーネントを導入する。
70億のパラメータと2兆のトレーニングトークンのスケールで、Llama2とMegalodonの事前トレーニングを制御して比較すると、Geckoはより効率的な効率と長時間コンテキストのスケーラビリティを実現している。
ゲコは1.68の訓練損失に達し、Llama2-7B (1.75) とMegalodon-7B (1.70) を大きく上回り、Llama2-13B (1.67) に近づいた。
特に、コンテキスト拡張技術に頼らずに、Geckoは固有のロングコンテキスト処理と検索機能を示し、400万のトークンのシーケンスを安定して処理し、コンテキストから情報を検索する。
コード:https://github.com/XuezheMax/gecko-llm
関連論文リスト
- LAWCAT: Efficient Distillation from Quadratic to Linear Attention with Convolution across Tokens for Long Context Modeling [27.045621004239067]
本稿では,事前学習した変圧器の性能を線形アテンションアーキテクチャに効率よく伝達する新しい線形化フレームワークであるLAWCATを提案する。
LAWCATは因果Conv1D層を統合し、局所的な依存性モデリングを強化し、正規化されたゲート付き線形アテンションを用いてコンテキスト長の一般化を改善する。
以上の結果から,Mistral-7Bを1K長で蒸留すると,90%以上のパスキー検索精度が最大22Kトークンとなることがわかった。
論文 参考訳(メタデータ) (2025-09-22T22:43:44Z) - Megalodon: Efficient LLM Pretraining and Inference with Unlimited Context Length [112.75694077842604]
文脈長無制限の効率的なシーケンスモデリングのためのニューラルネットワークであるMegalodonを紹介する。
Llama2と比較して、Megalodonは70億のパラメータと2兆のトレーニングトークンのスケールでTransformerよりも効率が良い。
論文 参考訳(メタデータ) (2024-04-12T20:28:14Z) - LongNet: Scaling Transformers to 1,000,000,000 Tokens [146.4077038371075]
LongNetはTransformerの変種で、シーケンス長を10億以上のトークンに拡張できる。
我々の研究は、例えば、コーパス全体やインターネット全体をシーケンスとして扱うなど、非常に長いシーケンスをモデリングする新たな可能性を開く。
論文 参考訳(メタデータ) (2023-07-05T17:59:38Z) - Hyena Hierarchy: Towards Larger Convolutional Language Models [115.82857881546089]
ハイエナは、暗黙的にパラメトリケートされた長い畳み込みとデータ制御ゲーティングをインターリーブすることによって構築された注意のための準四分法的なドロップイン置換である。
数千から数十万のトークン列のリコールおよび推論タスクにおいて、ハイエナは状態空間やその他の暗黙的かつ明示的なメソッドに依存する演算子よりも50ポイント以上精度を向上させる。
論文 参考訳(メタデータ) (2023-02-21T18:29:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。