論文の概要: Breaking Quadratic Barriers: A Non-Attention LLM for Ultra-Long Context Horizons
- arxiv url: http://arxiv.org/abs/2506.01963v1
- Date: Fri, 09 May 2025 00:25:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-08 12:40:08.629744
- Title: Breaking Quadratic Barriers: A Non-Attention LLM for Ultra-Long Context Horizons
- Title(参考訳): 二次障壁を破る:超長コンテキストホライズンズのための非注意LCM
- Authors: Andrew Kiruluta, Preethi Raju, Priscilla Burity,
- Abstract要約: 非常に長いコンテキストウインドウを効率的に処理する大規模言語モデル(LLM)のための新しい非注意型アーキテクチャを提案する。
自己注意機構の性質から2次記憶と過負荷に悩まされている従来のTransformer設計とは異なり、当社のモデルはトークンによる注意の注意を完全に回避している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a novel non attention based architecture for large language models (LLMs) that efficiently handles very long context windows, on the order of hundreds of thousands to potentially millions of tokens. Unlike traditional Transformer designs, which suffer from quadratic memory and computation overload due to the nature of the self attention mechanism, our model avoids token to token attention entirely. Instead, it combines the following complementary components: State Space blocks (inspired by S4) that learn continuous time convolution kernels and scale near linearly with sequence length, Multi Resolution Convolution layers that capture local context at different dilation levels, a lightweight Recurrent Supervisor to maintain a global hidden state across sequential chunks, and Retrieval Augmented External Memory that stores and retrieves high-level chunk embeddings without reintroducing quadratic operations.
- Abstract(参考訳): 我々は、数十万から数百万のトークンの順序で、非常に長いコンテキストウィンドウを効率的に処理する、大規模言語モデル(LLM)のための新しい非注意ベースのアーキテクチャを提案する。
自己注意機構の性質から2次記憶と計算過負荷に悩まされる従来のTransformer設計とは異なり、当社のモデルはトークンによる注意のトークンを完全に回避している。
その代わりに、連続時間畳み込みカーネルを学習し、シーケンス長と線形にスケールするステートスペースブロック、異なるディレーションレベルでローカルコンテキストをキャプチャするマルチレゾリューション・コンボリューション層、シーケンシャルなチャンクをまたいでグローバルな隠蔽状態を維持する軽量なリカレント・スーパーバイザ、二次的な操作を再導入することなく高レベルのチャンク埋め込みを保存および取得するRetrieval Augmented external Memoryが組み込まれている。
関連論文リスト
- Long-Context State-Space Video World Models [66.28743632951218]
本稿では、状態空間モデル(SSM)を活用して、計算効率を損なうことなく時間記憶を拡張する新しいアーキテクチャを提案する。
我々の設計の中心はブロックワイズSSMスキャン方式であり、時間記憶の拡張のために空間整合性を戦略的にトレードオフする。
メモリ迷路とMinecraftのデータセットの実験は、我々のアプローチが長距離メモリ保存のベースラインを超えたことを示している。
論文 参考訳(メタデータ) (2025-05-26T16:12:41Z) - Star Attention: Efficient LLM Inference over Long Sequences [17.401430615714]
本稿では,複数のホストに注意を向けることで,計算効率を向上させる2相ブロックスパース近似であるStar Attentionを紹介する。
Star Attentionは、グローバルに注意を払ってトレーニングされたほとんどのTransformerベースのLarge Language Modelとシームレスに統合され、メモリ要件と推論時間を最大11倍に短縮する。
論文 参考訳(メタデータ) (2024-11-26T05:10:04Z) - LongVQ: Long Sequence Modeling with Vector Quantization on Structured Memory [63.41820940103348]
自己保持機構の計算コストは、長いシーケンスの実用性を制限する。
我々はLongVQと呼ばれる新しい手法を提案し、長さ固定されたコードブックとしてグローバルな抽象化を圧縮する。
LongVQは動的グローバルパターンとローカルパターンを効果的に維持し、長距離依存性の問題の欠如を補うのに役立つ。
論文 参考訳(メタデータ) (2024-04-17T08:26:34Z) - Hierarchical Context Merging: Better Long Context Understanding for Pre-trained LLMs [61.40047491337793]
本稿では,大規模言語モデルの制約を克服する新しいトレーニングフリースキームである階層型cOntext MERging(HOMER)を提案する。
HomeRは、長いインプットを管理可能なチャンクに分割する、分別/対数アルゴリズムを使用する。
トークン削減技術がマージ毎に先行し、メモリ使用効率が保証される。
論文 参考訳(メタデータ) (2024-04-16T06:34:08Z) - Landmark Attention: Random-Access Infinite Context Length for
Transformers [45.69864961773124]
ランダムアクセスの柔軟性を維持しつつ、完全なコンテキストへのアクセスを可能にする新しいアプローチを提案する。
本手法では,入力の各ブロックをランドマークトークンで表現し,関連するブロックを選択するために注目度をトレーニングする。
提案手法はTransformer-XLと同等の性能を示し,各ステップで取得したトークンの数を大幅に削減する。
論文 参考訳(メタデータ) (2023-05-25T17:53:42Z) - Cluster-Former: Clustering-based Sparse Transformer for Long-Range
Dependency Encoding [90.77031668988661]
Cluster-Formerはクラスタリングベースの新しいスパーストランスであり、チャンクされたシーケンスにまたがって注意を向ける。
提案されたフレームワークは、Sliding-Window LayerとCluster-Former Layerの2つのユニークなタイプのTransformer Layerにピボットされている。
実験によると、Cluster-Formerはいくつかの主要なQAベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-09-13T22:09:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。