論文の概要: ATLAS: Learning to Optimally Memorize the Context at Test Time
- arxiv url: http://arxiv.org/abs/2505.23735v1
- Date: Thu, 29 May 2025 17:57:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:08.067936
- Title: ATLAS: Learning to Optimally Memorize the Context at Test Time
- Title(参考訳): ATLAS: テスト時にコンテキストを最適に覚えることを学ぶ
- Authors: Ali Behrouz, Zeman Li, Praneeth Kacham, Majid Daliri, Yuan Deng, Peilin Zhong, Meisam Razaviyayn, Vahab Mirrokni,
- Abstract要約: ATLASは、コンテキストを記憶する能力の高い長期記憶モジュールである。
本稿では,従来のトランスフォーマーアーキテクチャの厳密な一般化であるDeep Transformerと呼ばれる,トランスフォーマーライクなアーキテクチャの新たなファミリーを紹介する。
- 参考スコア(独自算出の注目度): 31.41718170413687
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers have been established as the most popular backbones in sequence modeling, mainly due to their effectiveness in in-context retrieval tasks and the ability to learn at scale. Their quadratic memory and time complexity, however, bound their applicability in longer sequences and so has motivated researchers to explore effective alternative architectures such as modern recurrent neural networks (a.k.a long-term recurrent memory module). Despite their recent success in diverse downstream tasks, they struggle in tasks that requires long context understanding and extrapolation to longer sequences. We observe that these shortcomings come from three disjoint aspects in their design: (1) limited memory capacity that is bounded by the architecture of memory and feature mapping of the input; (2) online nature of update, i.e., optimizing the memory only with respect to the last input; and (3) less expressive management of their fixed-size memory. To enhance all these three aspects, we present ATLAS, a long-term memory module with high capacity that learns to memorize the context by optimizing the memory based on the current and past tokens, overcoming the online nature of long-term memory models. Building on this insight, we present a new family of Transformer-like architectures, called DeepTransformers, that are strict generalizations of the original Transformer architecture. Our experimental results on language modeling, common-sense reasoning, recall-intensive, and long-context understanding tasks show that ATLAS surpasses the performance of Transformers and recent linear recurrent models. ATLAS further improves the long context performance of Titans, achieving +80\% accuracy in 10M context length of BABILong benchmark.
- Abstract(参考訳): トランスフォーマーはシーケンスモデリングにおいて最も人気のあるバックボーンとして確立されてきた。
しかし、それらの二次記憶と時間の複雑さは、より長いシーケンスで適用可能性に縛られ、現代のリカレントニューラルネットワーク(例えば長期リカレントメモリモジュール)のような効果的な代替アーキテクチャを探究する動機となった。
下流の様々なタスクで最近成功したにもかかわらず、長いコンテキスト理解と長いシーケンスへの外挿を必要とするタスクで苦労している。
これらの欠点は,(1) メモリのアーキテクチャと入力の特徴マッピングによって拘束されるメモリ容量の制限,(2) 更新のオンラインの性質,すなわち,最後の入力に対してのみメモリを最適化すること,(3) 固定サイズのメモリの表現力の少ない3つの側面から生じる。
これら3つの側面を全て強化するため,ATLASは高容量の長期記憶モジュールで,現在および過去のトークンに基づいてメモリを最適化し,長期記憶モデルのオンライン的性質を克服することで,コンテキストを記憶することを学ぶ。
この知見に基づいて、我々は、オリジナルのTransformerアーキテクチャの厳密な一般化であるDeep Transformerと呼ばれる、Transformerライクなアーキテクチャの新しいファミリーを提示する。
言語モデリング,常識推論,リコール集約,長文理解タスクに関する実験結果から,ATLASがトランスフォーマーの性能や最近の線形リカレントモデルを上回ることを示す。
ATLASはさらにTitansの長いコンテキスト性能を改善し、ABILongベンチマークの10Mコンテキスト長で+80\%の精度を実現した。
関連論文リスト
- Titans: Learning to Memorize at Test Time [20.12643072017223]
歴史的文脈を記憶するために学習するニューラルな長期記憶モジュールを提案する。
このニューラルメモリは高速な推論を維持しつつ、高速な並列化可能なトレーニングの利点があることが示される。
我々は、Titansと呼ばれる新しいアーキテクチャのファミリーを紹介し、このアーキテクチャにメモリを効果的に組み込む方法に対処する3つのバリエーションを提示します。
論文 参考訳(メタデータ) (2024-12-31T22:32:03Z) - HMT: Hierarchical Memory Transformer for Efficient Long Context Language Processing [33.720656946186885]
Hierarchical Memory Transformer (HMT) はモデル長文処理を容易にする新しいフレームワークである。
HMTは、既存のモデルの長文処理能力を一貫して改善する。
論文 参考訳(メタデータ) (2024-05-09T19:32:49Z) - Recurrent Action Transformer with Memory [39.58317527488534]
本稿では,情報保持を規制するリカレントメモリ機構を組み込んだ新しいモデルアーキテクチャを提案する。
メモリ集約環境(ViZDoom-Two-Colors, T-Maze, Memory Maze, Minigrid-Memory)、古典的アタリゲーム、MuJoCo制御環境について実験を行った。
その結果、メモリの使用は、古典的な環境における結果の維持や改善をしながら、メモリ集約環境におけるパフォーマンスを著しく向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-06-15T19:29:08Z) - Blockwise Parallel Transformer for Large Context Models [70.97386897478238]
Blockwise Parallel Transformer (BPT) は、メモリコストを最小限に抑えるために、自己アテンションとフィードフォワードネットワーク融合のブロックワイズ計算である。
メモリ効率を維持しながら、長い入力シーケンスを処理することにより、BPTはバニラ変換器の32倍、以前のメモリ効率の4倍のトレーニングシーケンスを可能にする。
論文 参考訳(メタデータ) (2023-05-30T19:25:51Z) - Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。
我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文 参考訳(メタデータ) (2020-10-14T09:03:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。