Fugu-MT 論文翻訳(概要): Titans: Learning to Memorize at Test Time

論文の概要: Titans: Learning to Memorize at Test Time

arxiv url: http://arxiv.org/abs/2501.00663v1
Date: Tue, 31 Dec 2024 22:32:03 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-05 16:54:31.933656
Title: Titans: Learning to Memorize at Test Time
Title（参考訳）: Titans: テスト時に覚えることを学ぶ
Authors: Ali Behrouz, Peilin Zhong, Vahab Mirrokni,
Abstract要約: 歴史的文脈を記憶するために学習するニューラルな長期記憶モジュールを提案する。このニューラルメモリは高速な推論を維持しつつ、高速な並列化可能なトレーニングの利点があることが示される。我々は、Titansと呼ばれる新しいアーキテクチャのファミリーを紹介し、このアーキテクチャにメモリを効果的に組み込む方法に対処する3つのバリエーションを提示します。
参考スコア（独自算出の注目度）: 20.12643072017223
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Over more than a decade there has been an extensive research effort on how to effectively utilize recurrent models and attention. While recurrent models aim to compress the data into a fixed-size memory (called hidden state), attention allows attending to the entire context window, capturing the direct dependencies of all tokens. This more accurate modeling of dependencies, however, comes with a quadratic cost, limiting the model to a fixed-length context. We present a new neural long-term memory module that learns to memorize historical context and helps attention to attend to the current context while utilizing long past information. We show that this neural memory has the advantage of fast parallelizable training while maintaining a fast inference. From a memory perspective, we argue that attention due to its limited context but accurate dependency modeling performs as a short-term memory, while neural memory due to its ability to memorize the data, acts as a long-term, more persistent, memory. Based on these two modules, we introduce a new family of architectures, called Titans, and present three variants to address how one can effectively incorporate memory into this architecture. Our experimental results on language modeling, common-sense reasoning, genomics, and time series tasks show that Titans are more effective than Transformers and recent modern linear recurrent models. They further can effectively scale to larger than 2M context window size with higher accuracy in needle-in-haystack tasks compared to baselines.
Abstract（参考訳）: 10年以上にわたり、リカレントモデルと注意を効果的に活用するための広範な研究努力が続けられてきた。リカレントモデルは、データを固定サイズのメモリ(隠れ状態と呼ばれる)に圧縮することを目的としているが、注意はコンテキストウィンドウ全体への参加を可能にし、すべてのトークンの直接的な依存関係をキャプチャする。しかし、依存関係のより正確なモデリングには2次的なコストが伴うため、モデルは固定長のコンテキストに制限される。歴史的文脈を記憶することを学び、過去の情報を活用しながら現在の状況に注目するのに役立つ新しいニューラルな長期記憶モジュールを提案する。このニューラルメモリは高速な推論を維持しつつ、高速な並列化可能なトレーニングの利点があることが示される。メモリの観点からは、コンテキストが限られているが正確な依存性モデリングが短期記憶として機能するのに対して、ニューラルメモリはデータを記憶する能力により、長期的、より永続的なメモリとして機能すると主張している。これら2つのモジュールに基づいて、Titansと呼ばれる新しいアーキテクチャのファミリーを導入し、このアーキテクチャにメモリを効果的に組み込む方法に対処する3つのバリエーションを提示します。言語モデリング,常識推論,ゲノミクス,時系列タスクに関する実験結果から,タイタンはトランスフォーマーや最近の線形リカレントモデルよりも有効であることが示された。さらに、ベースラインに比べてニードル・イン・ヘイスタックタスクの精度が高い2M以上のコンテキストウィンドウサイズに効果的にスケールすることができる。

関連論文リスト

ATLAS: Learning to Optimally Memorize the Context at Test Time [31.41718170413687]
ATLASは、コンテキストを記憶する能力の高い長期記憶モジュールである。本稿では,従来のトランスフォーマーアーキテクチャの厳密な一般化であるDeep Transformerと呼ばれる,トランスフォーマーライクなアーキテクチャの新たなファミリーを紹介する。
論文参考訳（メタデータ） (2025-05-29T17:57:16Z)
Taipan: Efficient and Expressive State Space Language Models with Selective Attention [100.16383527459429]
自然言語処理(NLP)における長文言語モデリングの課題 Mambaのような最近のステートスペースモデル(SSM)は、メモリ使用量を一定に抑える代替手段を提供するが、大規模なコンテキスト内検索を必要とするタスクでは性能が劣る。我々は,Mamba-2と選択注意層(SAL)を組み合わせた新しいハイブリッドアーキテクチャであるTaipanを紹介する。我々の実験は、様々なスケールやタスクにまたがる優れたパフォーマンスを示し、より効率的な長文言語モデリングのための有望なソリューションを提供する。
論文参考訳（メタデータ） (2024-10-24T09:25:37Z)
Stable Hadamard Memory: Revitalizing Memory-Augmented Agents for Reinforcement Learning [64.93848182403116]
現在のディープラーニングメモリモデルは、部分的に観察可能で長期にわたる強化学習環境で苦労している。本稿では,強化学習エージェントのための新しい記憶モデルであるStable Hadamard Memoryを紹介する。我々の手法は、部分的に観測可能なベンチマークに挑戦する上で、最先端のメモリベースの手法よりも大幅に優れています。
論文参考訳（メタデータ） (2024-10-14T03:50:17Z)
HMT: Hierarchical Memory Transformer for Long Context Language Processing [35.730941605490194]
Hierarchical Memory Transformer (HMT) は、モデル長文処理機能を実現し、改善する新しいフレームワークである。我々は,HMTがコンテキスト制約付き長文モデルの長文処理能力を着実に改善していることを示す。
論文参考訳（メタデータ） (2024-05-09T19:32:49Z)
Simple linear attention language models balance the recall-throughput tradeoff [60.06020449520365]
線形およびすべり窓の注意を結合したシンプルなアーキテクチャであるBASEDを提案する。我々は、最大1.3bパラメータの言語モデルをトレーニングし、BASEDがパープレキシティにおいて最強のサブクワッドラティックモデルと一致し、実世界のリコール集約タスクにおいて6.22の精度ポイントでそれらのモデルを上回っていることを示す。
論文参考訳（メタデータ） (2024-02-28T19:28:27Z)
Recurrent Action Transformer with Memory [39.58317527488534]
本稿では,情報保持を規制するリカレントメモリ機構を組み込んだ新しいモデルアーキテクチャを提案する。メモリ集約環境(ViZDoom-Two-Colors, T-Maze, Memory Maze, Minigrid-Memory)、古典的アタリゲーム、MuJoCo制御環境について実験を行った。その結果、メモリの使用は、古典的な環境における結果の維持や改善をしながら、メモリ集約環境におけるパフォーマンスを著しく向上させることができることがわかった。
論文参考訳（メタデータ） (2023-06-15T19:29:08Z)
Augmenting Language Models with Long-Term Memory [142.04940250657637]
既存の大規模言語モデル(LLM)では、入力長制限のため、固定サイズの入力しかできない。本稿では,Long-Term Memory (LongMem) を付加した言語モデルを提案する。
論文参考訳（メタデータ） (2023-06-12T15:13:39Z)
LaMemo: Language Modeling with Look-Ahead Memory [50.6248714811912]
右側トークンへの漸進的参加により再帰記憶を向上させるLook-Ahead Memory(LaMemo)を提案する。 LaMemoは、メモリ長に比例した追加のオーバーヘッドで、双方向の注意とセグメントの再発を受け入れる。広く使われている言語モデリングベンチマークの実験は、異なる種類のメモリを備えたベースラインよりも優れていることを示した。
論文参考訳（メタデータ） (2022-04-15T06:11:25Z)
Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文参考訳（メタデータ） (2020-10-14T09:03:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。