論文の概要: Tensor Memory: Fixed-Size Recurrent State for Long-Horizon Transformers
- arxiv url: http://arxiv.org/abs/2605.27686v1
- Date: Tue, 26 May 2026 21:03:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.520519
- Title: Tensor Memory: Fixed-Size Recurrent State for Long-Horizon Transformers
- Title(参考訳): テンソルメモリ:長軸変圧器の固定サイズリカレント状態
- Authors: Kabir Swain, Sijie Han, Daniel Karl I. Weidele, Mauro Martino, Antonio Torralba,
- Abstract要約: トランスフォーマーは、空間と時間を長いトークンシーケンスに平らにすることで、画像とビデオを処理します。
注意とKVキャッシュは過去の特徴を保存するが、そのメモリはシーケンス長とともに成長し、明示的で永続的な空間状態が欠如している。
本稿では,Transformerブロックを固定サイズのリカレント3Dメモリで拡張する軽量モジュールを提案する。
- 参考スコア(独自算出の注目度): 20.67103891489219
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers process images and videos by flattening space and time into long token sequences. While attention and KV caching preserve past features, their memory grows with sequence length and they lack an explicit, persistent spatial state, making long-horizon video understanding and occlusion-sensitive reasoning difficult. We propose Tensor Memory, a lightweight module that augments Transformer blocks with a fixed-size recurrent 3D memory tensor: tokens write into a voxel grid via a differentiable soft write that deposits content as a Gaussian-weighted volume around a predicted continuous 3D location, the memory is updated with an efficient local interaction operator and gated recurrent dynamics, and tokens read back context via continuous sampling with gated residual fusion. Because the memory tensor has a constant size, Tensor Memory decouples state capacity from input length while preserving a spatial inductive bias. We evaluate the module on standard language, image, and video benchmarks and on a controlled toy diagnostic suite designed to isolate when persistent state is beneficial; it integrates with standard Transformer training pipelines and can be attached to or removed from existing blocks without other architectural changes.
- Abstract(参考訳): トランスフォーマーは、空間と時間を長いトークンシーケンスに平らにすることで、画像とビデオを処理します。
注意とKVキャッシングは過去の特徴を保存しているが、そのメモリはシーケンス長とともに成長し、空間状態が明示的でないため、長い水平ビデオ理解と排他的推論が困難である。
我々は,Transformerブロックを固定サイズのリカレント3Dメモリテンソルで拡張する軽量モジュールであるTensor Memoryを提案する。トークンは,予測された連続3D位置の周囲にガウス重み付きボリュームとしてコンテンツを蓄積する可変ソフトライトを介してボクセルグリッドに書き込む。
メモリテンソルは一定サイズであるため、テンソルメモリは空間誘導バイアスを保ちながら入力長から状態容量を分離する。
このモジュールは,標準言語,画像,ビデオのベンチマーク,および持続状態が有用である場合に分離するように設計された制御されたおもちゃ診断スイート上で評価され,通常のTransformerトレーニングパイプラインと統合され,他のアーキテクチャ変更なしに既存のブロックへのアタッチや削除が可能である。
関連論文リスト
- Rethinking Memory as Continuously Evolving Connectivity [63.58181883607843]
既存のメモリ拡張LDMエージェントは、メモリを事前定義された表現と固定された検索パイプラインを備えた静的リポジトリとして扱う。
メモリをヘテロジニアスなグラフとしてモデル化し,そのトポロジを3段階にわたって段階的に洗練する,コネクティビティ進化型メモリフレームワークであるFluxMemを提案する。
LoCoMo、Mind2Web、GAIAなど、根本的に異なる3つのベンチマークにおいて、FluxMemは一貫した最先端のパフォーマンスを実現し、複雑なエージェント環境において強力な適応と一般化を示す。
論文 参考訳(メタデータ) (2026-05-27T17:35:34Z) - Latent Recurrent Transformer: Architecture Exploration, Training Strategies, and Scaling Behavior [107.2098567818173]
Latent Recurrent Transformer (LRT) は自己回帰変換器の軽量化である。
LRTは、次のトークンのリカレントメモリとして、前のトークンから高レベルなソース層隠れステートを再利用する。
論文 参考訳(メタデータ) (2026-05-26T10:10:26Z) - Adaptive Memory Decay for Log-Linear Attention [1.0099625992507715]
シーケンスモデルは、メモリ容量と計算効率の根本的なトレードオフに直面している。
ログ線形の注意は、Fenwickツリー階層をまたいでメモリを整理することで、このトレードオフをナビゲートする。
我々は、軽量な2層構造を用いて入力から直接学習し、位置よりもコンテンツに適応する、トーケン毎のレベル減衰を生成することを提案する。
論文 参考訳(メタデータ) (2026-05-07T21:05:28Z) - CAWN: Continuous Acoustic Wave Networks for Autoregressive Language Modeling [46.16066322190728]
完全連続配列混合アーキテクチャであるCAWN(Continuous Acoustic Wave Network)を導入する。
CAWNは離散行列ベースの注意を代わりに、多面体複素ドメインファサーに隠された状態を計画している。
超長コンテキスト上での信号劣化を防止するため,デュアルゲート選択位相共振機構を導入する。
論文 参考訳(メタデータ) (2026-04-05T20:13:22Z) - Memory Caching: RNNs with Growing Memory [56.25483647131372]
メモリ状態(隠された状態)のチェックポイントをキャッシュすることで、リカレントモデルを強化する技術であるメモリキャッシュ(MC)を導入する。
我々は,ゲートアグリゲーションとスパース選択機構を含むMCの4つの変種を提案し,それらが線形メモリモジュールおよび深部メモリモジュールに与える影響について議論する。
その結果,トランスフォーマーの精度は高いが,我々のMC変種は競争性能を示し,トランスフォーマーとのギャップを埋め,最先端のリカレントモデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2026-02-27T18:53:41Z) - S$^3$-Attention:Attention-Aligned Endogenous Retrieval for Memory-Bounded Long-Context Inference [11.779449360037518]
S3-Attentionは,長期コンテキスト処理を注目に順応した内因性検索として扱うメモリファースト推論時フレームワークである。
S3-Attentionは、軽量なスパースオートエンコーダを使用して、トランジェントキーとクエリプロジェクションをトップkスパース機能識別子にデコードする。
単一のストリーミングスキャン中にトークンの位置やスパンにCPUベースの逆インデックスマッピング機能を構築する。
論文 参考訳(メタデータ) (2026-01-25T05:25:22Z) - Memo: Training Memory-Efficient Embodied Agents with Reinforcement Learning [53.72709564555407]
Memoは、強化学習のためのトランスフォーマーベースのアーキテクチャとトレーニングのレシピである。
トレーニング中のモデルの入力と周期的な要約トークンをインターリーブすることで、メモリの生成と検索を組み込む。
グリッドワールドメタRLベンチマークとマルチオブジェクトナビゲーションタスクにおけるMemoの有効性を,フォトリアリスティック屋内環境で実証する。
論文 参考訳(メタデータ) (2025-10-22T16:24:47Z) - Beyond Homogeneous Attention: Memory-Efficient LLMs via Fourier-Approximated KV Cache [67.47789629197857]
本稿では,トランスヘッド次元の不均一な役割を生かした学習自由フレームワークを提案する。
フーリエアテンションは、長コンテキスト非感性次元をフーリエ基底に投影することにより、その時間的進化を固定長のスペクトル係数で近似する。
本稿では,FourierAttention が LongBench と Needle-In-A-Haystack 上で最高の長文精度を実現することを示す。
論文 参考訳(メタデータ) (2025-06-13T15:35:54Z) - Breaking Quadratic Barriers: A Non-Attention LLM for Ultra-Long Context Horizons [0.0]
非常に長いコンテキストウインドウを効率的に処理する大規模言語モデル(LLM)のための新しい非注意型アーキテクチャを提案する。
自己注意機構の性質から2次記憶と過負荷に悩まされている従来のTransformer設計とは異なり、当社のモデルはトークンによる注意の注意を完全に回避している。
論文 参考訳(メタデータ) (2025-05-09T00:25:46Z) - LaMemo: Language Modeling with Look-Ahead Memory [50.6248714811912]
右側トークンへの漸進的参加により再帰記憶を向上させるLook-Ahead Memory(LaMemo)を提案する。
LaMemoは、メモリ長に比例した追加のオーバーヘッドで、双方向の注意とセグメントの再発を受け入れる。
広く使われている言語モデリングベンチマークの実験は、異なる種類のメモリを備えたベースラインよりも優れていることを示した。
論文 参考訳(メタデータ) (2022-04-15T06:11:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。