論文の概要: Mixture of Chapters: Scaling Learnt Memory in Transformers
- arxiv url: http://arxiv.org/abs/2603.21096v1
- Date: Sun, 22 Mar 2026 07:16:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.235878
- Title: Mixture of Chapters: Scaling Learnt Memory in Transformers
- Title(参考訳): 章の混合:トランスフォーマーにおける学習記憶のスケーリング
- Authors: Tasmay Pankaj Tibrewal, Pritish Saha, Ankit Meda, Kunal Singh, Pradeep Moturi,
- Abstract要約: トランスフォーマーは、トレーニング中に取得した知識を保存し、整理するための明示的なアーキテクチャメカニズムを欠いている。
学習可能なスパースメモリバンク、潜在トークン、ランダムおよび訓練されたエンドツーエンドを導入します。
本研究では、Mixture-of-Expertsアーキテクチャにインスパイアされた章ベースのルーティングを提案し、メモリバンクを章に分割し、入力毎に関連するサブセットを選択するルータを訓練する。
- 参考スコア(独自算出の注目度): 3.479712135769016
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers lack an explicit architectural mechanism for storing and organizing knowledge acquired during training. We introduce learnable sparse memory banks: a set of latent tokens, randomly initialized and trained end-to-end, that transformer layers query via cross-attention to retrieve stored knowledge. To scale memory capacity without prohibitive attention costs, we propose chapter-based routing inspired by Mixture-of-Experts architectures, partitioning the memory bank into chapters and training a router to select relevant subsets per input. This enables scaling to 262K memory tokens while maintaining tractable computation. We evaluate our approach against standard transformers (in iso-FLOP settings) on pre-training and instruction fine-tuning across relevant benchmarks. Our models surpass iso-FLOP baselines suggesting scope for a new axis of scaling, demonstrating that explicit associative memory provides complementary capacity to what is captured implicitly in model parameters. Additionally, we observe improved knowledge retention under continued training, with robustness to forgetting when transitioning between training phases (e.g., pretraining to instruction fine-tuning).
- Abstract(参考訳): トランスフォーマーは、トレーニング中に取得した知識を保存し、整理するための明示的なアーキテクチャメカニズムを欠いている。
学習可能なスパースメモリバンク:ランダムに初期化され、訓練されたエンドツーエンドの潜在トークンのセット。
本稿では,メモリバンクを章に分割し,入力毎に関連するサブセットを選択するルータを訓練する,Mixture-of-Expertsアーキテクチャにインスパイアされた章ベースのルーティングを提案する。
これにより、トラクタブルな計算を維持しながら、262Kのメモリトークンへのスケーリングが可能になる。
我々は,標準トランスフォーマー(Iso-FLOP設定)に対する事前学習および関連するベンチマーク間の命令微調整に対するアプローチを評価した。
我々のモデルは、新しいスケーリング軸のスコープを提案するイソ-FLOPベースラインを超越し、明示的な連想メモリがモデルパラメータで暗黙的にキャプチャされるものと相補的な能力を提供することを示した。
さらに,学習段階(例えば,事前学習から教示微調整)の移行時に,学習継続時の知識保持が向上し,忘れることへの頑健さが観察された。
関連論文リスト
- NextMem: Towards Latent Factual Memory for LLM-based Agents [58.35585202907478]
NextMemは、自動回帰型オートエンコーダを使用して、潜時メモリを効率的に構築する、潜時ファクトメモリフレームワークである。
大規模な実験は、NextMemが優れたパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2026-02-26T14:35:27Z) - Memo: Training Memory-Efficient Embodied Agents with Reinforcement Learning [53.72709564555407]
Memoは、強化学習のためのトランスフォーマーベースのアーキテクチャとトレーニングのレシピである。
トレーニング中のモデルの入力と周期的な要約トークンをインターリーブすることで、メモリの生成と検索を組み込む。
グリッドワールドメタRLベンチマークとマルチオブジェクトナビゲーションタスクにおけるMemoの有効性を,フォトリアリスティック屋内環境で実証する。
論文 参考訳(メタデータ) (2025-10-22T16:24:47Z) - Mem-α: Learning Memory Construction via Reinforcement Learning [20.916677456417464]
大きな言語モデル(LLM)エージェントは、限られたコンテキストウィンドウによって制約される。
現在のメモリ拡張エージェントは、メモリ更新のための事前に定義された命令とツールに依存している。
Mem-alphaは、エージェントに複雑なメモリシステムを効果的に管理するように訓練する強化学習フレームワークである。
論文 参考訳(メタデータ) (2025-09-30T08:02:34Z) - Parameter-Efficient and Memory-Efficient Tuning for Vision Transformer: A Disentangled Approach [87.8330887605381]
本稿では,学習可能なパラメータをわずかに限定して,事前学習した視覚変換器を下流認識タスクに適用する方法を示す。
学習可能で軽量なモジュールを用いてタスク固有のクエリを合成する。
本手法はメモリ制約下での最先端性能を実現し,実環境における適用性を示す。
論文 参考訳(メタデータ) (2024-07-09T15:45:04Z) - PARMESAN: Parameter-Free Memory Search and Transduction for Dense Prediction Tasks [5.5127111704068374]
この研究は、トランスダクティブ推論によるディープラーニングの柔軟性に対処する。
我々は,高密度予測タスクを解くためにメモリモジュールを活用するスケーラブルな手法であるPARMESANを提案する。
提案手法は,一般的なアーキテクチャと互換性があり,標準で1D,2D,3Dグリッドベースのデータに転送する。
論文 参考訳(メタデータ) (2024-03-18T12:55:40Z) - A Memory Transformer Network for Incremental Learning [64.0410375349852]
本研究では,モデルが学習する時間とともに,新しいデータクラスが観察される学習環境であるクラスインクリメンタルラーニングについて検討する。
素直な問題定式化にもかかわらず、クラス増分学習への分類モデルの素直な適用は、これまで見られたクラスの「破滅的な忘れ込み」をもたらす。
これは、過去のデータのサブセットをメモリバンクに保存し、将来のタスクをトレーニングする際の忘れの防止にそれを活用することで、破滅的な忘れの問題を克服するものだ。
論文 参考訳(メタデータ) (2022-10-10T08:27:28Z) - Mesa: A Memory-saving Training Framework for Transformers [58.78933015299703]
本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。
Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。
ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
論文 参考訳(メタデータ) (2021-11-22T11:23:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。