論文の概要: Mela: Test-Time Memory Consolidation based on Transformation Hypothesis
- arxiv url: http://arxiv.org/abs/2605.10537v1
- Date: Mon, 11 May 2026 13:20:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.841964
- Title: Mela: Test-Time Memory Consolidation based on Transformation Hypothesis
- Title(参考訳): Mela: トランスフォーメーション仮説に基づくテスト時間メモリ統合
- Authors: Lungchuan Chen,
- Abstract要約: 本稿では,異なる更新周波数で動作する2つの機能的に異なるサブモジュールからなるニューラルメモリアーキテクチャを提案する。
変換仮説に触発されて、低周波のサブモジュールは抽象的なジストレベルの知識を捉えたハイレベルな表現を生成する。
我々は、HMMをTransformerベースの言語デコーダに統合し、テスト時にオンラインメモリ統合を実行するメモリ拡張言語モデルのファミリーであるMeraを形成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Memory consolidation, the process by which transient experiences are transformed into stable, structured representations, is a foundational organizing principle in the human brain, yet it remains largely unexplored as a design principle for modern sequence models. In this work, we leverage established neuroscientific theories of memory consolidation and cross-frequency coupling to propose the Hierarchical Memory Module (HMM), a neural memory architecture composed of two functionally distinct sub-modules that operate at different update frequencies. Inspired by the transformation hypothesis, the low-frequency sub-module produces high-level representations that capture abstract, gist-level knowledge, while the high-frequency sub-module produces fine-grained representations that preserve richer episodic detail. The final memory output is dynamically reconstructed as a context-dependent combination of both representations, analogous to the reconstructive nature of human memory retrieval. We integrate HMM into a Transformer-based language decoder to form Mela, a family of memory-augmented language models that perform online memory consolidation at test time. To further exploit the multi-granularity memory representations produced by HMM, we introduce MemStack, a method that distributes different levels of memory features across the early layers of the decoder without introducing additional tokens. Experiments on language modeling demonstrate that Mela outperforms Transformer baselines across all the model sizes. Moreover, with the pretrained context length fixed at 4K, Mela maintains performance on significantly longer contexts, whereas Transformer baselines degrade rapidly beyond their training length. Extensive ablation studies validate the contribution of each component and provide guidance for practical configuration.
- Abstract(参考訳): メモリ・コンソリデーション(Memory Consolidation)は、過渡的な経験を安定的で構造化された表現に変換するプロセスであり、人間の脳の基本的組織原理であるが、現代のシーケンスモデルの設計原則としてほとんど解明されていない。
本研究では,異なる更新周波数で動作する2つの機能的に異なるサブモジュールからなる,階層型メモリモジュール(HMM)を提案する。
変換仮説にインスパイアされた低周波部分加群は抽象的なジストレベルの知識を捉えた高次表現を生成する一方、高周波部分加群はより豊かなエピソード的な詳細を保存したきめ細かい表現を生成する。
最終的なメモリ出力は、人間のメモリ検索の再構成特性に類似した、両方の表現の文脈依存的な組み合わせとして動的に再構成される。
我々は、HMMをTransformerベースの言語デコーダに統合し、テスト時にオンラインメモリ統合を実行するメモリ拡張言語モデルのファミリーであるMeraを形成する。
HMMが生成する多粒度メモリ表現をさらに活用するために,トークンを導入することなくデコーダの初期層に異なるレベルのメモリ特徴を分散する手法であるMemStackを導入する。
言語モデリングの実験では、MeraはTransformerのベースラインをすべてのモデルサイズで上回っている。
さらに、事前トレーニングされたコンテキスト長を4Kに固定することで、Melaははるかに長いコンテキストでパフォーマンスを維持する一方、Transformerのベースラインはトレーニング期間を超えて急速に低下する。
広範囲にわたるアブレーション研究は、各コンポーネントの寄与を検証し、実用的な構成のためのガイダンスを提供する。
関連論文リスト
- Benchmarking local Hebbian learning rules for memory storage and prototype extraction [0.0]
連想メモリ(英: Associative memory)は、コンピュータ科学や情報処理において重要なコンポーネント機能である。
非モジュラリカレントネットワークとモジュールリカレントネットワークで使用される7つのヘビーン学習規則の連想記憶関数をベンチマークする。
論文 参考訳(メタデータ) (2026-05-01T20:15:32Z) - To Know is to Construct: Schema-Constrained Generation for Agent Memory [2.741370704286479]
構成主義者は、知識は受動的にコピーするのではなく、積極的に構築されていると主張している。
既存のエージェントメモリシステムの多くは、依然として高密度検索に基づいている。
本稿では,スキーマ制約付き生成メモリアーキテクチャであるSCG-MEMを提案する。
論文 参考訳(メタデータ) (2026-04-22T02:27:50Z) - From Verbatim to Gist: Distilling Pyramidal Multimodal Memory via Semantic Information Bottleneck for Long-Horizon Video Agents [78.30630000529133]
本稿ではファジィトレース理論に基づくピラミッド型マルチモーダルメモリアーキテクチャMM-Memを提案する。
MM-Memメモリは階層的に感覚バッファ、エピソードストリーム、シンボリックに構造する。
実験により、MM-Memがオフラインタスクとストリーミングタスクの両方で有効であることが確認された。
論文 参考訳(メタデータ) (2026-03-02T05:12:45Z) - Memory Caching: RNNs with Growing Memory [56.25483647131372]
メモリ状態(隠された状態)のチェックポイントをキャッシュすることで、リカレントモデルを強化する技術であるメモリキャッシュ(MC)を導入する。
我々は,ゲートアグリゲーションとスパース選択機構を含むMCの4つの変種を提案し,それらが線形メモリモジュールおよび深部メモリモジュールに与える影響について議論する。
その結果,トランスフォーマーの精度は高いが,我々のMC変種は競争性能を示し,トランスフォーマーとのギャップを埋め,最先端のリカレントモデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2026-02-27T18:53:41Z) - Language Modeling With Factorization Memory [1.9538130634206368]
本稿では,短時間の言語モデリングタスクにおけるTransformerモデルに匹敵する性能を実現する,効率的なリカレントニューラルネットワーク(RNN)アーキテクチャであるFacterization Memoryを提案する。
本研究では,各ステップにおける逐次状態のサブセットのみを更新し,その高密度な状態の強い性能を保ったFacterization Memoryのスパース定式化を開発する。
論文 参考訳(メタデータ) (2025-10-31T23:27:11Z) - CAM: A Constructivist View of Agentic Memory for LLM-Based Reading Comprehension [55.29309306566238]
現在のLarge Language Models (LLM) は、長文文書を解釈する際に圧倒的な情報量に直面している。
この課題は、バニラLSMを自律的な読み出しエージェントに高めることができる凝集性メモリモジュールの必須性を高める。
我々はジャン・ピアジェの構成主義理論(Constructivist Theory)からインスピレーションを得て、エージェントメモリの3つの特性(構造化スキーマ、フレキシブルな同化、動的調節)を表現した。
論文 参考訳(メタデータ) (2025-10-07T02:16:30Z) - B'MOJO: Hybrid State Space Realizations of Foundation Models with Eidetic and Fading Memory [91.81390121042192]
我々はB'MOJOと呼ばれるモデル群を開発し、構成可能なモジュール内で理想的メモリと暗黙的メモリをシームレスに結合する。
B'MOJOのイデオティックメモリとフェードメモリを変調する能力は、32Kトークンまでテストされた長いシーケンスの推論をより良くする。
論文 参考訳(メタデータ) (2024-07-08T18:41:01Z) - Recurrent Action Transformer with Memory [39.58317527488534]
本稿では,情報保持を規制するリカレントメモリ機構を組み込んだ新しいモデルアーキテクチャを提案する。
メモリ集約環境(ViZDoom-Two-Colors, T-Maze, Memory Maze, Minigrid-Memory)、古典的アタリゲーム、MuJoCo制御環境について実験を行った。
その結果、メモリの使用は、古典的な環境における結果の維持や改善をしながら、メモリ集約環境におけるパフォーマンスを著しく向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-06-15T19:29:08Z) - Kanerva++: extending The Kanerva Machine with differentiable, locally
block allocated latent memory [75.65949969000596]
エピソディックメモリとセマンティックメモリは、人間のメモリモデルの重要なコンポーネントです。
我々は、エピソードメモリとセマンティックメモリのギャップを埋める新しい原理ベイズメモリ割り当てスキームを開発しました。
この割り当て方式がメモリ条件画像生成の性能を向上させることを実証する。
論文 参考訳(メタデータ) (2021-02-20T18:40:40Z) - Memory Transformer [0.31406146587437894]
トランスフォーマーベースのモデルは、多くの自然言語処理タスクにおいて最先端の結果を得た。
メモリ拡張ニューラルネットワーク(MANN)は、従来のニューラルネットワークを拡張し、汎用メモリで表現する。
我々は,これらのメモリ拡張トランスフォーマーを評価し,メモリの存在がモデル性能と正の相関関係があることを実証した。
論文 参考訳(メタデータ) (2020-06-20T09:06:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。