論文の概要: Artificial Hippocampus Networks for Efficient Long-Context Modeling
- arxiv url: http://arxiv.org/abs/2510.07318v1
- Date: Wed, 08 Oct 2025 17:59:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.695208
- Title: Artificial Hippocampus Networks for Efficient Long-Context Modeling
- Title(参考訳): 効率的な長期モデリングのための人工海馬ネットワーク
- Authors: Yunhao Fang, Weihao Yu, Shu Zhong, Qinghao Ye, Xuehan Xiong, Lai Wei,
- Abstract要約: ロングシーケンス・モデリングは、RNNのようなモデルにおける圧縮固定サイズメモリの効率と、注目ベースのトランスフォーマーにおけるメモリの増大の忠実さとのトレードオフに直面している。
認知科学における多段階モデルに着想を得て,人工ニューラルネットワークのメモリフレームワークを導入する。
長文ベンチマークのLV-EvalとInfiniteBenchの実験は、AHN拡張モデルがスライディングウインドウベースラインを一貫して上回ることを示した。
- 参考スコア(独自算出の注目度): 17.23148291364832
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-sequence modeling faces a fundamental trade-off between the efficiency of compressive fixed-size memory in RNN-like models and the fidelity of lossless growing memory in attention-based Transformers. Inspired by the Multi-Store Model in cognitive science, we introduce a memory framework of artificial neural networks. Our method maintains a sliding window of the Transformer's KV cache as lossless short-term memory, while a learnable module termed Artificial Hippocampus Network (AHN) recurrently compresses out-of-window information into a fixed-size compact long-term memory. To validate this framework, we instantiate AHNs using modern RNN-like architectures, including Mamba2, DeltaNet, and Gated DeltaNet. Extensive experiments on long-context benchmarks LV-Eval and InfiniteBench demonstrate that AHN-augmented models consistently outperform sliding window baselines and achieve performance comparable or even superior to full-attention models, while substantially reducing computational and memory requirements. For instance, augmenting the Qwen2.5-3B-Instruct with AHNs reduces inference FLOPs by 40.5% and memory cache by 74.0%, while improving its average score on LV-Eval (128k sequence length) from 4.41 to 5.88. Code is available at: https://github.com/ByteDance-Seed/AHN.
- Abstract(参考訳): ロングシーケンス・モデリングは、RNNのようなモデルにおける圧縮的固定サイズメモリの効率と、注目ベースのトランスフォーマーにおけるロスレス成長メモリの忠実さとの根本的なトレードオフに直面している。
認知科学における多段階モデルに着想を得て,人工ニューラルネットワークのメモリフレームワークを導入する。
本手法では,トランスフォーマーのKVキャッシュのスライディングウィンドウをロスレス短期記憶として保持し,学習可能なモジュールであるArtificial Hippocampus Network (AHN)は,アウト・オブ・ウインドウ情報を固定サイズのコンパクト長期記憶に繰り返し圧縮する。
このフレームワークを検証するために、Mamba2、DeltaNet、Gated DeltaNetといったモダンなRNNのようなアーキテクチャを用いてAHNをインスタンス化する。
長文ベンチマークのLV-EvalとInfiniteBenchの広範な実験により、AHN強化モデルはスライディングウインドウベースラインを一貫して上回り、フルアテンションモデルに匹敵する性能、さらに優れた性能を実現し、計算とメモリの要求を大幅に削減することを示した。
例えば、Qwen2.5-3B-Instruct with AHNsは、推論FLOPを40.5%減らし、メモリキャッシュを74.0%減らし、LV-Evalの平均スコアを4.41から5.88に改善した。
コードは、https://github.com/ByteDance-Seed/AHN.comで入手できる。
関連論文リスト
- UltraMemV2: Memory Networks Scaling to 120B Parameters with Superior Long-Context Learning [22.029614513198663]
メモリ層アーキテクチャは、非常に少ないメモリアクセスで魅力的な代替手段を提供する。
この性能ギャップを埋める再設計されたメモリ層アーキテクチャであるUltraMemV2を提案する。
また,UltraMemV2 は 8-expert MoE モデルと同等の計算量とパラメータを持つが,メモリアクセスは著しく低いことを示す。
論文 参考訳(メタデータ) (2025-08-26T07:33:11Z) - Decoder-Hybrid-Decoder Architecture for Efficient Reasoning with Long Generation [129.45368843861917]
我々は、レイヤ間の効率的なメモリ共有のためのシンプルで効果的なメカニズムであるGated Memory Unit(GMU)を紹介した。
これは、GMUを組み込んでSambaベースのセルフデコーダからメモリ読み出し状態を共有するデコーダ・ハイブリッド・デコーダアーキテクチャである。
論文 参考訳(メタデータ) (2025-07-09T07:27:00Z) - Hardware-Adaptive and Superlinear-Capacity Memristor-based Associative Memory [5.902429789895426]
本稿では,連想記憶のための新しいハードウェア適応学習アルゴリズムであるmemristorハードウェアについて,実験的に紹介する。
提案手法は, 最先端手法と比較して, デバイス故障の50%以下で有効容量を3倍に向上させる。
論文 参考訳(メタデータ) (2025-05-19T10:55:09Z) - Accelerating Linear Recurrent Neural Networks for the Edge with Unstructured Sparsity [39.483346492111515]
線形リカレントニューラルネットワークは、推論中に一定のメモリ使用量と時間毎の時間を含む強力な長距離シーケンスモデリングを可能にする。
非構造化空間は、互換性のあるハードウェアプラットフォームによって加速されるときに、計算とメモリの要求を大幅に削減できる魅力的なソリューションを提供する。
非常に疎い線形RNNは、高密度ベースラインよりも高い効率と性能のトレードオフを一貫して達成している。
論文 参考訳(メタデータ) (2025-02-03T13:09:21Z) - CSR:Achieving 1 Bit Key-Value Cache via Sparse Representation [63.65323577445951]
キャッシュスパース表現(CSR)と呼ばれる新しい手法を提案する。
CSRは、密度の高いKey-Valueキャッシュテンソルをスパースインデックスとウェイトに変換し、LLM推論中によりメモリ効率のよい表現を提供する。
我々の実験は、CSRが最先端KVキャッシュ量子化アルゴリズムに匹敵する性能を達成することを示した。
論文 参考訳(メタデータ) (2024-12-16T13:01:53Z) - MOFHEI: Model Optimizing Framework for Fast and Efficient Homomorphically Encrypted Neural Network Inference [0.8388591755871735]
ホモモルフィック暗号化(HE)により、暗号化データ上で機械学習タスクを実行できる。
HEに基づくニューラルネットワーク推論を高速かつ効率的にするためのモデルを最適化するフレームワークであるMOFHEIを提案する。
このフレームワークはLeNet上で最大98%のプルーニング比を実現し,PI実行に必要なHE操作の最大93%を排除した。
論文 参考訳(メタデータ) (2024-12-10T22:44:54Z) - DeepCache: Accelerating Diffusion Models for Free [65.02607075556742]
DeepCacheは、モデルアーキテクチャの観点から拡散モデルを加速するトレーニング不要のパラダイムである。
DeepCacheは拡散モデルのシーケンシャルなデノナイジングステップで観測される時間的冗長性に乗じている。
同じスループットで、DeepCacheはDDIMやPLMSで、事実上同等または極端に改善された結果を達成する。
論文 参考訳(メタデータ) (2023-12-01T17:01:06Z) - Learned Queries for Efficient Local Attention [11.123272845092611]
視覚変換器の自己保持機構は、高レイテンシと非効率なメモリ利用に悩まされる。
本稿では,クエリ・アンド・アテンション(QnA)と呼ばれる,新たなシフト不変なローカルアテンション層を提案する。
我々は、最先端モデルと同等の精度を達成しつつ、スピードとメモリの複雑さの改善を示す。
論文 参考訳(メタデータ) (2021-12-21T18:52:33Z) - Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。
我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文 参考訳(メタデータ) (2020-10-14T09:03:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。