論文の概要: FlashMem: Distilling Intrinsic Latent Memory via Computation Reuse
- arxiv url: http://arxiv.org/abs/2601.05505v1
- Date: Fri, 09 Jan 2026 03:27:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 17:41:49.830159
- Title: FlashMem: Distilling Intrinsic Latent Memory via Computation Reuse
- Title(参考訳): FlashMem:計算再利用による本質的な遅延メモリの蒸留
- Authors: Yubo Hou, Zhisheng Chen, Tao Wan, Zengchang Qin,
- Abstract要約: FlashMemは、計算再利用を通じて、過渡的推論状態から直接固有のメモリを蒸留するフレームワークである。
実験によると、FlashMemは5倍の推論遅延を減らしながら、重いベースラインのパフォーマンスと一致している。
- 参考スコア(独自算出の注目度): 4.210760734549566
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The stateless architecture of Large Language Models inherently lacks the mechanism to preserve dynamic context, compelling agents to redundantly reprocess history to maintain long-horizon autonomy. While latent memory offers a solution, current approaches are hindered by architectural segregation, relying on auxiliary encoders that decouple memory from the reasoning backbone. We propose FlashMem, a framework that distills intrinsic memory directly from transient reasoning states via computation reuse. Leveraging the property that internal representations uniquely encode input trajectories, FlashMem identifies the last hidden state as a sufficient statistic for the interaction history. This enables a Shared-KV Consolidator to synthesize memory by attending directly to the backbone's frozen cache, eliminating redundant re-parameterization. Furthermore, a parameter-free Cognitive Monitor leverages attention entropy to adaptively trigger consolidation only when high epistemic uncertainty is detected. Experiments demonstrate that FlashMem matches the performance of heavy baselines while reducing inference latency by 5 times, effectively bridging the gap between efficiency and persistent cognition.
- Abstract(参考訳): 大規模言語モデルのステートレスアーキテクチャには、動的コンテキストを保存するメカニズムが本質的に欠けている。
潜在メモリは解決策を提供するが、現在のアプローチはアーキテクチャの分離によって妨げられ、メモリを推論バックボーンから切り離す補助エンコーダに依存している。
本稿では,FlashMemを提案する。このフレームワークは,内部メモリを過渡的推論状態から直接,計算再利用を通じて蒸留するフレームワークである。
内部表現が入力トラジェクトリを独自にエンコードするプロパティを活用することで、FlashMemは、最後に隠された状態がインタラクション履歴の十分な統計量であると認識する。
これにより、Shared-KV Consolidatorは、バックボーンの冷凍キャッシュに直接参加してメモリを合成し、冗長な再パラメータ化を排除できる。
さらに、パラメータフリー認知モニターは、注意エントロピーを利用して、高度のてんかん不確実性を検出する場合にのみ、集中を適応的に引き起こす。
実験により、FlashMemは5倍の推論遅延を減少させ、効率性と永続的な認知のギャップを効果的に埋めながら、重いベースラインのパフォーマンスと一致していることが示された。
関連論文リスト
- SimpleMem: Efficient Lifelong Memory for LLM Agents [73.74399447715052]
セマンティックロスレス圧縮に基づく効率的なメモリフレームワークSimpleMemを紹介する。
本稿では,情報密度とトークン利用量の最大化を目的とした3段階パイプラインを提案する。
ベンチマークデータセットを用いた実験により,提案手法は精度,検索効率,推論コストにおいて,ベースラインアプローチを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2026-01-05T21:02:49Z) - Agentic Learner with Grow-and-Refine Multimodal Semantic Memory [50.81667005063605]
ViLoMemは、コンパクトなスキーマベースのメモリを構築するデュアルストリームメモリフレームワークである。
視覚的障害パターンと論理的推論エラーを符号化し、MLLMが成功し失敗した経験から学ぶことを可能にする。
論文 参考訳(メタデータ) (2025-11-26T18:55:08Z) - SEDM: Scalable Self-Evolving Distributed Memory for Agents [23.182291416527764]
SEDMは、メモリをパッシブリポジトリからアクティブな自己最適化コンポーネントに変換する検証可能で適応的なフレームワークである。
また,SEDMは,強いメモリベースラインに比べてトークンオーバーヘッドを低減しつつ,推論精度を向上することを示した。
結果は、SEDMをオープンエンドのマルチエージェントコラボレーションのためのスケーラブルで持続可能なメモリメカニズムとして強調する。
論文 参考訳(メタデータ) (2025-09-11T14:37:37Z) - Sparse-dLLM: Accelerating Diffusion LLMs with Dynamic Cache Eviction [72.27673320976933]
Diffusion Large Language Models (dLLMs) は推論と並列デコードにおけるブレークスルーを可能にする。
現在のキャッシュ技術は、フルレイヤ状態を保存することでデコーディングを加速するが、メモリ使用量を大幅に増加させる。
Sparse-dLLMは、動的キャッシュ消去とスパースアテンションを統合した最初のトレーニングフリーフレームワークである。
論文 参考訳(メタデータ) (2025-08-04T16:14:03Z) - MemOS: A Memory OS for AI System [116.87568350346537]
大規模言語モデル(LLM)は、人工知能(AGI)にとって不可欠な基盤となっている。
既存のモデルは、主に静的パラメータと短命なコンテキスト状態に依存しており、ユーザの好みを追跡したり、長い期間にわたって知識を更新する能力を制限する。
MemOSはメモリを管理可能なシステムリソースとして扱うメモリオペレーティングシステムである。
論文 参考訳(メタデータ) (2025-07-04T17:21:46Z) - Exploring Synaptic Resonance in Large Language Models: A Novel Approach to Contextual Memory Integration [0.0]
新しいメカニズム、Synaptic Resonanceは、トレーニングと推論中に関連する記憶経路を動的に強化するために導入された。
オープンソースの言語モデルを用いて行った評価は、パープレキシティの低減、文脈的コヒーレンスの向上、入力雑音に対するロバスト性の向上を示す。
論文 参考訳(メタデータ) (2025-02-15T07:06:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。