論文の概要: FlashMem: Distilling Intrinsic Latent Memory via Computation Reuse
- arxiv url: http://arxiv.org/abs/2601.05505v1
- Date: Fri, 09 Jan 2026 03:27:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 17:41:49.830159
- Title: FlashMem: Distilling Intrinsic Latent Memory via Computation Reuse
- Title(参考訳): FlashMem:計算再利用による本質的な遅延メモリの蒸留
- Authors: Yubo Hou, Zhisheng Chen, Tao Wan, Zengchang Qin,
- Abstract要約: FlashMemは、計算再利用を通じて、過渡的推論状態から直接固有のメモリを蒸留するフレームワークである。
実験によると、FlashMemは5倍の推論遅延を減らしながら、重いベースラインのパフォーマンスと一致している。
- 参考スコア(独自算出の注目度): 4.210760734549566
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The stateless architecture of Large Language Models inherently lacks the mechanism to preserve dynamic context, compelling agents to redundantly reprocess history to maintain long-horizon autonomy. While latent memory offers a solution, current approaches are hindered by architectural segregation, relying on auxiliary encoders that decouple memory from the reasoning backbone. We propose FlashMem, a framework that distills intrinsic memory directly from transient reasoning states via computation reuse. Leveraging the property that internal representations uniquely encode input trajectories, FlashMem identifies the last hidden state as a sufficient statistic for the interaction history. This enables a Shared-KV Consolidator to synthesize memory by attending directly to the backbone's frozen cache, eliminating redundant re-parameterization. Furthermore, a parameter-free Cognitive Monitor leverages attention entropy to adaptively trigger consolidation only when high epistemic uncertainty is detected. Experiments demonstrate that FlashMem matches the performance of heavy baselines while reducing inference latency by 5 times, effectively bridging the gap between efficiency and persistent cognition.
- Abstract(参考訳): 大規模言語モデルのステートレスアーキテクチャには、動的コンテキストを保存するメカニズムが本質的に欠けている。
潜在メモリは解決策を提供するが、現在のアプローチはアーキテクチャの分離によって妨げられ、メモリを推論バックボーンから切り離す補助エンコーダに依存している。
本稿では,FlashMemを提案する。このフレームワークは,内部メモリを過渡的推論状態から直接,計算再利用を通じて蒸留するフレームワークである。
内部表現が入力トラジェクトリを独自にエンコードするプロパティを活用することで、FlashMemは、最後に隠された状態がインタラクション履歴の十分な統計量であると認識する。
これにより、Shared-KV Consolidatorは、バックボーンの冷凍キャッシュに直接参加してメモリを合成し、冗長な再パラメータ化を排除できる。
さらに、パラメータフリー認知モニターは、注意エントロピーを利用して、高度のてんかん不確実性を検出する場合にのみ、集中を適応的に引き起こす。
実験により、FlashMemは5倍の推論遅延を減少させ、効率性と永続的な認知のギャップを効果的に埋めながら、重いベースラインのパフォーマンスと一致していることが示された。
関連論文リスト
- From Verbatim to Gist: Distilling Pyramidal Multimodal Memory via Semantic Information Bottleneck for Long-Horizon Video Agents [78.30630000529133]
本稿ではファジィトレース理論に基づくピラミッド型マルチモーダルメモリアーキテクチャMM-Memを提案する。
MM-Memメモリは階層的に感覚バッファ、エピソードストリーム、シンボリックに構造する。
実験により、MM-Memがオフラインタスクとストリーミングタスクの両方で有効であることが確認された。
論文 参考訳(メタデータ) (2026-03-02T05:12:45Z) - MemFly: On-the-Fly Memory Optimization via Information Bottleneck [35.420309099411874]
長期記憶により、大きな言語モデルエージェントは歴史的相互作用を通じて複雑なタスクに取り組むことができる。
既存のフレームワークは、冗長な情報を効率よく圧縮し、下流タスクの正確な検索を維持するというジレンマに遭遇する。
MemFlyは、LLMのオンザフライメモリ進化を促進する情報ボトルネックの原則に基づくフレームワークである。
MemFlyは、メモリコヒーレンス、応答忠実度、精度において最先端のベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2026-02-08T09:37:25Z) - AMA: Adaptive Memory via Multi-Agent Collaboration [54.490349689939166]
複数の粒度にまたがるメモリ管理に協調エージェントを活用する新しいフレームワークであるAMA(Adaptive Memory via Multi-Agent Collaboration)を提案する。
AMAは、ステート・オブ・ザ・アートのベースラインを著しく上回り、トークンの消費をフルコンテキストの手法と比べて約80%削減する。
論文 参考訳(メタデータ) (2026-01-28T08:09:49Z) - FadeMem: Biologically-Inspired Forgetting for Efficient Agent Memory [4.608947574766633]
本稿では,人間の認知効率を反映した能動的忘れ機構を組み込んだ,生物学的にインスパイアされたエージェントメモリアーキテクチャであるFadeMemを提案する。
マルチセッションチャット, LoCoMo, LTI-Benchの実験では, ストレージの45%削減により, 優れたマルチホップ推論と検索が可能となった。
論文 参考訳(メタデータ) (2026-01-26T16:12:54Z) - MemRec: Collaborative Memory-Augmented Agentic Recommender System [57.548438733740504]
我々はメモリ管理から推論をアーキテクチャ的に分離するフレームワークであるMemRecを提案する。
MemRecは動的コラボレーティブメモリグラフを管理する専用のLM_Memを導入した。
4つのベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-01-13T18:51:16Z) - Membox: Weaving Topic Continuity into Long-Range Memory for LLM Agents [14.666607208502185]
Topic Loomを中心にした階層型メモリアーキテクチャであるmemboxを紹介した。
Memboxはスライディングウインドウ方式で対話を監視し、連続した同一トピックの変換を記憶時にコヒーレントな「メモリボックス」にグループ化する。
LoCoMoの実験では、Memboxは時間的推論タスクにおいて最大68%のF1改善を実現している。
論文 参考訳(メタデータ) (2026-01-07T10:36:29Z) - SimpleMem: Efficient Lifelong Memory for LLM Agents [73.74399447715052]
セマンティックロスレス圧縮に基づく効率的なメモリフレームワークSimpleMemを紹介する。
本稿では,情報密度とトークン利用量の最大化を目的とした3段階パイプラインを提案する。
ベンチマークデータセットを用いた実験により,提案手法は精度,検索効率,推論コストにおいて,ベースラインアプローチを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2026-01-05T21:02:49Z) - Agentic Learner with Grow-and-Refine Multimodal Semantic Memory [50.81667005063605]
ViLoMemは、コンパクトなスキーマベースのメモリを構築するデュアルストリームメモリフレームワークである。
視覚的障害パターンと論理的推論エラーを符号化し、MLLMが成功し失敗した経験から学ぶことを可能にする。
論文 参考訳(メタデータ) (2025-11-26T18:55:08Z) - SEDM: Scalable Self-Evolving Distributed Memory for Agents [23.182291416527764]
SEDMは、メモリをパッシブリポジトリからアクティブな自己最適化コンポーネントに変換する検証可能で適応的なフレームワークである。
また,SEDMは,強いメモリベースラインに比べてトークンオーバーヘッドを低減しつつ,推論精度を向上することを示した。
結果は、SEDMをオープンエンドのマルチエージェントコラボレーションのためのスケーラブルで持続可能なメモリメカニズムとして強調する。
論文 参考訳(メタデータ) (2025-09-11T14:37:37Z) - Sparse-dLLM: Accelerating Diffusion LLMs with Dynamic Cache Eviction [72.27673320976933]
Diffusion Large Language Models (dLLMs) は推論と並列デコードにおけるブレークスルーを可能にする。
現在のキャッシュ技術は、フルレイヤ状態を保存することでデコーディングを加速するが、メモリ使用量を大幅に増加させる。
Sparse-dLLMは、動的キャッシュ消去とスパースアテンションを統合した最初のトレーニングフリーフレームワークである。
論文 参考訳(メタデータ) (2025-08-04T16:14:03Z) - MemOS: A Memory OS for AI System [116.87568350346537]
大規模言語モデル(LLM)は、人工知能(AGI)にとって不可欠な基盤となっている。
既存のモデルは、主に静的パラメータと短命なコンテキスト状態に依存しており、ユーザの好みを追跡したり、長い期間にわたって知識を更新する能力を制限する。
MemOSはメモリを管理可能なシステムリソースとして扱うメモリオペレーティングシステムである。
論文 参考訳(メタデータ) (2025-07-04T17:21:46Z) - Exploring Synaptic Resonance in Large Language Models: A Novel Approach to Contextual Memory Integration [0.0]
新しいメカニズム、Synaptic Resonanceは、トレーニングと推論中に関連する記憶経路を動的に強化するために導入された。
オープンソースの言語モデルを用いて行った評価は、パープレキシティの低減、文脈的コヒーレンスの向上、入力雑音に対するロバスト性の向上を示す。
論文 参考訳(メタデータ) (2025-02-15T07:06:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。