論文の概要: HEMA : A Hippocampus-Inspired Extended Memory Architecture for Long-Context AI Conversations
- arxiv url: http://arxiv.org/abs/2504.16754v1
- Date: Wed, 23 Apr 2025 14:27:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 15:54:48.272633
- Title: HEMA : A Hippocampus-Inspired Extended Memory Architecture for Long-Context AI Conversations
- Title(参考訳): HEMA : 長期AI会話のための海馬型拡張メモリアーキテクチャ
- Authors: Kwangseob Ahn,
- Abstract要約: 大規模言語モデル(LLM)は、数百回に及ぶ会話におけるコヒーレンスを維持するのに苦労する。
本稿では,人間の認知プロセスにインスパイアされたデュアルメモリシステムであるHEMAを紹介する。
10Kインデックスのチャンクでは、ベクトルメモリはP@5 >= 0.80 と R@50 >= 0.74 を達成し、精度-リコール曲線の下で領域を2倍にする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) struggle with maintaining coherence in extended conversations spanning hundreds of turns, despite performing well within their context windows. This paper introduces HEMA (Hippocampus-Inspired Extended Memory Architecture), a dual-memory system inspired by human cognitive processes. HEMA combines Compact Memory - a continuously updated one-sentence summary preserving global narrative coherence, and Vector Memory - an episodic store of chunk embeddings queried via cosine similarity. When integrated with a 6B-parameter transformer, HEMA maintains coherent dialogues beyond 300 turns while keeping prompt length under 3,500 tokens. Experimental results show substantial improvements: factual recall accuracy increases from 41% to 87%, and human-rated coherence improves from 2.7 to 4.3 on a 5-point scale. With 10K indexed chunks, Vector Memory achieves P@5 >= 0.80 and R@50 >= 0.74, doubling the area under the precision-recall curve compared to summarization-only approaches. Ablation studies reveal two key insights: semantic forgetting through age-weighted pruning reduces retrieval latency by 34% with minimal recall loss, and a two-level summary hierarchy prevents cascade errors in ultra-long conversations exceeding 1,000 turns. HEMA demonstrates that combining verbatim recall with semantic continuity provides a practical solution for privacy-aware conversational AI capable of month-long dialogues without model retraining.
- Abstract(参考訳): 大規模言語モデル(LLM)は、コンテキストウィンドウ内でうまく機能しているにもかかわらず、数百ターンにわたる会話のコヒーレンスを維持するのに苦労する。
本稿では,人間の認知プロセスにインスパイアされたデュアルメモリシステムであるHEMA(Hippocampus-Inspireed Extended Memory Architecture)を紹介する。
HEMAは、グローバルな物語コヒーレンスを保存する継続的に更新された1文の要約であるCompact Memoryと、コサイン類似性を通じてクエリされるチャンク埋め込みのエピソードストアであるVector Memoryを組み合わせたものだ。
6Bパラメータ変換器と統合すると、HEMAは300ターンを超えるコヒーレントな対話を維持でき、3500トークン以下で即時長を保っている。
実際のリコール精度は41%から87%に向上し、人間レベルのコヒーレンスは5点スケールで2.7から4.3に向上した。
10Kのインデックス付きチャンクでは、ベクトルメモリはP@5 >= 0.80 と R@50 >= 0.74 を達成し、要約のみのアプローチに比べて精度-リコール曲線の下で面積を倍にする。
年齢重み付けプルーニングによる意味的忘れは、リコール損失を最小限に抑えながら、検索遅延を34%削減し、2段階の要約階層は、1000回を超える超長期会話におけるカスケードエラーを防ぐ。
HEMAは、冗長なリコールとセマンティックな連続性を組み合わせることで、モデルの再トレーニングなしに1ヶ月の対話が可能なプライバシーに配慮した会話型AIの実践的なソリューションを提供することを示した。
関連論文リスト
- Mem0: Building Production-Ready AI Agents with Scalable Long-Term Memory [0.5584627289325719]
大規模言語モデル(LLM)は、文脈的に一貫性のある応答を生成する際、顕著な進歩を示した。
しかし、それらの固定されたコンテキストウィンドウは、長時間のマルチセッション対話に対する一貫性を維持するための根本的な課題を生じさせる。
私たちはMem0というスケーラブルなメモリ中心アーキテクチャを導入し、進行中の会話から健全な情報を動的に抽出し、統合し、取得することでこの問題に対処します。
論文 参考訳(メタデータ) (2025-04-28T01:46:35Z) - In Prospect and Retrospect: Reflective Memory Management for Long-term Personalized Dialogue Agents [70.12342024019044]
大規模言語モデル(LLM)は、オープンエンド対話において大きな進歩を遂げているが、関連する情報の保持と取得ができないため、その有効性は制限されている。
本稿では,長期対話エージェントのための新しいメカニズムであるリフレクティブメモリ管理(RMM)を提案する。
RMMは、LongMemEvalデータセットのメモリ管理なしでベースラインよりも10%以上精度が向上している。
論文 参考訳(メタデータ) (2025-03-11T04:15:52Z) - LightThinker: Thinking Step-by-Step Compression [53.8069487638972]
提案するLightThinkerは,大規模言語モデルを用いて推論中の中間的思考を動的に圧縮する手法である。
人間の認知プロセスにインスパイアされたLightThinkerは、思考ステップをコンパクトな表現に圧縮し、元の推論チェーンを捨てる。
実験によると、LightThinkerは競合精度を維持しながら、ピークメモリ使用量と推論時間を短縮する。
論文 参考訳(メタデータ) (2025-02-21T16:57:22Z) - MADial-Bench: Towards Real-world Evaluation of Memory-Augmented Dialogue Generation [15.64077949677469]
メモリ拡張対話システム(MADS)の有効性を評価するための新しいメモリ拡張対話ベンチマーク(MADail-Bench)を提案する。
このベンチマークは2つのタスクを別々に評価する: メモリ検索とメモリ認識は、パッシブとプロアクティブの両方のメモリリコールデータを組み込んだものである。
このベンチマークにおける最先端の埋め込みモデルと大規模言語モデルの結果は、さらなる進歩の可能性を示している。
論文 参考訳(メタデータ) (2024-09-23T17:38:41Z) - KARMA: Augmenting Embodied AI Agents with Long-and-short Term Memory Systems [12.461941212597877]
エンボディードAIエージェントは、しばしばコンテキスト内メモリの困難に直面し、タスク実行の非効率性とエラーを引き起こす。
我々は,長期記憶モジュールと短期記憶モジュールを統合する革新的なメモリシステムであるKARMAを紹介する。
メモリ拡張型エンボディAIエージェントは,複合タスクおよび複合タスクにおいて,成功率を1.3倍,2.3倍に向上させる。
論文 参考訳(メタデータ) (2024-09-23T11:02:46Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - HMT: Hierarchical Memory Transformer for Efficient Long Context Language Processing [33.720656946186885]
Hierarchical Memory Transformer (HMT) はモデル長文処理を容易にする新しいフレームワークである。
HMTは、既存のモデルの長文処理能力を一貫して改善する。
論文 参考訳(メタデータ) (2024-05-09T19:32:49Z) - StreamingDialogue: Prolonged Dialogue Learning via Long Context Compression with Minimal Losses [67.92595110412094]
StreamingDialogueは長い対話履歴を最小限の損失でconv-attnシンクに圧縮する。
本手法は対話タスクにおいて強いベースラインを上回ります。
論文 参考訳(メタデータ) (2024-03-13T07:44:14Z) - Ever-Evolving Memory by Blending and Refining the Past [30.63352929849842]
CREEMは長期会話のための新しい記憶システムである。
過去と現在の情報をシームレスに接続すると同時に、障害情報を忘れる能力も備えている。
論文 参考訳(メタデータ) (2024-03-03T08:12:59Z) - Simple linear attention language models balance the recall-throughput tradeoff [60.06020449520365]
線形およびすべり窓の注意を結合したシンプルなアーキテクチャであるBASEDを提案する。
我々は、最大1.3bパラメータの言語モデルをトレーニングし、BASEDがパープレキシティにおいて最強のサブクワッドラティックモデルと一致し、実世界のリコール集約タスクにおいて6.22の精度ポイントでそれらのモデルを上回っていることを示す。
論文 参考訳(メタデータ) (2024-02-28T19:28:27Z) - MemoryBank: Enhancing Large Language Models with Long-Term Memory [7.654404043517219]
本稿では,大規模言語モデルに適した新しいメモリ機構であるMemoryBankを提案する。
MemoryBankは、モデルが関連するメモリを呼び出し、継続的なメモリ更新を通じて継続的に進化し、過去のインタラクションから情報を合成することで、ユーザの個性に適応することを可能にする。
論文 参考訳(メタデータ) (2023-05-17T14:40:29Z) - Listen Attentively, and Spell Once: Whole Sentence Generation via a
Non-Autoregressive Architecture for Low-Latency Speech Recognition [66.47000813920619]
我々はLASOと呼ばれる非自己回帰型エンドツーエンド音声認識システムを提案する。
非自己回帰性のため、LASOは他のトークンに依存することなくシーケンス内のテキストトークンを予測する。
我々は,中国における公開データセットAISHELL-1の実験を行った。
論文 参考訳(メタデータ) (2020-05-11T04:45:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。