論文の概要: Structured Memory Mechanisms for Stable Context Representation in Large Language Models
- arxiv url: http://arxiv.org/abs/2505.22921v1
- Date: Wed, 28 May 2025 22:49:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.571485
- Title: Structured Memory Mechanisms for Stable Context Representation in Large Language Models
- Title(参考訳): 大規模言語モデルにおける安定文脈表現のための構造化記憶機構
- Authors: Yue Xing, Tao Yang, Yijiashun Qi, Minggu Wei, Yu Cheng, Honghui Xin,
- Abstract要約: モデルは明示的なメモリユニット、ゲート書き込み機構、アテンションベースの読み込みモジュールを統合している。
メモリコンテンツの動的更新を可能にするために、忘れ機能が導入される。
このモデルは、テキスト生成の一貫性、マルチターン質問応答の安定性、コンテキスト間推論の精度において明らかな優位性を実現する。
- 参考スコア(独自算出の注目度): 16.929937978584917
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper addresses the limitations of large language models in understanding long-term context. It proposes a model architecture equipped with a long-term memory mechanism to improve the retention and retrieval of semantic information across paragraphs and dialogue turns. The model integrates explicit memory units, gated writing mechanisms, and attention-based reading modules. A forgetting function is introduced to enable dynamic updates of memory content, enhancing the model's ability to manage historical information. To further improve the effectiveness of memory operations, the study designs a joint training objective. This combines the main task loss with constraints on memory writing and forgetting. It guides the model to learn better memory strategies during task execution. Systematic evaluation across multiple subtasks shows that the model achieves clear advantages in text generation consistency, stability in multi-turn question answering, and accuracy in cross-context reasoning. In particular, the model demonstrates strong semantic retention and contextual coherence in long-text tasks and complex question answering scenarios. It effectively mitigates the context loss and semantic drift problems commonly faced by traditional language models when handling long-term dependencies. The experiments also include analysis of different memory structures, capacity sizes, and control strategies. These results further confirm the critical role of memory mechanisms in language understanding. They demonstrate the feasibility and effectiveness of the proposed approach in both architectural design and performance outcomes.
- Abstract(参考訳): 本稿では,長期的文脈理解における大規模言語モデルの限界に対処する。
そこで本研究では,長期記憶機構を備えたモデルアーキテクチャを提案する。
モデルは明示的なメモリユニット、ゲート書き込み機構、アテンションベースの読み込みモジュールを統合している。
メモリコンテンツの動的更新を可能にし、履歴情報を管理するモデルの能力を高めるために、忘れる機能が導入される。
メモリ操作の有効性をさらに向上するため,共同学習目標を設計した。
これは、主要なタスク損失と、メモリ書き込みと忘れ忘れに関する制約を組み合わせる。
タスク実行中に、より良いメモリ戦略を学ぶためにモデルがガイドされます。
複数のサブタスクにまたがる体系的評価は,テキスト生成の一貫性,多ターン質問応答の安定性,コンテキスト間推論の精度において明らかな優位性を実現することを示す。
特に、このモデルは、長文タスクや複雑な質問応答シナリオにおいて、強い意味的保持とコンテキストコヒーレンスを示す。
長期依存を扱う場合、従来の言語モデルで一般的に直面するコンテキスト損失やセマンティックドリフトの問題を効果的に軽減する。
実験には、異なるメモリ構造、キャパシティサイズ、制御戦略の分析も含まれる。
これらの結果は,言語理解における記憶機構の重要性をさらに裏付けるものである。
アーキテクチャ設計と性能結果の両方において提案されたアプローチの有効性と有効性を示す。
関連論文リスト
- Quantifying Memory Utilization with Effective State-Size [73.52115209375343]
「我々は、テキスト・メモリ利用の尺度を策定する。」
この計量は、textitinput-invariant および textitinput-variant linear operator を持つシステムの基本的なクラスに適合する。
論文 参考訳(メタデータ) (2025-04-28T08:12:30Z) - Cognitive Memory in Large Language Models [8.059261857307881]
本稿では,Large Language Models (LLMs) における記憶機構について検討し,文脈に富む応答の重要性,幻覚の減少,効率の向上などを強調した。
メモリは、インプットプロンプト、短期記憶処理の即時コンテキスト、外部データベースや構造を介して実装された長期記憶に対応して、インプットプロンプト、短期記憶、長期記憶に分類する。
論文 参考訳(メタデータ) (2025-04-03T09:58:19Z) - Stable Hadamard Memory: Revitalizing Memory-Augmented Agents for Reinforcement Learning [64.93848182403116]
現在のディープラーニングメモリモデルは、部分的に観察可能で長期にわたる強化学習環境で苦労している。
本稿では,強化学習エージェントのための新しい記憶モデルであるStable Hadamard Memoryを紹介する。
我々の手法は、部分的に観測可能なベンチマークに挑戦する上で、最先端のメモリベースの手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-10-14T03:50:17Z) - QRMeM: Unleash the Length Limitation through Question then Reflection Memory Mechanism [46.441032033076034]
メモリメカニズムは、長いコンテキストを管理するための柔軟なソリューションを提供する。
本稿では,二重構造メモリプールを組み込んだ新しい手法であるQRMeMを提案する。
マルチチョイス質問 (MCQ) とマルチドキュメント質問応答 (Multi-doc QA) のベンチマークによる評価では,既存手法と比較してQRMeMの性能が向上している。
論文 参考訳(メタデータ) (2024-06-19T02:46:18Z) - RET-LLM: Towards a General Read-Write Memory for Large Language Models [53.288356721954514]
RET-LLMは、大規模な言語モデルに一般的な読み書きメモリユニットを装備する新しいフレームワークである。
デビッドソンのセマンティクス理論に触発され、三重項の形で知識を抽出し保存する。
本フレームワークは,時間に基づく質問応答タスクの処理において,堅牢な性能を示す。
論文 参考訳(メタデータ) (2023-05-23T17:53:38Z) - SCM: Enhancing Large Language Model with Self-Controlled Memory Framework [54.33686574304374]
大きな言語モデル(LLM)は、長い入力を処理できないため、重要な歴史的情報が失われる。
本稿では,LLMが長期記憶を維持し,関連する情報をリコールする能力を高めるための自己制御メモリ(SCM)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-26T07:25:31Z) - Learning to Learn Variational Semantic Memory [132.39737669936125]
我々はメタラーニングに変分セマンティックメモリを導入し、数ショットラーニングのための長期的知識を得る。
セマンティックメモリはスクラッチから成長し、経験したタスクから情報を吸収することで徐々に統合される。
アドレスコンテンツから潜在記憶変数の変動推論としてメモリリコールを定式化する。
論文 参考訳(メタデータ) (2020-10-20T15:05:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。