論文の概要: Memory in Large Language Models: Mechanisms, Evaluation and Evolution
- arxiv url: http://arxiv.org/abs/2509.18868v1
- Date: Tue, 23 Sep 2025 10:06:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.809133
- Title: Memory in Large Language Models: Mechanisms, Evaluation and Evolution
- Title(参考訳): 大規模言語モデルにおける記憶:メカニズム、評価、進化
- Authors: Dianxing Zhang, Wendong Li, Kani Song, Jiaye Lu, Gang Li, Liuchun Yang, Sheng Li,
- Abstract要約: 我々は,4つの分類法(パラメトリック,文脈,外部,手続き/エピソード)とメモリ四倍法(ロケーション,永続性,書き込み/アクセスパス,制御性)を提案する。
DMM Gov: DAPT/TAPT, PEFT, モデル編集(ROME, MEND, MEMIT, SERAC)、RAGをコーディネートして監査可能なループを形成する。
これにより、再現可能で、同等で、統制可能な、研究と展開のための座標系が得られる。
- 参考スコア(独自算出の注目度): 8.158439933515131
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Under a unified operational definition, we define LLM memory as a persistent state written during pretraining, finetuning, or inference that can later be addressed and that stably influences outputs. We propose a four-part taxonomy (parametric, contextual, external, procedural/episodic) and a memory quadruple (location, persistence, write/access path, controllability). We link mechanism, evaluation, and governance via the chain write -> read -> inhibit/update. To avoid distorted comparisons across heterogeneous setups, we adopt a three-setting protocol (parametric only, offline retrieval, online retrieval) that decouples capability from information availability on the same data and timeline. On this basis we build a layered evaluation: parametric (closed-book recall, edit differential, memorization/privacy), contextual (position curves and the mid-sequence drop), external (answer correctness vs snippet attribution/faithfulness), and procedural/episodic (cross-session consistency and timeline replay, E MARS+). The framework integrates temporal governance and leakage auditing (freshness hits, outdated answers, refusal slices) and uncertainty reporting via inter-rater agreement plus paired tests with multiple-comparison correction. For updating and forgetting, we present DMM Gov: coordinating DAPT/TAPT, PEFT, model editing (ROME, MEND, MEMIT, SERAC), and RAG to form an auditable loop covering admission thresholds, rollout, monitoring, rollback, and change audits, with specs for timeliness, conflict handling, and long-horizon consistency. Finally, we give four testable propositions: minimum identifiability; a minimal evaluation card; causally constrained editing with verifiable forgetting; and when retrieval with small-window replay outperforms ultra-long-context reading. This yields a reproducible, comparable, and governable coordinate system for research and deployment.
- Abstract(参考訳): 統一された運用定義の下では、LCMメモリを事前トレーニング、微調整、推論中に記述された永続的な状態として定義する。
本稿では,4つの分類法(パラメトリック,コンテキスト,外部,手続き/エポゾディック)とメモリ4倍(ロケーション,永続性,書き込み/アクセスパス,制御性)を提案する。
チェーン書き込み -> read -> inhibit/update を通じて、メカニズム、評価、ガバナンスをリンクします。
不均一なセットアップ間での歪み比較を避けるため、同一データとタイムライン上の情報の可用性から機能を分離する3つの設定プロトコル(パラメトリックのみ、オフライン検索、オンライン検索)を採用する。
パラメトリック(クローズドブックリコール、編集ディファレンシャル、記憶/プライバシ)、コンテキスト(ポジションカーブと中間シーケンスドロップ)、外部(スニペット属性/偽り)、手続き/エピソード(クロスセッション一貫性とタイムラインリプレイ、EMARS+)である。
このフレームワークは、時間的ガバナンスとリーク監査(フレッシュネスヒット、時代遅れの回答、拒否されたスライス)と、ラッター間合意による不確実性報告と、多重比較補正を備えたペアテストを統合する。
DAPT/TAPT、PEFT、モデル編集(ROME、MEND、MEMIT、SERAC)、RAGをコーディネートして、許容しきい値、ロールアウト、監視、ロールバック、変更監査をカバーする監査可能なループを形成する。
最後に、最小の識別可能性、最小評価カード、検証可能な忘れを伴って因果的に制約された編集、そして小さなウィンドウリプレイによる検索が超長文読解よりも優れた場合の4つの検証可能な命題を提示する。
これにより、再現可能で、同等で、統制可能な、研究と展開のための座標系が得られる。
関連論文リスト
- Probing Pre-trained Language Models on Code Changes: Insights from ReDef, a High-Confidence Just-in-Time Defect Prediction Dataset [0.0]
本稿では,22の大規模C/C++プロジェクトから得られた関数レベル修正の信頼性の高いベンチマークであるReDefを紹介する。
欠陥ケースはコミットの反転によって固定され、クリーンケースはポストホック履歴チェックによって検証される。
このパイプラインは3,164の欠陥と10,268のクリーンな修正をもたらし、既存のリソースよりも信頼性の高いラベルを提供する。
論文 参考訳(メタデータ) (2025-09-11T07:07:11Z) - Unlearning at Scale: Implementing the Right to be Forgotten in Large Language Models [0.0]
我々のアプローチは最小限のプログラムとして扱い、マイクロバッチレコードにログを出力する。
ピン付きスタックと決定論的カーネルの下で、トレーニングテールを再生すると、トレーニング保持セットと同じパラメータが生成される。
論文 参考訳(メタデータ) (2025-08-17T03:29:22Z) - End-to-End Page-Level Assessment of Handwritten Text Recognition [69.55992406968495]
HTRシステムは、文書のエンドツーエンドのページレベルの書き起こしに直面している。
標準メトリクスは、現れる可能性のある不整合を考慮していない。
本稿では、転写精度とROの良さを別々に検討する2つの評価法を提案する。
論文 参考訳(メタデータ) (2023-01-14T15:43:07Z) - CoP: Factual Inconsistency Detection by Controlling the Preference [45.4045488637761]
本稿では、生成モデルの好みをプロンプトの助けを借りて制御することで、CoPという教師なしのフレームワークを提案する。
適切に設計されたプロンプトにより、我々のフレームワークは特定の嗜好を評価し、きめ細かい不整合のカテゴリの測定に役立てることができる。
実験の結果,本フレームワークは3つの現実的不整合検出タスクにおいて,新たなSOTA結果を実現することがわかった。
論文 参考訳(メタデータ) (2022-12-03T13:05:24Z) - Conformance Checking with Uncertainty via SMT (Extended Version) [66.58864135810981]
データ認識参照プロセスに対する不確実なログの適合性を確認する方法を示す。
我々のアプローチはモジュラーであり、異なるタイプの不確実性に均質に適合する。
本研究は,概念実証によるアプローチの正しさと実現可能性を示す。
論文 参考訳(メタデータ) (2022-06-15T11:39:45Z) - Relation Extraction as Open-book Examination: Retrieval-enhanced Prompt
Tuning [109.7767515627765]
本稿では,関係抽出のための新たな半パラメトリックなプロンプトチューニング手法を提案する。
我々のモデルは、トレーニング中に重みに格納された知識を通して関係を推測する。
本手法は,標準的な教師付き設定と少数ショット設定の両方で最先端を実現することができる。
論文 参考訳(メタデータ) (2022-05-04T23:38:37Z) - CoCoMoT: Conformance Checking of Multi-Perspective Processes via SMT
(Extended Version) [62.96267257163426]
我々はCoCoMoT(Computing Conformance Modulo Theories)フレームワークを紹介する。
まず、純粋な制御フロー設定で研究したSATベースのエンコーディングを、データ認識ケースに持ち上げる方法を示す。
次に,プロパティ保存型クラスタリングの概念に基づく新しい前処理手法を提案する。
論文 参考訳(メタデータ) (2021-03-18T20:22:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。