論文の概要: Compiled Memory: Not More Information, but More Precise Instructions for Language Agents
- arxiv url: http://arxiv.org/abs/2603.15666v1
- Date: Thu, 12 Mar 2026 01:49:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:06.860972
- Title: Compiled Memory: Not More Information, but More Precise Instructions for Language Agents
- Title(参考訳): コンパイルメモリ: 情報だけでなく、言語エージェントのより正確な指示
- Authors: James Rhodes, George Kang,
- Abstract要約: 本稿では,蓄積したタスク体験をエージェントの命令構造にコンパイルするメモリカーネルであるAtlasを紹介する。
メモリは蒸留であり、ストレージではない。デリバリは命令の書き換えであり、コンテキスト注入ではない。
CUAD契約解析では、進化したプロンプトによりGPT-4oトークンレベルF1が+8.7$pp、精度が+12.5$pp向上した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing memory systems for language agents address memory management: how to retrieve and page more information within a context budget. We address a complementary problem -- memory utility: what experience is worth keeping, and how it should change agent behavior. We present Atlas, a memory kernel that compiles accumulated task experience into an agent's instruction structure -- without fine-tuning, RAG, or human intervention. Memory is distillation, not storage; delivery is instruction rewriting, not context injection. Facts extracted from agent failures and successes are verified through a three-step promotion gate and delivered by rewriting the agent's system prompt with learned sub-bullets. On CUAD contract analysis, the evolved prompt improves GPT-4o token-level F1 by $+8.7$pp and precision by $+12.5$pp. On HotpotQA multi-hop QA, joint F1 improves $+3.16$pp. An ablation isolates the mechanism's defining property -- the training signal constraint: the evolved prompt learns exactly what it is taught, and nothing more. Applied to Claude Sonnet~4.5 using the same evolved prompt -- compiled from GPT-4o errors, unchanged -- joint F1 improves $+2.31$pp, with gains concentrating where Claude's stronger baseline leaves the most room -- confirming that the compiled knowledge is task-shaped, not model-shaped.
- Abstract(参考訳): 既存の言語エージェントのメモリシステムは、メモリ管理に対処する。
我々は、補完的な問題に対処する -- メモリユーティリティ:どのエクスペリエンスを保持する価値があるか、エージェントの振る舞いをどのように変更すべきか。エージェントの命令構造に蓄積されたタスクエクスペリエンスをコンパイルするメモリカーネルであるAtlasを、微調整、RAG、あるいは人間の介入なしに提示する。
メモリは蒸留であり、ストレージではない。デリバリは命令書き換えであり、コンテキスト注入ではない。
エージェントの失敗や成功から抽出した事実を3段階のプロモーションゲートを介して検証し、エージェントのシステムプロンプトを学習したサブブレットで書き換えることにより配信する。
CUAD契約解析では、進化したプロンプトによりGPT-4oトークンレベルF1が+8.7$pp、精度が+12.5$pp向上した。
HotpotQAマルチホップQAでは、ジョイントF1が+3.16$ppで改善されている。
アブレーションはメカニズムの定義特性を分離する -- 訓練信号の制約: 進化したプロンプトは、何を教えるのかを正確に学習するが、それ以上のものはない。Claude Sonnet~4.5では、GPT-4oエラーからコンパイルされた同じ進化したプロンプトを使用し、変化しない。ジョイントF1では、$+2.31$ppが向上し、Claudeの強力なベースラインがほとんどの部屋を離れる場所に集中して、コンパイルされた知識がタスク型であり、モデル型ではないことを確認する。
関連論文リスト
- PlugMem: A Task-Agnostic Plugin Memory Module for LLM Agents [74.4491017652226]
タスク固有の再設計なしに任意のLLMエージェントにアタッチ可能なタスク非依存メモリモジュールであるPlugMemを提案する。
意思決定関連情報が生の経験よりも抽象的な知識として集中しているという事実に感銘されて、認識科学に焦点をあてて、エピソード記憶をコンパクトで知識中心の記憶グラフに構造化する。
PlugMemを3つのベンチマーク(長期会話型質問応答、マルチホップ知識検索、Webエージェントタスク)で評価する。
論文 参考訳(メタデータ) (2026-02-06T18:55:38Z) - InfMem: Learning System-2 Memory Control for Long-Context Agent [43.413381779578266]
InfMemは、PreThink-Retrieve-Writeプロトコルを介してSystem-2スタイルの制御をインスタンス化する制御中心のエージェントである。
32kから100Mまでの超長期のQAベンチマークでは、InfMemはバックボーン全体でMemAgentを一貫して上回っている。
論文 参考訳(メタデータ) (2026-02-02T19:15:08Z) - MemSkill: Learning and Evolving Memory Skills for Self-Evolving Agents [29.375397774491887]
ほとんどのLarge Language Model (LLM) エージェントメモリシステムは、メモリを抽出するために静的で手作業で設計された小さな操作に頼っている。
textbfMemSkillは、これらの操作を学習可能で進化可能なメモリスキルとして再構成する。
論文 参考訳(メタデータ) (2026-02-02T18:53:28Z) - Remember Me, Refine Me: A Dynamic Procedural Memory Framework for Experience-Driven Agent Evolution [52.76038908826961]
我々は静的ストレージと動的推論のギャップを埋めるため、$textbfReMe$ ($textitRemember Me, Refine Me$)を提案する。
ReMeは3つのメカニズムを通じてメモリライフサイクルを革新する: $textitmulti-faceted distillation$, きめ細かい経験を抽出する。
BFCL-V3とAppWorldの実験では、ReMeが新しい最先端のエージェントメモリシステムを確立している。
論文 参考訳(メタデータ) (2025-12-11T14:40:01Z) - Mem-α: Learning Memory Construction via Reinforcement Learning [20.916677456417464]
大きな言語モデル(LLM)エージェントは、限られたコンテキストウィンドウによって制約される。
現在のメモリ拡張エージェントは、メモリ更新のための事前に定義された命令とツールに依存している。
Mem-alphaは、エージェントに複雑なメモリシステムを効果的に管理するように訓練する強化学習フレームワークである。
論文 参考訳(メタデータ) (2025-09-30T08:02:34Z) - Instruction-Level Weight Shaping: A Framework for Self-Improving AI Agents [0.0]
大規模言語モデル (LLMs) は流動的であるが、ほとんどは事前訓練後に静的である。
新しい知識やシフトする知識は、通常、検索強化世代(RAG)や微調整と共に追加される。
ILWS(Instruction-Level Weight Shaping)を提案する。
キュレートされたシステム命令は、各セッション後に更新された外部の監査可能な擬似パラメータとして機能する。
論文 参考訳(メタデータ) (2025-08-29T21:34:39Z) - On the Resilience of LLM-Based Multi-Agent Collaboration with Faulty Agents [58.79302663733703]
大規模言語モデルに基づくマルチエージェントシステムは、専門家エージェントの協力により、様々なタスクにまたがる優れた能力を示している。
不器用なエージェントや悪意のあるエージェントが与える影響 - システム全体のパフォーマンスにおいて、頻繁にタスクでエラーを犯すものは、いまだに過小評価されていない。
本稿では,下流タスクにおける障害要因下での各種システム構造のレジリエンスについて検討する。
論文 参考訳(メタデータ) (2024-08-02T03:25:20Z) - Physics of Language Models: Part 3.1, Knowledge Storage and Extraction [51.68385617116854]
大規模言語モデル(LLM)は膨大な量の世界の知識を格納することができ、しばしば質問応答によって抽出できる。
モデルが知識を抽出する能力と,トレーニングデータの多様な多様性尺度との間には,強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-09-25T17:37:20Z) - Decouple knowledge from parameters for plug-and-play language modeling [77.5601135412186]
差別化可能なプラグインメモリ(DPM)を備えた事前学習モデルPlugLMを導入する。
鍵となる直感は、編集可能でスケーラブルなキーバリューメモリで、知識ストレージをモデルパラメータから切り離すことである。
PlugLMは4つのドメインで平均3.95のF1改善を実現している。
論文 参考訳(メタデータ) (2023-05-19T10:01:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。