論文の概要: Memex(RL): Scaling Long-Horizon LLM Agents via Indexed Experience Memory
- arxiv url: http://arxiv.org/abs/2603.04257v1
- Date: Wed, 04 Mar 2026 16:45:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.406896
- Title: Memex(RL): Scaling Long-Horizon LLM Agents via Indexed Experience Memory
- Title(参考訳): Memex(RL):Indexed Experience Memoryによる長期LDMエージェントのスケーリング
- Authors: Zhenting Wang, Huancheng Chen, Jiayun Wang, Wei Wei,
- Abstract要約: 大言語モデル(LLM)エージェントは、長い水平タスク上の有限コンテキストウィンドウによってボトルネックされる。
既存のソリューションは通常、トランケーションやサマリーの実行を通じてコンテキストを短くする。
我々は、エビデンスを捨てることなくコンテキストを圧縮するインデックス付き体験記憶機構であるMemexを紹介する。
- 参考スコア(独自算出の注目度): 31.554938249191974
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model (LLM) agents are fundamentally bottlenecked by finite context windows on long-horizon tasks. As trajectories grow, retaining tool outputs and intermediate reasoning in-context quickly becomes infeasible: the working context becomes prohibitively long, eventually exceeds the context budget, and makes distant evidence harder to use even when it is still present. Existing solutions typically shorten context through truncation or running summaries, but these methods are fundamentally lossy because they compress or discard past evidence itself. We introduce Memex, an indexed experience memory mechanism that instead compresses context without discarding evidence. Memex maintains a compact working context consisting of concise structured summaries and stable indices, while storing full-fidelity underlying interactions in an external experience database under those indices. The agent can then decide when to dereference an index and recover the exact past evidence needed for the current subgoal. We optimize both write and read behaviors with our reinforcement learning framework MemexRL, using reward shaping tailored to indexed memory usage under a context budget, so the agent learns what to summarize, what to archive, how to index it, and when to retrieve it. This yields a substantially less lossy form of long-horizon memory than summary-only approaches. We further provide a theoretical analysis showing the potential of the Memex loop to preserve decision quality with bounded dereferencing while keeping effective in-context computation bounded as history grows. Empirically, on challenging long-horizon tasks, Memex agent trained with MemexRL improves task success while using a significantly smaller working context.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントは、長軸タスク上の有限コンテキストウィンドウによって根本的にボトルネックされる。
軌跡が大きくなるにつれて、ツール出力の保持や文脈内の中間的推論はすぐに実現不可能となり、作業コンテキストは禁断に長くなり、最終的にはコンテキスト予算を超え、まだ存在する場合でも遠方からの証拠の使用が困難になる。
既存のソリューションは、典型的には短絡やサマリーの実行を通じて文脈を短くするが、これらの手法は、過去の証拠そのものを圧縮または破棄するため、基本的に損失がある。
我々は、エビデンスを捨てることなくコンテキストを圧縮するインデックス付き体験記憶機構であるMemexを紹介した。
Memexは、簡潔な構造化された要約と安定したインデックスからなるコンパクトな作業コンテキストを維持しながら、それらのインデックスの下に外部エクスペリエンスデータベースに、その基礎となるインタラクションをフル忠実に保存する。
エージェントはインデックスをいつ参照するかを決め、現在のサブゴールに必要な正確な過去の証拠を復元する。
我々は,強化学習フレームワークであるMemexRLの書き込みと読み込みの両方の動作を最適化し,コンテキスト予算の下でインデックス化されたメモリ使用量に合わせて調整された報酬シェーピングを用いて,エージェントが何を要約するか,何をアーカイブするか,どのようにインデックスするか,いつ取得するかを学習する。
これにより、要約のみのアプローチよりもはるかに損失の少ないロングホライズンメモリが得られる。
さらに,歴史が大きくなるにつれてコンテキスト内計算を効果的に保ちつつ,境界付き参照による決定品質を維持するためのMemexループの可能性を示す理論的解析を行った。
経験的に、長期タスクに挑戦する上で、MemexRLで訓練されたMemexエージェントは、作業コンテキストをはるかに小さくしてタスクの成功を改善する。
関連論文リスト
- From Verbatim to Gist: Distilling Pyramidal Multimodal Memory via Semantic Information Bottleneck for Long-Horizon Video Agents [78.30630000529133]
本稿ではファジィトレース理論に基づくピラミッド型マルチモーダルメモリアーキテクチャMM-Memを提案する。
MM-Memメモリは階層的に感覚バッファ、エピソードストリーム、シンボリックに構造する。
実験により、MM-Memがオフラインタスクとストリーミングタスクの両方で有効であることが確認された。
論文 参考訳(メタデータ) (2026-03-02T05:12:45Z) - Contextual Memory Virtualisation: DAG-Based State Management and Structurally Lossless Trimming for LLM Agents [0.0]
我々は,蓄積したLLM理解をバージョン管理状態として扱うシステムであるコンテキスト記憶仮想化(CMV)を提案する。
CMVはセッション履歴を、正式に定義されたスナップショット、ブランチ、トリムプリミティブを備えたDAG(Directed Acyclic Graph)としてモデル化する。
シングルユーザによるケーススタディ評価では、トリミングが迅速なキャッシュの下で経済的に有効であることが示されている。
論文 参考訳(メタデータ) (2026-02-25T20:52:52Z) - MetaMem: Evolving Meta-Memory for Knowledge Utilization through Self-Reflective Symbolic Optimization [57.17751568928966]
自己進化型メタメモリでメモリシステムを拡張するフレームワークであるMetaMemを提案する。
メタメモリ最適化の間、MetaMemは異なるタスク間で伝達可能な知識利用経験を反復的に蒸留する。
大規模な実験ではMetaMemの有効性が示され、これは強いベースラインを3.6%以上上回っている。
論文 参考訳(メタデータ) (2026-01-27T04:46:23Z) - Agentic Memory: Learning Unified Long-Term and Short-Term Memory Management for Large Language Model Agents [57.38404718635204]
大規模言語モデル (LLM) エージェントは、有限コンテキストウィンドウによる長距離推論において基本的な制限に直面している。
既存のメソッドは通常、長期記憶(LTM)と短期記憶(STM)を独立したコンポーネントとして扱う。
本稿では,エージェントのポリシーに LTM と STM 管理を直接統合する統合フレームワークである Agentic Memory (AgeMem) を提案する。
論文 参考訳(メタデータ) (2026-01-05T08:24:16Z) - Resolving Evidence Sparsity: Agentic Context Engineering for Long-Document Understanding [49.26132236798123]
視覚言語モデル(VLM)は、文書理解における主要なアプローチになりつつある。
本稿では,粗いプロセスにおいて,検索者と4つの協調エージェントを編成するマルチエージェントフレームワークSLEUTHを提案する。
このフレームワークは、検索したページ内の重要なテキストおよび視覚的手がかりを特定し、テーブルやチャートなどの健全な視覚的エビデンスをフィルタし、クエリを分析して推論戦略を考案する。
論文 参考訳(メタデータ) (2025-11-28T03:09:40Z) - A Simple Yet Strong Baseline for Long-Term Conversational Memory of LLM Agents [4.706565675142042]
LLMベースの会話エージェントは、多くのセッションにおいてコヒーレントでパーソナライズされたインタラクションを維持するのに依然として苦労している。
ニューダビッドソンのイベントセマンティクスに触発され、会話履歴を短く、イベントのような命題として表現するイベント中心の代替案を提案する。
我々の設計は、情報を非圧縮形式で保存し、より損失の多いものよりもアクセスしやすくすることを目的としています。
論文 参考訳(メタデータ) (2025-11-21T12:41:17Z) - A Benchmark for Procedural Memory Retrieval in Language Agents [0.023227405857540805]
現在のAIエージェントは、慣れ親しんだ設定で優れていますが、目に見えないProcで新しいタスクに直面したとき、急激に失敗します。
タスク実行から手続き的メモリ検索を分離する最初のベンチマークを示す。
埋め込み型手法は、慣れ親しんだ文脈で強く機能するが、新規な手法では著しく劣化する。
論文 参考訳(メタデータ) (2025-11-21T08:08:53Z) - GCAgent: Long-Video Understanding via Schematic and Narrative Episodic Memory [59.869552603264076]
GCAgent(Global-Context-Aware Agent)は,広義の長ビデオ理解を実現する新しいフレームワークである。
これは、イベントとその因果関係と時間的関係を、簡潔で組織化されたコンテキストに構造的にモデル化するものです。
実験により、GCAgentは、強力なMLLMベースライン上でのVideo-MME Long分割において、最大23.5%の精度向上を実現した。
論文 参考訳(メタデータ) (2025-11-15T04:29:00Z) - MemSearcher: Training LLMs to Reason, Search and Manage Memory via End-to-End Reinforcement Learning [73.27233666920618]
本稿では,メモリを反復的に保持し,現在のターンと組み合わせたエージェントワークフローであるMemSearcherを提案する。
それぞれのターンで、MemSearcherはユーザーの質問をメモリに融合させ、推論トレースを生成し、検索アクションを実行し、メモリを更新してタスクの解決に必要な情報のみを保持する。
我々は,MemSearcher Agents の推論,検索戦略,メモリ管理を協調的に最適化する,エンドツーエンドの RL フレームワークである Multi-context GRPO を紹介する。
論文 参考訳(メタデータ) (2025-11-04T18:27:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。