論文の概要: MEM1: Learning to Synergize Memory and Reasoning for Efficient Long-Horizon Agents
- arxiv url: http://arxiv.org/abs/2506.15841v1
- Date: Wed, 18 Jun 2025 19:44:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:04.828332
- Title: MEM1: Learning to Synergize Memory and Reasoning for Efficient Long-Horizon Agents
- Title(参考訳): MEM1: 効率的な長距離エージェントのための記憶と推論の同期学習
- Authors: Zijian Zhou, Ao Qu, Zhaoxuan Wu, Sunghwan Kim, Alok Prakash, Daniela Rus, Jinhua Zhao, Bryan Kian Hsiang Low, Paul Pu Liang,
- Abstract要約: 我々は,長時間のマルチターンタスクに対して,エージェントが一定のメモリで動作可能な,エンドツーエンドの強化学習フレームワークMEM1を紹介する。
各ターンでMEM1は、メモリ統合と推論を共同でサポートするコンパクトな共有内部状態を更新する。
その結果,MEM1-7Bは16目的のマルチホップQAタスクにおいて,Qwen2.5-14B-Instructと比較してメモリ使用量を3.7倍削減し,3.5倍の性能向上を示す。
- 参考スコア(独自算出の注目度): 84.62985963113245
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern language agents must operate over long-horizon, multi-turn interactions, where they retrieve external information, adapt to observations, and answer interdependent queries. Yet, most LLM systems rely on full-context prompting, appending all past turns regardless of their relevance. This leads to unbounded memory growth, increased computational costs, and degraded reasoning performance on out-of-distribution input lengths. We introduce MEM1, an end-to-end reinforcement learning framework that enables agents to operate with constant memory across long multi-turn tasks. At each turn, MEM1 updates a compact shared internal state that jointly supports memory consolidation and reasoning. This state integrates prior memory with new observations from the environment while strategically discarding irrelevant or redundant information. To support training in more realistic and compositional settings, we propose a simple yet effective and scalable approach to constructing multi-turn environments by composing existing datasets into arbitrarily complex task sequences. Experiments across three domains, including internal retrieval QA, open-domain web QA, and multi-turn web shopping, show that MEM1-7B improves performance by 3.5x while reducing memory usage by 3.7x compared to Qwen2.5-14B-Instruct on a 16-objective multi-hop QA task, and generalizes beyond the training horizon. Our results demonstrate the promise of reasoning-driven memory consolidation as a scalable alternative to existing solutions for training long-horizon interactive agents, where both efficiency and performance are optimized.
- Abstract(参考訳): 現代の言語エージェントは、外部情報を取得し、観察に適応し、相互依存クエリに応答する、長期にわたるマルチターンインタラクションを操作しなければならない。
しかし、ほとんどのLLMシステムはフルコンテキストのプロンプトに依存しており、その関連性に関係なく過去のすべてのターンを付加している。
これにより、メモリが無制限に成長し、計算コストが増大し、アウト・オブ・ディストリビューションの入力長に対する推論性能が低下する。
我々は,長時間のマルチターンタスクに対して,エージェントが一定のメモリで動作可能な,エンドツーエンドの強化学習フレームワークMEM1を紹介する。
各ターンでMEM1は、メモリ統合と推論を共同でサポートするコンパクトな共有内部状態を更新する。
この状態は、事前記憶と環境からの新たな観測を統合し、無関係または冗長な情報を戦略的に破棄する。
より現実的で構成的な環境でのトレーニングを支援するため,既存のデータセットを任意に複雑なタスクシーケンスに構成することで,マルチターン環境を構築するためのシンプルで効果的かつスケーラブルなアプローチを提案する。
内部検索QA、オープンドメインウェブQA、マルチターンウェブショッピングを含む3つの領域にわたる実験により、MEM1-7Bは16-目的のマルチホップQAタスクにおけるQwen2.5-14B-インストラクトと比較してメモリ使用量を3.7倍削減し、トレーニングの地平線を越えて一般化することを示した。
本研究は,従来の長期対話型エージェントを学習するための拡張性のある代替手段として,推論駆動型メモリ統合の実現が期待できることを示す。
関連論文リスト
- Towards Multi-Granularity Memory Association and Selection for Long-Term Conversational Agents [73.77930932005354]
我々は,多粒度アソシエーション,適応選択,検索を構築することで,メモリ統合を向上するフレームワークであるMemGASを提案する。
MemGASは多粒度メモリユニットに基づいており、ガウス混合モデルを用いて新しい記憶と過去の記憶をクラスタリングし関連付けている。
4つの長期メモリベンチマークの実験により、MemGASは質問応答と検索タスクの両方において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2025-05-26T06:13:07Z) - Memory-Centric Embodied Question Answer [39.3863762723862]
EQA(Embodied Question Answering)は、エージェントが文脈に依存した質問に答えるために、環境を自律的に探索し理解することを要求する。
メモリ中心のEQAフレームワークであるMemoryEQAを提案する。
メモリモジュールが他のモジュールと完全に相互作用できないプランナー中心のEQAモデルとは異なり、MemoryEQAはメモリ情報を全てのモジュールにフレキシブルに供給する。
論文 参考訳(メタデータ) (2025-05-20T05:27:57Z) - Mem0: Building Production-Ready AI Agents with Scalable Long-Term Memory [0.5584627289325719]
大規模言語モデル(LLM)は、文脈的に一貫性のある応答を生成する際、顕著な進歩を示した。
しかし、それらの固定されたコンテキストウィンドウは、長時間のマルチセッション対話に対する一貫性を維持するための根本的な課題を生じさせる。
私たちはMem0というスケーラブルなメモリ中心アーキテクチャを導入し、進行中の会話から健全な情報を動的に抽出し、統合し、取得することでこの問題に対処します。
論文 参考訳(メタデータ) (2025-04-28T01:46:35Z) - In Prospect and Retrospect: Reflective Memory Management for Long-term Personalized Dialogue Agents [70.12342024019044]
大規模言語モデル(LLM)は、オープンエンド対話において大きな進歩を遂げているが、関連する情報の保持と取得ができないため、その有効性は制限されている。
本稿では,長期対話エージェントのための新しいメカニズムであるリフレクティブメモリ管理(RMM)を提案する。
RMMは、LongMemEvalデータセットのメモリ管理なしでベースラインよりも10%以上精度が向上している。
論文 参考訳(メタデータ) (2025-03-11T04:15:52Z) - InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions [104.90258030688256]
本研究は,ストリーミング映像とオーディオ入力とのリアルタイムインタラクションを実現するために,非絡み合いのストリーミング知覚,推論,メモリ機構を導入している。
このプロジェクトは人間のような認知をシミュレートし、多モーダルな大規模言語モデルが時間とともに継続的かつ適応的なサービスを提供できるようにする。
論文 参考訳(メタデータ) (2024-12-12T18:58:30Z) - Memory Sharing for Large Language Model based Agents [43.53494041932615]
本稿では,リアルタイムメモリフィルタ,ストレージ,検索を統合し,In-Context学習プロセスを強化するためのフレームワークであるMemory Sharingを紹介する。
実験の結果,MSフレームワークはオープンな質問に対処する際のエージェントの性能を大幅に改善することが示された。
論文 参考訳(メタデータ) (2024-04-15T17:57:30Z) - UniPT: Universal Parallel Tuning for Transfer Learning with Efficient
Parameter and Memory [69.33445217944029]
PETLは、トレーニング済みモデルを下流ドメインに適応するための効果的な戦略である。
最近のPETLは、より価値の高いメモリ効率特性に焦点を当てている。
メモリ効率の良い新しいPETL戦略Universal Parallel Tuning (UniPT)を提案する。
論文 参考訳(メタデータ) (2023-08-28T05:38:43Z) - Memory-Guided Semantic Learning Network for Temporal Sentence Grounding [55.31041933103645]
本稿では,TSGタスクにおいて稀に出現しないコンテンツを学習し,記憶するメモリ拡張ネットワークを提案する。
MGSL-Netは、クロスモーダル・インターアクション・モジュール、メモリ拡張モジュール、異種アテンション・モジュールの3つの主要な部分で構成されている。
論文 参考訳(メタデータ) (2022-01-03T02:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。