論文の概要: ReasoningBank: Scaling Agent Self-Evolving with Reasoning Memory
- arxiv url: http://arxiv.org/abs/2509.25140v1
- Date: Mon, 29 Sep 2025 17:51:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:20.188015
- Title: ReasoningBank: Scaling Agent Self-Evolving with Reasoning Memory
- Title(参考訳): ReasoningBank: Reasoning Memoryによるスケーリングエージェントの自己進化
- Authors: Siru Ouyang, Jun Yan, I-Hung Hsu, Yanfei Chen, Ke Jiang, Zifeng Wang, Rujun Han, Long T. Le, Samira Daruki, Xiangru Tang, Vishy Tirumalashetty, George Lee, Mahsan Rofouei, Hangfei Lin, Jiawei Han, Chen-Yu Lee, Tomas Pfister,
- Abstract要約: ReasoningBankは、エージェントの自己判断の成功と失敗の経験から一般化可能な推論戦略を抽出するメモリフレームワークである。
テスト時には、エージェントがReasoningBankから関連する記憶を取得してそのインタラクションを知らせ、新しい学習を統合することで、時間が経つにつれてより有能になる。
本稿では,エージェントのインタラクションエクスペリエンスをスケールアップすることにより,学習プロセスの高速化と多様化を図るメモリ対応テストタイムスケーリング(MaTTS)を提案する。
- 参考スコア(独自算出の注目度): 57.517214479414726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the growing adoption of large language model agents in persistent real-world roles, they naturally encounter continuous streams of tasks. A key limitation, however, is their failure to learn from the accumulated interaction history, forcing them to discard valuable insights and repeat past errors. We propose ReasoningBank, a novel memory framework that distills generalizable reasoning strategies from an agent's self-judged successful and failed experiences. At test time, an agent retrieves relevant memories from ReasoningBank to inform its interaction and then integrates new learnings back, enabling it to become more capable over time. Building on this powerful experience learner, we further introduce memory-aware test-time scaling (MaTTS), which accelerates and diversifies this learning process by scaling up the agent's interaction experience. By allocating more compute to each task, the agent generates abundant, diverse experiences that provide rich contrastive signals for synthesizing higher-quality memory. The better memory in turn guides more effective scaling, establishing a powerful synergy between memory and test-time scaling. Across web browsing and software engineering benchmarks, ReasoningBank consistently outperforms existing memory mechanisms that store raw trajectories or only successful task routines, improving both effectiveness and efficiency; MaTTS further amplifies these gains. These findings establish memory-driven experience scaling as a new scaling dimension, enabling agents to self-evolve with emergent behaviors naturally arise.
- Abstract(参考訳): 大きな言語モデルエージェントが現実世界の永続的な役割に採用されることで、彼らは自然にタスクの連続ストリームに遭遇する。
しかし、重要な制限は、蓄積されたインタラクション履歴から学ばなかったことであり、価値ある洞察を捨て、過去のエラーを繰り返すことを余儀なくされている。
エージェントの自己判断から一般化可能な推論戦略を抽出する,新たなメモリフレームワークであるReasoningBankを提案する。
テスト時には、エージェントがReasoningBankから関連する記憶を取得してそのインタラクションを知らせ、新しい学習を統合することで、時間が経つにつれてより有能になる。
この強力な経験学習者に基づいて、エージェントのインタラクションエクスペリエンスをスケールアップすることで、学習プロセスを加速し、多様化するメモリ対応テストタイムスケーリング(MaTTS)を導入する。
各タスクにより多くの計算を割り当てることで、エージェントは、高品質なメモリを合成するための豊富なコントラスト信号を提供する豊富な多様なエクスペリエンスを生成する。
優れたメモリはより効率的なスケーリングを導き、メモリとテストタイムのスケーリングの強力な相乗効果を確立する。
ウェブブラウジングとソフトウェアエンジニアリングのベンチマークを通じて、ReasoningBankは生の軌跡や成功したタスクルーチンのみを格納する既存のメモリメカニズムを一貫して上回り、効率と効率の両方を改善している。
これらの知見は、新たなスケーリングディメンションとして、メモリ駆動のエクスペリエンススケーリングを確立し、エージェントが自然に創発的な振る舞いで自己進化することを可能にする。
関連論文リスト
- MemGen: Weaving Generative Latent Memory for Self-Evolving Agents [57.1835920227202]
本稿では,エージェントに人間的な認知機能を持たせる動的生成記憶フレームワークであるMemGenを提案する。
MemGenは、エージェントが推論を通して潜在記憶をリコールし、増大させ、記憶と認知の密接なサイクルを生み出すことを可能にする。
論文 参考訳(メタデータ) (2025-09-29T12:33:13Z) - Memp: Exploring Agent Procedural Memory [72.41472703974935]
LLM(Large Language Models)ベースのエージェントは様々なタスクをこなすが、静的パラメータで手動で設計または絡み合うような不安定なプロシージャメモリに悩まされる。
本稿では,過去のエージェントの軌跡をステップバイステップの細粒度と高レベルなスクリプトライクな抽象化の両方に蒸留するMempを提案する。
メモリレポジトリが洗練されるにつれて、エージェントは着実に高い成功率と類似タスクの効率を達成できることを示す。
論文 参考訳(メタデータ) (2025-08-08T16:20:56Z) - How Memory Management Impacts LLM Agents: An Empirical Study of Experience-Following Behavior [49.62361184944454]
メモリは、大きな言語モデル(LLM)ベースのエージェントにおいて重要なコンポーネントである。
メモリ管理の選択がLLMエージェントの行動,特に長期的パフォーマンスに与える影響について検討する。
論文 参考訳(メタデータ) (2025-05-21T22:35:01Z) - From RAG to Memory: Non-Parametric Continual Learning for Large Language Models [6.380729797938521]
検索強化世代(RAG)は、新しい情報を導入する主要な方法となっている。
最近のRAGは、知識グラフのような様々な構造を持つベクトル埋め込みを拡大して、いくつかのギャップ、すなわちセンスメイキングと連想性に対処している。
我々は,現実的,感覚的,連想的なメモリタスクにおいて,標準RAGを総合的に上回るフレームワークであるHippoRAG 2を提案する。
論文 参考訳(メタデータ) (2025-02-20T18:26:02Z) - Memory Sharing for Large Language Model based Agents [43.53494041932615]
本稿では,リアルタイムメモリフィルタ,ストレージ,検索を統合し,In-Context学習プロセスを強化するためのフレームワークであるMemory Sharingを紹介する。
実験の結果,MSフレームワークはオープンな質問に対処する際のエージェントの性能を大幅に改善することが示された。
論文 参考訳(メタデータ) (2024-04-15T17:57:30Z) - Recurrent Action Transformer with Memory [39.58317527488534]
本稿では,情報保持を規制するリカレントメモリ機構を組み込んだ新しいモデルアーキテクチャを提案する。
メモリ集約環境(ViZDoom-Two-Colors, T-Maze, Memory Maze, Minigrid-Memory)、古典的アタリゲーム、MuJoCo制御環境について実験を行った。
その結果、メモリの使用は、古典的な環境における結果の維持や改善をしながら、メモリ集約環境におけるパフォーマンスを著しく向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-06-15T19:29:08Z) - Quantum adaptive agents with efficient long-term memories [0.0]
エージェントが過去の経験から思い出さなければならない情報が増えるほど、必要なメモリが増えます。
メモリ圧縮の利点を最大化するために、量子エージェントが採用すべき最も一般的な形式を明らかにする。
これらのエンコーディングは、メモリ最小の古典的エージェントと比較して非常に有利なスケーリングの利点を示す。
論文 参考訳(メタデータ) (2021-08-24T17:57:05Z) - Augmented Replay Memory in Reinforcement Learning With Continuous
Control [1.6752182911522522]
オンライン強化学習エージェントは、高次値関数に変換することで、現在、増大するデータを処理することができる。
この拡張によりエージェントの状態空間が増大し、より複雑な問題にスケールアップできるだけでなく、冗長なデータや矛盾するデータを学習することで忘れるリスクも増大する。
大量のデータの近似を改善するために、リプレイメモリバッファに格納された過去の経験のランダムなミニバッチを各学習ステップで頻繁に再生する。
論文 参考訳(メタデータ) (2019-12-29T20:07:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。