論文の概要: Memento: Fine-tuning LLM Agents without Fine-tuning LLMs
- arxiv url: http://arxiv.org/abs/2508.16153v2
- Date: Mon, 25 Aug 2025 13:32:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 14:31:50.872997
- Title: Memento: Fine-tuning LLM Agents without Fine-tuning LLMs
- Title(参考訳): メメント:微調整LDM剤
- Authors: Huichi Zhou, Yihang Chen, Siyuan Guo, Xue Yan, Kin Hei Lee, Zihan Wang, Ka Yiu Lee, Guchun Zhang, Kun Shao, Linyi Yang, Jun Wang,
- Abstract要約: 本稿では,適応型大言語モデル(LLM)エージェントのための新しい学習パラダイムを提案する。
本手法は,メモリベースのオンライン強化学習により,低コストで連続的な適応を可能にする。
我々はエージェントモデルを,GAIA検証でトップ1に達するemphMementoというディープリサーチ環境でインスタンス化する。
- 参考スコア(独自算出の注目度): 36.3424780932712
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we introduce a novel learning paradigm for Adaptive Large Language Model (LLM) agents that eliminates the need for fine-tuning the underlying LLMs. Existing approaches are often either rigid, relying on static, handcrafted reflection workflows, or computationally intensive, requiring gradient updates of LLM model parameters. In contrast, our method enables low-cost continual adaptation via memory-based online reinforcement learning. We formalise this as a Memory-augmented Markov Decision Process (M-MDP), equipped with a neural case-selection policy to guide action decisions. Past experiences are stored in an episodic memory, either differentiable or non-parametric. The policy is continually updated based on environmental feedback through a memory rewriting mechanism, whereas policy improvement is achieved through efficient memory reading (retrieval). We instantiate our agent model in the deep research setting, namely \emph{Memento}, which attains top-1 on GAIA validation ($87.88\%$ Pass@$3$) and $79.40\%$ on the test set. It reaches $66.6\%$ F1 and $80.4\%$ PM on the DeepResearcher dataset, outperforming the state-of-the-art training-based method, while case-based memory adds $4.7\%$ to $9.6\%$ absolute points on out-of-distribution tasks. Our approach offers a scalable and efficient pathway for developing generalist LLM agents capable of continuous, real-time learning without gradient updates, advancing machine learning towards open-ended skill acquisition and deep research scenarios. The code is available at https://github.com/Agent-on-the-Fly/Memento.
- Abstract(参考訳): 本稿では,LLMの微調整を不要とした適応型大規模言語モデル(LLM)エージェントのための新しい学習パラダイムを提案する。
既存のアプローチは、しばしば剛性があり、静的で手作りのリフレクションワークフローに依存するか、計算集約的なLLMモデルパラメータの勾配更新を必要とする。
対照的に,本手法は,メモリベースのオンライン強化学習を通じて,低コストで連続的な適応を可能にする。
我々はこれをメモリ拡張マルコフ決定プロセス(M-MDP)として定式化し、行動決定を導くためのニューラルケース選択ポリシーを備える。
過去の体験は、微分可能か非パラメトリックのいずれかのエピソードメモリに保存される。
ポリシーは、メモリ書き換え機構を通じて環境フィードバックに基づいて継続的に更新される一方、効率的なメモリ読み取り(検索)によってポリシーの改善が達成される。
私たちはエージェントモデルをディープリサーチ環境でインスタンス化します。これは、GAIAバリデーション(87.88 %$ Pass@$3$)でトップ1、テストセットで79.40 %$に達します。
これはDeepResearcherデータセットで6.6\%$ F1と80.4\%$ PMに達し、最先端のトレーニングベースの方法よりも優れており、ケースベースのメモリでは配布外タスクの絶対点が4.7\%から9.6\%になる。
我々のアプローチは、拡張性のない継続的かつリアルタイムな学習が可能な汎用LLMエージェントを開発するためのスケーラブルで効率的な経路を提供し、機械学習をオープンエンドのスキル獲得や深層研究シナリオに向けて前進させる。
コードはhttps://github.com/Agent-on-the-Fly/Memento.comで公開されている。
関連論文リスト
- Reinforced Language Models for Sequential Decision Making [6.971286730860635]
大規模言語モデル(LLM)は、シーケンシャルな意思決定エージェントとしての可能性を示している。
既存のポストトレーニング手法はシングルターンインタラクション用に設計されており、マルチステップエージェントタスクにおけるクレジット割り当てを処理できない。
この研究は、標的となるポストトレーニングが、シーケンシャルな意思決定エージェントを作成するためのモデルスケールに依存する、実用的で効率的な代替手段であることを実証している。
論文 参考訳(メタデータ) (2025-08-14T17:05:44Z) - Process Reward Models for LLM Agents: Practical Framework and Directions [10.986389591866617]
エージェントプロセス・リワード・モデル (AgentPRM) を導入する。
InversePRMを提案する。これは、明示的な結果の監督なしに、デモから直接プロセス報酬を学習する。
ALFWorldベンチマークで評価したところ、AgentPRMとInversePRMで訓練された3Bモデルは、強力なGPT-4oベースラインよりも優れていた。
論文 参考訳(メタデータ) (2025-02-14T17:34:28Z) - Reinforcement Learning for Long-Horizon Interactive LLM Agents [56.9860859585028]
インタラクティブデジタルエージェント(IDA)は、ステートフルなデジタル環境のAPIを利用して、ユーザの要求に応じてタスクを実行する。
対象環境で直接IDAを訓練する強化学習(RL)手法を提案する。
我々は、近似ポリシー最適化のデータおよびメモリ効率の亜種である LOOP を導出する。
論文 参考訳(メタデータ) (2025-02-03T18:35:42Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Offline RL with No OOD Actions: In-Sample Learning via Implicit Value
Regularization [90.9780151608281]
インサンプルラーニング(IQL)は、データサンプルのみを使用して、定量的回帰によってポリシーを改善する。
サンプル内学習のパラダイムがtextitImplicit Value Regularization (IVR) フレームワークの下で生まれることを確認する。
Sparse $Q$-learning (EQL)とExponential $Q$-learning (EQL)の2つの実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-28T08:30:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。