論文の概要: AgentFly: Fine-tuning LLM Agents without Fine-tuning LLMs
- arxiv url: http://arxiv.org/abs/2508.16153v1
- Date: Fri, 22 Aug 2025 07:25:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.28894
- Title: AgentFly: Fine-tuning LLM Agents without Fine-tuning LLMs
- Title(参考訳): AgentFly:微調整LDM剤
- Authors: Huichi Zhou, Yihang Chen, Siyuan Guo, Xue Yan, Kin Hei Lee, Zihan Wang, Ka Yiu Lee, Guchun Zhang, Kun Shao, Linyi Yang, Jun Wang,
- Abstract要約: 本稿では,適応型大言語モデル(LLM)エージェントのための新しい学習パラダイムを提案する。
本手法は,メモリベースオンライン強化学習による低コスト適応を実現する。
我々はエージェントモデルをディープリサーチセッティング、すなわちAgentFlyでインスタンス化する。
- 参考スコア(独自算出の注目度): 36.3424780932712
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we introduce a novel learning paradigm for adaptive Large Language Model (LLM) agents that eliminates the need for fine-tuning the underlying LLMs. Existing approaches are often either rigid, relying on static, handcrafted reflection workflows, or computationally intensive, requiring gradient updates of LLM model parameters. In contrast, our method enables low-cost continual adaptation via memory-based online reinforcement learning. We formalise this as a Memory-augmented Markov Decision Process (M-MDP), equipped with a neural case-selection policy to guide action decisions. Past experiences are stored in an episodic memory, either differentiable or non-parametric. The policy is continually updated based on environmental feedback through a memory rewriting mechanism, whereas policy improvement is achieved through efficient memory reading (retrieval). We instantiate our agent model in the deep research setting, namely AgentFly, which attains top-1 on GAIA validation ($87.88\%$ Pass@$3$) and $79.40\%$ on the test set. It reaches $66.6\%$ F1 and $80.4\%$ PM on the DeepResearcher dataset, outperforming the state-of-the-art training-based method, while case-based memory adds $4.7\%$ to $9.6\%$ absolute points on out-of-distribution tasks. Our approach offers a scalable and efficient pathway for developing generalist LLM agents capable of continuous, real-time learning without gradient updates, advancing machine learning towards open-ended skill acquisition and deep research scenarios. The code is available at https://github.com/Agent-on-the-Fly/AgentFly.
- Abstract(参考訳): 本稿では,LLMの微調整を不要とした適応型大規模言語モデル(LLM)エージェントのための新しい学習パラダイムを提案する。
既存のアプローチは、しばしば剛性があり、静的で手作りのリフレクションワークフローに依存するか、計算集約的なLLMモデルパラメータの勾配更新を必要とする。
対照的に,本手法は,メモリベースのオンライン強化学習を通じて,低コストで連続的な適応を可能にする。
我々はこれをメモリ拡張マルコフ決定プロセス(M-MDP)として定式化し、行動決定を導くためのニューラルケース選択ポリシーを備える。
過去の体験は、微分可能か非パラメトリックのいずれかのエピソードメモリに保存される。
ポリシーは、メモリ書き換え機構を通じて環境フィードバックに基づいて継続的に更新される一方、効率的なメモリ読み取り(検索)によってポリシーの改善が達成される。
我々はエージェントモデルをディープ・リサーチ・セッティング、すなわちAgentFlyでインスタンス化し、GAIA検証(87.88 %$ Pass@$3$)とテストセットで79.40 %$を達成した。
これはDeepResearcherデータセットで6.6\%$ F1と80.4\%$ PMに達し、最先端のトレーニングベースの方法よりも優れており、ケースベースのメモリでは配布外タスクの絶対点が4.7\%から9.6\%になる。
我々のアプローチは、拡張性のない継続的かつリアルタイムな学習が可能な汎用LLMエージェントを開発するためのスケーラブルで効率的な経路を提供し、機械学習をオープンエンドのスキル獲得や深層研究シナリオに向けて前進させる。
コードはhttps://github.com/Agent-on-the-Fly/AgentFlyで公開されている。
関連論文リスト
- $\
abla$-Reasoner: LLM Reasoning via Test-Time Gradient Descent in Latent Space [71.23672814629448]
$nabla$-Reasonerは、トークンログに対する差別化可能な最適化をデコードループに統合する反復生成フレームワークである。
$nabla$-Reasonerは、挑戦的な数学的推論ベンチマークで20%以上の精度の向上を実現している。
論文 参考訳(メタデータ) (2026-03-05T08:42:54Z) - MemSifter: Offloading LLM Memory Retrieval via Outcome-Driven Proxy Reasoning [78.46301394559903]
大きな言語モデル(LLM)は、長期化タスクにますます使われています。
現在の手法はコストと精度のトレードオフに直面している。
MemSifterは、メモリ検索プロセスを小さなプロキシモデルにオフロードする新しいフレームワークである。
論文 参考訳(メタデータ) (2026-03-03T02:57:38Z) - Exploratory Memory-Augmented LLM Agent via Hybrid On- and Off-Policy Optimization [34.50047418642433]
強化学習で訓練された大規模言語モデルエージェントにとって、探索は依然として重要なボトルネックである。
本稿では,探索にメモリを利用するハイブリッドRLフレームワークであるExploratory Memory-Augmented On- and Off-Policy Optimization (EMPO$2$)を提案する。
ScienceWorldとWebShopでは、EMPO$2$はそれぞれ128.6%、GRPOよりも11.3%改善している。
論文 参考訳(メタデータ) (2026-02-26T13:50:57Z) - MIRA: Memory-Integrated Reinforcement Learning Agent with Limited LLM Guidance [18.215893951726166]
大規模言語モデル(LLM)は、早期学習を容易にするサブゴール分解、可塑性軌跡、抽象的な事前情報を提供することができる。
本稿では,MIRA (Memory-Integrated Reinforcement Learning Agent) を提案する。
論文 参考訳(メタデータ) (2026-02-20T01:43:30Z) - Just-In-Time Reinforcement Learning: Continual Learning in LLM Agents Without Gradient Updates [53.3717573880076]
JitRL(Just-In-Time Reinforcement Learning、ジャスト・イン・タイム強化学習)は、テスト時間ポリシーの最適化を可能にするトレーニング不要のフレームワークである。
JitRLは、経験の動的で非パラメトリックな記憶を維持し、関連する軌跡を取得して、オンザフライでのアクションの利点を推定する。
WebArenaとJerrichoの実験では、JitRLがトレーニング不要メソッドの間に新しい最先端技術を確立していることが示されている。
論文 参考訳(メタデータ) (2026-01-26T14:16:51Z) - From Experience to Strategy: Empowering LLM Agents with Trainable Graph Memory [48.22750809620306]
大規模言語モデル(LLM)に基づくエージェントは、自律的なタスク解決において顕著な可能性を示している。
本稿では,エージェント中心型,トレーニング可能な,多層グラフメモリフレームワークを提案する。
コンテクストメモリがLLMの情報活用能力をいかに向上させるかを示す。
論文 参考訳(メタデータ) (2025-11-11T03:36:33Z) - Reinforced Language Models for Sequential Decision Making [6.971286730860635]
大規模言語モデル(LLM)は、シーケンシャルな意思決定エージェントとしての可能性を示している。
既存のポストトレーニング手法はシングルターンインタラクション用に設計されており、マルチステップエージェントタスクにおけるクレジット割り当てを処理できない。
この研究は、標的となるポストトレーニングが、シーケンシャルな意思決定エージェントを作成するためのモデルスケールに依存する、実用的で効率的な代替手段であることを実証している。
論文 参考訳(メタデータ) (2025-08-14T17:05:44Z) - Process Reward Models for LLM Agents: Practical Framework and Directions [10.986389591866617]
エージェントプロセス・リワード・モデル (AgentPRM) を導入する。
InversePRMを提案する。これは、明示的な結果の監督なしに、デモから直接プロセス報酬を学習する。
ALFWorldベンチマークで評価したところ、AgentPRMとInversePRMで訓練された3Bモデルは、強力なGPT-4oベースラインよりも優れていた。
論文 参考訳(メタデータ) (2025-02-14T17:34:28Z) - Reinforcement Learning for Long-Horizon Interactive LLM Agents [56.9860859585028]
インタラクティブデジタルエージェント(IDA)は、ステートフルなデジタル環境のAPIを利用して、ユーザの要求に応じてタスクを実行する。
対象環境で直接IDAを訓練する強化学習(RL)手法を提案する。
我々は、近似ポリシー最適化のデータおよびメモリ効率の亜種である LOOP を導出する。
論文 参考訳(メタデータ) (2025-02-03T18:35:42Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Offline RL with No OOD Actions: In-Sample Learning via Implicit Value
Regularization [90.9780151608281]
インサンプルラーニング(IQL)は、データサンプルのみを使用して、定量的回帰によってポリシーを改善する。
サンプル内学習のパラダイムがtextitImplicit Value Regularization (IVR) フレームワークの下で生まれることを確認する。
Sparse $Q$-learning (EQL)とExponential $Q$-learning (EQL)の2つの実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-28T08:30:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。