論文の概要: Exploratory Memory-Augmented LLM Agent via Hybrid On- and Off-Policy Optimization
- arxiv url: http://arxiv.org/abs/2602.23008v1
- Date: Thu, 26 Feb 2026 13:50:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.707332
- Title: Exploratory Memory-Augmented LLM Agent via Hybrid On- and Off-Policy Optimization
- Title(参考訳): ハイブリッドオン・オフ・プライシ最適化によるメモリ拡張LDMエージェントの探索
- Authors: Zeyuan Liu, Jeonghye Kim, Xufang Luo, Dongsheng Li, Yuqing Yang,
- Abstract要約: 強化学習で訓練された大規模言語モデルエージェントにとって、探索は依然として重要なボトルネックである。
本稿では,探索にメモリを利用するハイブリッドRLフレームワークであるExploratory Memory-Augmented On- and Off-Policy Optimization (EMPO$2$)を提案する。
ScienceWorldとWebShopでは、EMPO$2$はそれぞれ128.6%、GRPOよりも11.3%改善している。
- 参考スコア(独自算出の注目度): 34.50047418642433
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Exploration remains the key bottleneck for large language model agents trained with reinforcement learning. While prior methods exploit pretrained knowledge, they fail in environments requiring the discovery of novel states. We propose Exploratory Memory-Augmented On- and Off-Policy Optimization (EMPO$^2$), a hybrid RL framework that leverages memory for exploration and combines on- and off-policy updates to make LLMs perform well with memory while also ensuring robustness without it. On ScienceWorld and WebShop, EMPO$^2$ achieves 128.6% and 11.3% improvements over GRPO, respectively. Moreover, in out-of-distribution tests, EMPO$^2$ demonstrates superior adaptability to new tasks, requiring only a few trials with memory and no parameter updates. These results highlight EMPO$^2$ as a promising framework for building more exploratory and generalizable LLM-based agents.
- Abstract(参考訳): 強化学習で訓練された大規模言語モデルエージェントにとって、探索は依然として重要なボトルネックである。
事前の手法は事前訓練された知識を利用するが、新しい状態の発見を必要とする環境では失敗する。
探索的メモリ拡張オン・アンド・オフ・ポリティ最適化(EMPO$^2$)を提案する。これは、探索にメモリを活用するハイブリッドRLフレームワークであり、オン・オフ・ポリティクスの更新を組み合わせることで、LLMがメモリと良好に動作し、かつ、それなしで堅牢性を確保する。
ScienceWorldとWebShopでは、EMPO$^2$はそれぞれ128.6%、GRPOよりも11.3%改善している。
さらに、アウト・オブ・ディストリビューションテストでは、EMPO$^2$は新しいタスクに優れた適応性を示し、メモリで数回だけ試行し、パラメータを更新する必要がない。
EMPO$^2$は、より探索的で一般化可能なLSMベースのエージェントを構築するためのフレームワークとして期待できる。
関連論文リスト
- Just-In-Time Reinforcement Learning: Continual Learning in LLM Agents Without Gradient Updates [53.3717573880076]
JitRL(Just-In-Time Reinforcement Learning、ジャスト・イン・タイム強化学習)は、テスト時間ポリシーの最適化を可能にするトレーニング不要のフレームワークである。
JitRLは、経験の動的で非パラメトリックな記憶を維持し、関連する軌跡を取得して、オンザフライでのアクションの利点を推定する。
WebArenaとJerrichoの実験では、JitRLがトレーニング不要メソッドの間に新しい最先端技術を確立していることが示されている。
論文 参考訳(メタデータ) (2026-01-26T14:16:51Z) - SWE-Tester: Training Open-Source LLMs for Issue Reproduction in Real-World Repositories [4.70019882353957]
SWE-Testerは、問題再現テストを生成するためにオープンソースのLLMをトレーニングするための新しいパイプラインである。
まず、オープンソースのGitHubリポジトリ2.6Kから41Kインスタンスの高品質なトレーニングデータセットをキュレートします。
微調整されたモデルでは、SWT-Bench Verifiedにおける最大10%の成功率と21%の変更カバレッジの絶対的な改善を実現している。
論文 参考訳(メタデータ) (2026-01-20T08:10:56Z) - Rethinking On-policy Optimization for Query Augmentation [49.87723664806526]
本稿では,様々なベンチマークにおいて,プロンプトベースとRLベースのクエリ拡張の最初の体系的比較を示す。
そこで我々は,検索性能を最大化する擬似文書の生成を学習する,新しいハイブリッド手法 On-policy Pseudo-document Query Expansion (OPQE) を提案する。
論文 参考訳(メタデータ) (2025-10-20T04:16:28Z) - Memento: Fine-tuning LLM Agents without Fine-tuning LLMs [36.3424780932712]
本稿では,適応型大言語モデル(LLM)エージェントのための新しい学習パラダイムを提案する。
本手法は,メモリベースのオンライン強化学習により,低コストで連続的な適応を可能にする。
我々はエージェントモデルを,GAIA検証でトップ1に達するemphMementoというディープリサーチ環境でインスタンス化する。
論文 参考訳(メタデータ) (2025-08-22T07:25:30Z) - Optimizing Knowledge Integration in Retrieval-Augmented Generation with Self-Selection [72.92366526004464]
Retrieval-Augmented Generation (RAG) は、Large Language Models (LLM) がより正確で信頼性の高い応答を生成するのに有効であることが証明されている。
本稿では,自己選択型RAGフレームワークを提案する。このフレームワークでは,内部パラメトリック知識のみで生成されたペアの応答からLLMを選択できる。
論文 参考訳(メタデータ) (2025-02-10T04:29:36Z) - DS-Agent: Automated Data Science by Empowering Large Language Models with Case-Based Reasoning [56.887047551101574]
大規模言語モデル(LLM)エージェントとケースベース推論(CBR)を利用した新しいフレームワークであるDS-Agentを提案する。
開発段階では、DS-AgentはCBRフレームワークに従い、自動イテレーションパイプラインを構築する。
デプロイメントの段階では、DS-Agentは、シンプルなCBRパラダイムで低リソースのデプロイメントステージを実装し、LCMの基本能力に対する需要を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-27T12:26:07Z) - LLM-based Medical Assistant Personalization with Short- and Long-Term Memory Coordination [20.269899169364397]
大規模言語モデル(LLM)は、自然言語の理解と生成に優れた能力を発揮している。
本稿では,パラメータ効率のよい微細チューニング(PEFT)スキーマを備え,医療アシスタントをパーソナライズするための新しい計算バイオニックメモリ機構を提案する。
論文 参考訳(メタデータ) (2023-09-21T00:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。