Fugu-MT 論文翻訳(概要): Exploratory Memory-Augmented LLM Agent via Hybrid On- and Off-Policy Optimization

論文の概要: Exploratory Memory-Augmented LLM Agent via Hybrid On- and Off-Policy Optimization

arxiv url: http://arxiv.org/abs/2602.23008v1
Date: Thu, 26 Feb 2026 13:50:57 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-27 18:41:22.707332
Title: Exploratory Memory-Augmented LLM Agent via Hybrid On- and Off-Policy Optimization
Title（参考訳）: ハイブリッドオン・オフ・プライシ最適化によるメモリ拡張LDMエージェントの探索
Authors: Zeyuan Liu, Jeonghye Kim, Xufang Luo, Dongsheng Li, Yuqing Yang,
Abstract要約: 強化学習で訓練された大規模言語モデルエージェントにとって、探索は依然として重要なボトルネックである。本稿では,探索にメモリを利用するハイブリッドRLフレームワークであるExploratory Memory-Augmented On- and Off-Policy Optimization (EMPO$2$)を提案する。 ScienceWorldとWebShopでは、EMPO$2$はそれぞれ128.6%、GRPOよりも11.3%改善している。
参考スコア（独自算出の注目度）: 34.50047418642433
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Exploration remains the key bottleneck for large language model agents trained with reinforcement learning. While prior methods exploit pretrained knowledge, they fail in environments requiring the discovery of novel states. We propose Exploratory Memory-Augmented On- and Off-Policy Optimization (EMPO$^2$), a hybrid RL framework that leverages memory for exploration and combines on- and off-policy updates to make LLMs perform well with memory while also ensuring robustness without it. On ScienceWorld and WebShop, EMPO$^2$ achieves 128.6% and 11.3% improvements over GRPO, respectively. Moreover, in out-of-distribution tests, EMPO$^2$ demonstrates superior adaptability to new tasks, requiring only a few trials with memory and no parameter updates. These results highlight EMPO$^2$ as a promising framework for building more exploratory and generalizable LLM-based agents.
Abstract（参考訳）: 強化学習で訓練された大規模言語モデルエージェントにとって、探索は依然として重要なボトルネックである。事前の手法は事前訓練された知識を利用するが、新しい状態の発見を必要とする環境では失敗する。探索的メモリ拡張オン・アンド・オフ・ポリティ最適化(EMPO$^2$)を提案する。これは、探索にメモリを活用するハイブリッドRLフレームワークであり、オン・オフ・ポリティクスの更新を組み合わせることで、LLMがメモリと良好に動作し、かつ、それなしで堅牢性を確保する。 ScienceWorldとWebShopでは、EMPO$^2$はそれぞれ128.6%、GRPOよりも11.3%改善している。さらに、アウト・オブ・ディストリビューションテストでは、EMPO$^2$は新しいタスクに優れた適応性を示し、メモリで数回だけ試行し、パラメータを更新する必要がない。 EMPO$^2$は、より探索的で一般化可能なLSMベースのエージェントを構築するためのフレームワークとして期待できる。

関連論文リスト

MemSifter: Offloading LLM Memory Retrieval via Outcome-Driven Proxy Reasoning [78.46301394559903]
大きな言語モデル(LLM)は、長期化タスクにますます使われています。現在の手法はコストと精度のトレードオフに直面している。 MemSifterは、メモリ検索プロセスを小さなプロキシモデルにオフロードする新しいフレームワークである。
論文参考訳（メタデータ） (2026-03-03T02:57:38Z)
Towards Autonomous Memory Agents [8.294673275138122]
我々は,知識を最小限のコストで獲得し,検証し,キュレートする自律記憶エージェントを提案する。 U-Memはこのアイデアを、コスト対応の知識抽出カスケードを通じて実現している。検証可能なベンチマークと検証できないベンチマークでは、U-Memは以前のメモリベースラインを一貫して上回り、RLベースの最適化を上回ることができる。
論文参考訳（メタデータ） (2026-02-25T20:59:44Z)
Just-In-Time Reinforcement Learning: Continual Learning in LLM Agents Without Gradient Updates [53.3717573880076]
JitRL(Just-In-Time Reinforcement Learning、ジャスト・イン・タイム強化学習)は、テスト時間ポリシーの最適化を可能にするトレーニング不要のフレームワークである。 JitRLは、経験の動的で非パラメトリックな記憶を維持し、関連する軌跡を取得して、オンザフライでのアクションの利点を推定する。 WebArenaとJerrichoの実験では、JitRLがトレーニング不要メソッドの間に新しい最先端技術を確立していることが示されている。
論文参考訳（メタデータ） (2026-01-26T14:16:51Z)
SWE-Tester: Training Open-Source LLMs for Issue Reproduction in Real-World Repositories [4.70019882353957]
SWE-Testerは、問題再現テストを生成するためにオープンソースのLLMをトレーニングするための新しいパイプラインである。まず、オープンソースのGitHubリポジトリ2.6Kから41Kインスタンスの高品質なトレーニングデータセットをキュレートします。微調整されたモデルでは、SWT-Bench Verifiedにおける最大10%の成功率と21%の変更カバレッジの絶対的な改善を実現している。
論文参考訳（メタデータ） (2026-01-20T08:10:56Z)
Rethinking On-policy Optimization for Query Augmentation [49.87723664806526]
本稿では,様々なベンチマークにおいて,プロンプトベースとRLベースのクエリ拡張の最初の体系的比較を示す。そこで我々は,検索性能を最大化する擬似文書の生成を学習する,新しいハイブリッド手法 On-policy Pseudo-document Query Expansion (OPQE) を提案する。
論文参考訳（メタデータ） (2025-10-20T04:16:28Z)
Memento: Fine-tuning LLM Agents without Fine-tuning LLMs [36.3424780932712]
本稿では,適応型大言語モデル(LLM)エージェントのための新しい学習パラダイムを提案する。本手法は,メモリベースのオンライン強化学習により,低コストで連続的な適応を可能にする。我々はエージェントモデルを,GAIA検証でトップ1に達するemphMementoというディープリサーチ環境でインスタンス化する。
論文参考訳（メタデータ） (2025-08-22T07:25:30Z)
Learn to Memorize: Optimizing LLM-based Agents with Adaptive Memory Framework [33.739298910759544]
メモリサイクルをモデル化し,適応型・データ駆動型メモリフレームワークを用いたLCMエージェントの最適化を提案する。具体的には、メモリ検索を容易にするためのMoEゲート関数を設計し、メモリ利用を改善するための学習可能な集約プロセスを提案し、メモリ記憶に適応するためのタスク固有のリフレクションを開発する。
論文参考訳（メタデータ） (2025-08-15T12:22:52Z)
Optimizing Knowledge Integration in Retrieval-Augmented Generation with Self-Selection [72.92366526004464]
Retrieval-Augmented Generation (RAG) は、Large Language Models (LLM) がより正確で信頼性の高い応答を生成するのに有効であることが証明されている。本稿では,自己選択型RAGフレームワークを提案する。このフレームワークでは,内部パラメトリック知識のみで生成されたペアの応答からLLMを選択できる。
論文参考訳（メタデータ） (2025-02-10T04:29:36Z)
Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。 LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文参考訳（メタデータ） (2024-12-19T18:08:04Z)
DS-Agent: Automated Data Science by Empowering Large Language Models with Case-Based Reasoning [56.887047551101574]
大規模言語モデル(LLM)エージェントとケースベース推論(CBR)を利用した新しいフレームワークであるDS-Agentを提案する。開発段階では、DS-AgentはCBRフレームワークに従い、自動イテレーションパイプラインを構築する。デプロイメントの段階では、DS-Agentは、シンプルなCBRパラダイムで低リソースのデプロイメントステージを実装し、LCMの基本能力に対する需要を大幅に削減する。
論文参考訳（メタデータ） (2024-02-27T12:26:07Z)
LLM-based Medical Assistant Personalization with Short- and Long-Term Memory Coordination [20.269899169364397]
大規模言語モデル(LLM)は、自然言語の理解と生成に優れた能力を発揮している。本稿では,パラメータ効率のよい微細チューニング(PEFT)スキーマを備え,医療アシスタントをパーソナライズするための新しい計算バイオニックメモリ機構を提案する。
論文参考訳（メタデータ） (2023-09-21T00:34:33Z)
Large Language Models Are Semi-Parametric Reinforcement Learning Agents [15.908831573619842]
REMEMBERERは過去のエピソードからの経験をさまざまなタスク目標に活用することができる。メモリを更新するためにRLEM(Reinforcement Learning with Experience Memory)が導入される。提案したフレームワークを評価するために,2つのRLタスクセットで実験を行った。
論文参考訳（メタデータ） (2023-06-09T08:08:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。