Fugu-MT 論文翻訳(概要): MIRA: Memory-Integrated Reinforcement Learning Agent with Limited LLM Guidance

論文の概要: MIRA: Memory-Integrated Reinforcement Learning Agent with Limited LLM Guidance

arxiv url: http://arxiv.org/abs/2602.17930v1
Date: Fri, 20 Feb 2026 01:43:30 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-23 18:01:41.198778
Title: MIRA: Memory-Integrated Reinforcement Learning Agent with Limited LLM Guidance
Title（参考訳）: MIRA: LLMガイダンスを限定したメモリ強化型強化学習エージェント
Authors: Narjes Nourzad, Carlee Joe-Wong,
Abstract要約: 大規模言語モデル(LLM)は、早期学習を容易にするサブゴール分解、可塑性軌跡、抽象的な事前情報を提供することができる。本稿では,MIRA (Memory-Integrated Reinforcement Learning Agent) を提案する。
参考スコア（独自算出の注目度）: 18.215893951726166
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reinforcement learning (RL) agents often suffer from high sample complexity in sparse or delayed reward settings due to limited prior structure. Large language models (LLMs) can provide subgoal decompositions, plausible trajectories, and abstract priors that facilitate early learning. However, heavy reliance on LLM supervision introduces scalability constraints and dependence on potentially unreliable signals. We propose MIRA (Memory-Integrated Reinforcement Learning Agent), which incorporates a structured, evolving memory graph to guide early training. The graph stores decision-relevant information, including trajectory segments and subgoal structures, and is constructed from both the agent's high-return experiences and LLM outputs. This design amortizes LLM queries into a persistent memory rather than requiring continuous real-time supervision. From this memory graph, we derive a utility signal that softly adjusts advantage estimation to influence policy updates without modifying the underlying reward function. As training progresses, the agent's policy gradually surpasses the initial LLM-derived priors, and the utility term decays, preserving standard convergence guarantees. We provide theoretical analysis showing that utility-based shaping improves early-stage learning in sparse-reward environments. Empirically, MIRA outperforms RL baselines and achieves returns comparable to approaches that rely on frequent LLM supervision, while requiring substantially fewer online LLM queries. Project webpage: https://narjesno.github.io/MIRA/
Abstract（参考訳）: 強化学習 (Reinforcement Learning, RL) エージェントは、しばしば、事前構造が制限されているため、スパースや遅延報酬設定において、高いサンプル複雑さに悩まされる。大規模言語モデル(LLM)は、早期学習を容易にするサブゴール分解、可塑性軌跡、抽象的な事前情報を提供することができる。しかし、LLMの監督に大きく依存することは、スケーラビリティの制約と、潜在的に信頼性の低い信号への依存をもたらす。本稿では,MIRA (Memory-Integrated Reinforcement Learning Agent) を提案する。グラフは、トラジェクティブセグメントやサブゴール構造を含む決定関連情報を格納し、エージェントのハイリターン体験とLCM出力の両方から構築する。この設計は、LLMクエリを連続的なリアルタイム監視を必要とせず、永続的なメモリに保存する。このメモリグラフから、基礎となる報酬関数を変更することなく、利点推定をソフトに調整し、ポリシー更新に影響を与えるユーティリティシグナルを導出する。訓練が進むにつれて、エージェントのポリシーはLSMから派生した初期よりも徐々に上回り、実用用語は崩壊し、標準収束保証が守られる。実用性に基づく整形がスパース・リワード環境における早期学習を改善することを示す理論的解析を行った。経験的に、MIRA は RL のベースラインを上回り、頻繁な LLM の監視に依存するアプローチに匹敵するリターンを達成すると同時に、オンライン LLM クエリをかなり少なくする。プロジェクトWebページ: https://narjesno.github.io/MIRA/

関連論文リスト

Memory-Based Advantage Shaping for LLM-Guided Reinforcement Learning [18.215893951726166]
スパースや遅延した報酬のある環境では、強化学習は高いサンプル複雑さを引き起こす。この制限は、大規模言語モデル(LLM)をサブゴール発見や軌道誘導に使う動機となった。 LLMガイダンスとエージェント自身のロールアウトの成功の両方から,サブゴールとトラジェクトリを符号化したメモリグラフを構築することで,これらの課題に対処する。
論文参考訳（メタデータ） (2026-02-20T01:44:35Z)
Just-In-Time Reinforcement Learning: Continual Learning in LLM Agents Without Gradient Updates [53.3717573880076]
JitRL(Just-In-Time Reinforcement Learning、ジャスト・イン・タイム強化学習)は、テスト時間ポリシーの最適化を可能にするトレーニング不要のフレームワークである。 JitRLは、経験の動的で非パラメトリックな記憶を維持し、関連する軌跡を取得して、オンザフライでのアクションの利点を推定する。 WebArenaとJerrichoの実験では、JitRLがトレーニング不要メソッドの間に新しい最先端技術を確立していることが示されている。
論文参考訳（メタデータ） (2026-01-26T14:16:51Z)
From Experience to Strategy: Empowering LLM Agents with Trainable Graph Memory [48.22750809620306]
大規模言語モデル(LLM)に基づくエージェントは、自律的なタスク解決において顕著な可能性を示している。本稿では,エージェント中心型,トレーニング可能な,多層グラフメモリフレームワークを提案する。コンテクストメモリがLLMの情報活用能力をいかに向上させるかを示す。
論文参考訳（メタデータ） (2025-11-11T03:36:33Z)
Beyond Static LLM Policies: Imitation-Enhanced Reinforcement Learning for Recommendation [23.945049006150555]
大規模言語モデル(LLM)は、多様なデジタルプラットフォームにまたがってパーソナライズされたコンテンツを配信することによって、ユーザエンゲージメントを高める重要なツールとなっている。 LLMを主要なレコメンデーションポリシとして直接デプロイすることは、永続的なレイテンシの問題を含む、注目すべき課題を提示する。本稿では,LLM生成軌道からの模倣学習を利用した新しいオフライン強化学習フレームワークを提案する。
論文参考訳（メタデータ） (2025-10-15T07:28:29Z)
LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。 LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。 LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文参考訳（メタデータ） (2025-02-15T02:55:22Z)
From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems [59.40480894948944]
大規模言語モデル (LLM) は、物理世界の意思決定問題を解くことができる。このモデルの下で、LLM Plannerは、プロンプトを介して言語ベースのサブゴールを反復的に生成することにより、部分的に観測可能なマルコフ決定プロセス(POMDP)をナビゲートする。我々は,事前学習したLLMプランナーが,文脈内学習を通じてベイズ的集計模倣学習(BAIL)を効果的に行うことを証明した。
論文参考訳（メタデータ） (2024-05-30T09:42:54Z)
Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [68.29746557968107]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。 Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文参考訳（メタデータ） (2024-05-23T08:33:19Z)
How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文参考訳（メタデータ） (2024-02-25T20:07:13Z)
Reinforcement Learning from LLM Feedback to Counteract Goal Misgeneralization [0.0]
強化学習(RL)における目標誤一般化に対処する手法を提案する。目標の誤一般化は、エージェントがその能力のアウト・オブ・ディストリビューションを維持しながら、意図したものよりもプロキシを追求する場合に発生する。本研究では,大規模言語モデルを用いてRLエージェントを効率的に監視する方法を示す。
論文参考訳（メタデータ） (2024-01-14T01:09:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。