論文の概要: Goal-Guided Efficient Exploration via Large Language Model in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2509.22008v1
- Date: Fri, 26 Sep 2025 07:45:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.27486
- Title: Goal-Guided Efficient Exploration via Large Language Model in Reinforcement Learning
- Title(参考訳): 強化学習における大規模言語モデルによるゴールガイドによる効率的な探索
- Authors: Yajie Qi, Wei Wei, Lin Li, Lijun Zhang, Zhidong Gao, Da Wang, Huizhong Song,
- Abstract要約: 本稿では,RLエージェントを効率的に探索するための構造化ゴールプランナとゴール条件アクションプルーナーを紹介する。
本手法をCrafter と Craftax-Classic で評価し,SGRL が既存の最先端手法と比較して優れた性能を発揮することを示す実験結果を得た。
- 参考スコア(独自算出の注目度): 21.50326485889934
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-world decision-making tasks typically occur in complex and open environments, posing significant challenges to reinforcement learning (RL) agents' exploration efficiency and long-horizon planning capabilities. A promising approach is LLM-enhanced RL, which leverages the rich prior knowledge and strong planning capabilities of LLMs to guide RL agents in efficient exploration. However, existing methods mostly rely on frequent and costly LLM invocations and suffer from limited performance due to the semantic mismatch. In this paper, we introduce a Structured Goal-guided Reinforcement Learning (SGRL) method that integrates a structured goal planner and a goal-conditioned action pruner to guide RL agents toward efficient exploration. Specifically, the structured goal planner utilizes LLMs to generate a reusable, structured function for goal generation, in which goals are prioritized. Furthermore, by utilizing LLMs to determine goals' priority weights, it dynamically generates forward-looking goals to guide the agent's policy toward more promising decision-making trajectories. The goal-conditioned action pruner employs an action masking mechanism that filters out actions misaligned with the current goal, thereby constraining the RL agent to select goal-consistent policies. We evaluate the proposed method on Crafter and Craftax-Classic, and experimental results demonstrate that SGRL achieves superior performance compared to existing state-of-the-art methods.
- Abstract(参考訳): 現実の意思決定タスクは通常、複雑でオープンな環境で行われ、強化学習(RL)エージェントの探索効率と長期計画能力に重大な課題を生じさせる。
有望なアプローチはLLM強化RLであり、LLMの豊富な事前知識と強力な計画能力を活用してRLエージェントを効率的に探索する。
しかし、既存の手法は多くの場合、頻繁でコストのかかるLCM呼び出しに依存しており、セマンティックミスマッチによる限られたパフォーマンスに悩まされている。
本稿では,RLエージェントを効率的な探索に導くために,構造化ゴールプランナーと目標条件対応プルーナーを統合した構造化ゴール誘導強化学習(SGRL)手法を提案する。
具体的には、LLMを用いてゴール生成のための再利用可能な構造化関数を生成し、ゴールを優先順位付けする。
さらに, LLMを用いて目標の優先度を決定することにより, エージェントの方針をより有望な意思決定軌道へと導くために, 前方目標を動的に生成する。
目標条件のアクションプルーナーは、現在の目標に不整合なアクションをフィルタリングするアクションマスキング機構を採用し、RLエージェントを制約してゴール一貫性のあるポリシーを選択する。
本手法をCrafter と Craftax-Classic で評価し,SGRL が既存の最先端手法と比較して優れた性能を発揮することを示す実験結果を得た。
関連論文リスト
- ActiveVLN: Towards Active Exploration via Multi-Turn RL in Vision-and-Language Navigation [57.399685080574756]
既存のMLLMベースのVLNメソッドは模倣学習(IL)に依存しており、ポストトレーニングにDAggerを使用することが多い。
マルチターンRLによるアクティブな探索を可能にするVLNフレームワークであるActiveVLNを提案する。
実験の結果,ActiveVLN は DAgger ベースと RL ベースのポストトレーニング手法と比較して,IL ベースラインよりも最大の性能向上を実現していることがわかった。
論文 参考訳(メタデータ) (2025-09-16T03:31:46Z) - Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。
現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。
エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-07-26T07:53:11Z) - Planning without Search: Refining Frontier LLMs with Offline Goal-Conditioned RL [62.984693936073974]
大きな言語モデル(LLM)は、質問応答や対話といったタスクに優れています。
交渉や説得のような相互作用を必要とする複雑なタスクは、さらなる長期の推論と計画を必要とする。
目的条件付き値関数を用いて LLM エージェントの推論を導出する手法を提案する。
論文 参考訳(メタデータ) (2025-05-23T16:51:54Z) - Option Discovery Using LLM-guided Semantic Hierarchical Reinforcement Learning [16.654435148168172]
大規模言語モデル(LLM)は、推論と意思決定において顕著な将来性を示している。
サンプル効率,一般化,マルチタスク適応性を向上させるため,LDSCと呼ばれるLCM誘導階層型RLフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-24T15:49:56Z) - MAGELLAN: Metacognitive predictions of learning progress guide autotelic LLM agents in large goal spaces [30.231701007708146]
オープンエンド学習エージェントは、広大な可能性空間における目標を効率的に優先順位付けする必要がある。
従来のアプローチでは、広範なサンプリングを必要とするか、不安定な専門家定義の目標グループ化に依存している。
LLMエージェントがオンライン上で能力とLPを予測することを学習するメタ認知フレームワークであるMAGELLANを紹介した。
論文 参考訳(メタデータ) (2025-02-11T17:08:00Z) - From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems [59.40480894948944]
大規模言語モデル (LLM) は、物理世界の意思決定問題を解くことができる。
このモデルの下で、LLM Plannerは、プロンプトを介して言語ベースのサブゴールを反復的に生成することにより、部分的に観測可能なマルコフ決定プロセス(POMDP)をナビゲートする。
我々は,事前学習したLLMプランナーが,文脈内学習を通じてベイズ的集計模倣学習(BAIL)を効果的に行うことを証明した。
論文 参考訳(メタデータ) (2024-05-30T09:42:54Z) - LgTS: Dynamic Task Sampling using LLM-generated sub-goals for
Reinforcement Learning Agents [10.936460061405157]
LgTS (LLM-Guided Teacher-Student Learning) を提案する。
提案手法では,提案したサブゴールを達成するための事前訓練されたポリシーも必要としない。
論文 参考訳(メタデータ) (2023-10-14T00:07:03Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。