Fugu-MT 論文翻訳(概要): LLM-Driven Intrinsic Motivation for Sparse Reward Reinforcement Learning

論文の概要: LLM-Driven Intrinsic Motivation for Sparse Reward Reinforcement Learning

arxiv url: http://arxiv.org/abs/2508.18420v1
Date: Mon, 25 Aug 2025 19:10:58 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-27 17:42:38.562539
Title: LLM-Driven Intrinsic Motivation for Sparse Reward Reinforcement Learning
Title（参考訳）: スパースリワード強化学習のためのLLM駆動型固有モチベーション
Authors: André Quadros, Cassio Silva, Ronnie Alves,
Abstract要約: 本稿では,過度な報酬を伴う環境下での学習エージェントの効率向上を目的とした,本質的なモチベーション戦略の2つの組み合わせについて検討する。本稿では,変分自動エンコーダ(VAE)の報奨状態の新規性を,大言語モデル(LLM)から派生した帰納的報奨手法を用いて,変分状態を内在的リワード(VSIMR)として統合することを提案する。実験の結果, この組み合わせ戦略は, 各戦略を個別に使用した場合と比較して, エージェント性能と効率を著しく向上させることがわかった。
参考スコア（独自算出の注目度）: 0.27528170226206433
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper explores the combination of two intrinsic motivation strategies to improve the efficiency of reinforcement learning (RL) agents in environments with extreme sparse rewards, where traditional learning struggles due to infrequent positive feedback. We propose integrating Variational State as Intrinsic Reward (VSIMR), which uses Variational AutoEncoders (VAEs) to reward state novelty, with an intrinsic reward approach derived from Large Language Models (LLMs). The LLMs leverage their pre-trained knowledge to generate reward signals based on environment and goal descriptions, guiding the agent. We implemented this combined approach with an Actor-Critic (A2C) agent in the MiniGrid DoorKey environment, a benchmark for sparse rewards. Our empirical results show that this combined strategy significantly increases agent performance and sampling efficiency compared to using each strategy individually or a standard A2C agent, which failed to learn. Analysis of learning curves indicates that the combination effectively complements different aspects of the environment and task: VSIMR drives exploration of new states, while the LLM-derived rewards facilitate progressive exploitation towards goals.
Abstract（参考訳）: 本稿では, 従来の学習手法では, 積極的報酬を伴う環境下での強化学習(RL)エージェントの効率向上のための2つの本質的なモチベーション戦略の組み合わせについて検討する。本稿では,変分自動エンコーダ(VAE)を用いて,変分状態を内在的リワード(VSIMR)として,大言語モデル(LLM)から派生した内在的リワードアプローチを用いて,状態のノベルティを報奨する手法を提案する。 LLMは訓練済みの知識を活用し、環境や目標記述に基づいて報酬信号を生成し、エージェントを誘導する。スパース報酬のベンチマークであるMiniGrid DoorKey環境において,アクタ・クリティカル(A2C)エージェントと組み合わせて提案手法を実装した。実験の結果, この組み合わせ戦略は, 個々の戦略や標準のA2Cエージェントと比較して, エージェント性能とサンプリング効率を著しく向上させ, 学習に失敗することがわかった。学習曲線の分析は、この組み合わせが環境とタスクの異なる側面を効果的に補完することを示している。

関連論文リスト

ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [53.817538122688944]
Reinforced Meta-thinking Agents (ReMA) を導入し,Large Language Models (LLMs) の推論からメタ思考行動を求める。 ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。単ターン実験による実験結果から、ReMAは複雑な推論タスクにおいて単エージェントRLベースラインよりも優れることが示された。
論文参考訳（メタデータ） (2025-03-12T16:05:31Z)
Leveraging Large Language Models for Effective and Explainable Multi-Agent Credit Assignment [4.406086834602686]
シーケンス改善と帰属の2つのパターン認識問題に対する信用割当の修正方法を示す。提案手法では,各エージェントの個々の貢献に基づいて,環境報酬を数値的に分解する集中型報酬批判を利用する。どちらの手法も、Level-Based ForagingやRobotic Warehouse、衝突に関連する安全性の制約を取り入れたSpaceworldベンチマークなど、さまざまなベンチマークにおいて、最先端の手法よりもはるかに優れています。
論文参考訳（メタデータ） (2025-02-24T05:56:47Z)
From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文参考訳（メタデータ） (2024-11-06T10:35:11Z)
Insights from the Inverse: Reconstructing LLM Training Goals Through Inverse Reinforcement Learning [6.691759477350243]
Reinforcement Learning from Human Feedbackで訓練された大規模言語モデル(LLM)は、目覚ましい能力を示しているが、その基盤となる報酬関数や意思決定プロセスは不透明である。本稿では, 逆強化学習(IRL)を用いて暗黙の報酬関数を復元することにより, LLMを解釈する新しい手法を提案する。我々は,ヒトの嗜好を予測するために,最大85%の精度で報酬モデルを抽出し,様々な大きさの毒性に整合したLSMの実験を行った。
論文参考訳（メタデータ） (2024-10-16T12:14:25Z)
Efficient Reinforcement Learning via Decoupling Exploration and Utilization [6.305976803910899]
強化学習(Reinforcement Learning, RL)は、ゲーム、ロボティクス、自動運転車など、さまざまな分野やアプリケーションで大きな成功を収めている。本研究の目的は,探索と利用を分離して効率よく学習するエージェントを訓練することであり,エージェントが最適解の難解を逃れられるようにすることである。提案したOPARL(Optimistic and Pessimistic Actor Reinforcement Learning)アルゴリズムに実装した。
論文参考訳（メタデータ） (2023-12-26T09:03:23Z)
Semantically Aligned Task Decomposition in Multi-Agent Reinforcement Learning [56.26889258704261]
我々は,MARL(SAMA)における意味的アライズされたタスク分解という,新しい「不整合」意思決定手法を提案する。 SAMAは、潜在的な目標を示唆し、適切な目標分解とサブゴールアロケーションを提供するとともに、自己回帰に基づくリプランニングを提供する、チェーン・オブ・シントによる事前訓練された言語モデルを促進する。 SAMAは, 最先端のASG法と比較して, 試料効率に有意な優位性を示す。
論文参考訳（メタデータ） (2023-05-18T10:37:54Z)
Weakly Supervised Disentangled Representation for Goal-conditioned Reinforcement Learning [15.698612710580447]
本稿では,サンプル効率の向上と政策一般化を目的としたスキル学習フレームワークDR-GRLを提案する。本稿では,解釈可能かつ制御可能な表現を学習するための空間変換オートエンコーダ(STAE)を提案する。 DR-GRLは, 試料効率と政策一般化において, 従来の手法よりも有意に優れていたことを実証的に実証した。
論文参考訳（メタデータ） (2022-02-28T09:05:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。