論文の概要: LLM-Driven Intrinsic Motivation for Sparse Reward Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2508.18420v1
- Date: Mon, 25 Aug 2025 19:10:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.562539
- Title: LLM-Driven Intrinsic Motivation for Sparse Reward Reinforcement Learning
- Title(参考訳): スパースリワード強化学習のためのLLM駆動型固有モチベーション
- Authors: André Quadros, Cassio Silva, Ronnie Alves,
- Abstract要約: 本稿では,過度な報酬を伴う環境下での学習エージェントの効率向上を目的とした,本質的なモチベーション戦略の2つの組み合わせについて検討する。
本稿では,変分自動エンコーダ(VAE)の報奨状態の新規性を,大言語モデル(LLM)から派生した帰納的報奨手法を用いて,変分状態を内在的リワード(VSIMR)として統合することを提案する。
実験の結果, この組み合わせ戦略は, 各戦略を個別に使用した場合と比較して, エージェント性能と効率を著しく向上させることがわかった。
- 参考スコア(独自算出の注目度): 0.27528170226206433
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper explores the combination of two intrinsic motivation strategies to improve the efficiency of reinforcement learning (RL) agents in environments with extreme sparse rewards, where traditional learning struggles due to infrequent positive feedback. We propose integrating Variational State as Intrinsic Reward (VSIMR), which uses Variational AutoEncoders (VAEs) to reward state novelty, with an intrinsic reward approach derived from Large Language Models (LLMs). The LLMs leverage their pre-trained knowledge to generate reward signals based on environment and goal descriptions, guiding the agent. We implemented this combined approach with an Actor-Critic (A2C) agent in the MiniGrid DoorKey environment, a benchmark for sparse rewards. Our empirical results show that this combined strategy significantly increases agent performance and sampling efficiency compared to using each strategy individually or a standard A2C agent, which failed to learn. Analysis of learning curves indicates that the combination effectively complements different aspects of the environment and task: VSIMR drives exploration of new states, while the LLM-derived rewards facilitate progressive exploitation towards goals.
- Abstract(参考訳): 本稿では, 従来の学習手法では, 積極的報酬を伴う環境下での強化学習(RL)エージェントの効率向上のための2つの本質的なモチベーション戦略の組み合わせについて検討する。
本稿では,変分自動エンコーダ(VAE)を用いて,変分状態を内在的リワード(VSIMR)として,大言語モデル(LLM)から派生した内在的リワードアプローチを用いて,状態のノベルティを報奨する手法を提案する。
LLMは訓練済みの知識を活用し、環境や目標記述に基づいて報酬信号を生成し、エージェントを誘導する。
スパース報酬のベンチマークであるMiniGrid DoorKey環境において,アクタ・クリティカル(A2C)エージェントと組み合わせて提案手法を実装した。
実験の結果, この組み合わせ戦略は, 個々の戦略や標準のA2Cエージェントと比較して, エージェント性能とサンプリング効率を著しく向上させ, 学習に失敗することがわかった。
学習曲線の分析は、この組み合わせが環境とタスクの異なる側面を効果的に補完することを示している。
関連論文リスト
- Expanding LLM Agent Boundaries with Strategy-Guided Exploration [51.98616048282804]
強化学習(RL)は、コンピュータ使用、ツール呼び出し、コーディングなどのタスクのエージェントとして、大規模言語モデル(LLM)の訓練後において顕著な成功を収めた。
我々は,低レベルな行動から高レベルな言語戦略に移行するための戦略ガイド探索(SGE)を提案する。
論文 参考訳(メタデータ) (2026-03-02T16:28:39Z) - Reinforcement World Model Learning for LLM-based Agents [60.65003139516272]
強化世界モデル学習(Reinforcement World Model Learning, RWML)は、LDMをベースとしたエージェントのための行動教師付き世界モデルを学ぶ自己条件付き手法である。
本手法は, モデルが生成したシミュレーションされた次の状態と, 環境から観測された次の状態とを一致させる。
本手法をALFWorldと2ドルのBenchで評価し,完全に自己管理されているにもかかわらず,ベースモデルに対する大幅な利得を観測した。
論文 参考訳(メタデータ) (2026-02-05T16:30:08Z) - MIR: Efficient Exploration in Episodic Multi-Agent Reinforcement Learning via Mutual Intrinsic Reward [14.959716217301368]
本稿では,強化学習のための簡易かつ効果的な強化戦略であるMIRを紹介する。
MIRは、個々のエージェントに対して、チームメイトに影響を与えるアクションを探求するインセンティブを与え、元の戦略と組み合わせることで、チームの探索を効果的に刺激し、アルゴリズムのパフォーマンスを改善する。
評価式は,MiniGrid-MA設定における最先端手法に対する提案手法と比較し,優れたPerfor-manceを示す実験結果と比較した。
論文 参考訳(メタデータ) (2025-11-21T11:32:28Z) - Information Gain-based Policy Optimization: A Simple and Effective Approach for Multi-Turn LLM Agents [28.145430029174577]
大規模言語モデル(LLM)ベースのエージェントは、外部環境と対話する能力を高めるために強化学習(RL)でますます訓練されている。
既存のアプローチは通常、最終回答でのみ提供される結果に基づく報酬に依存します。
本稿では,情報ゲインに基づくポリシー最適化(IGPO)を提案する。
論文 参考訳(メタデータ) (2025-10-16T17:59:32Z) - Continuous-Time Reinforcement Learning for Asset-Liability Management [0.0]
本稿では,連続時間強化学習(RL)を用いたアセット・リバビリティ・マネジメント(ALM)の新しいアプローチを提案する。
本研究では,アセットと負債を動的に同期する ALM に適した,モデルフリーでポリシー勾配に基づくソフトアクター批判アルゴリズムを開発した。
本研究は,従来の2つの金融戦略,モデルベース連続時間RL法,最先端RLアルゴリズムに対するアプローチを実証的に評価する。
論文 参考訳(メタデータ) (2025-09-27T12:36:51Z) - Preference-Guided Learning for Sparse-Reward Multi-Agent Reinforcement Learning [15.034714081414691]
少額の報酬のある環境におけるオンラインマルチエージェント強化学習(MARL)の課題について検討する。
中間報酬の欠如は、標準のMARLアルゴリズムがポリシー学習を効果的に導くのを妨げる。
本稿では,オンライン・逆選好学習とマルチエージェント・オン・ポリシー最適化を統合した新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-26T03:41:40Z) - Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。
我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。
我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文 参考訳(メタデータ) (2025-09-23T16:15:42Z) - ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [53.817538122688944]
Reinforced Meta-thinking Agents (ReMA) を導入し,Large Language Models (LLMs) の推論からメタ思考行動を求める。
ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。
単ターン実験による実験結果から、ReMAは複雑な推論タスクにおいて単エージェントRLベースラインよりも優れることが示された。
論文 参考訳(メタデータ) (2025-03-12T16:05:31Z) - Leveraging Large Language Models for Effective and Explainable Multi-Agent Credit Assignment [4.406086834602686]
シーケンス改善と帰属の2つのパターン認識問題に対する信用割当の修正方法を示す。
提案手法では,各エージェントの個々の貢献に基づいて,環境報酬を数値的に分解する集中型報酬批判を利用する。
どちらの手法も、Level-Based ForagingやRobotic Warehouse、衝突に関連する安全性の制約を取り入れたSpaceworldベンチマークなど、さまざまなベンチマークにおいて、最先端の手法よりもはるかに優れています。
論文 参考訳(メタデータ) (2025-02-24T05:56:47Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Insights from the Inverse: Reconstructing LLM Training Goals Through Inverse Reinforcement Learning [6.691759477350243]
Reinforcement Learning from Human Feedbackで訓練された大規模言語モデル(LLM)は、目覚ましい能力を示しているが、その基盤となる報酬関数や意思決定プロセスは不透明である。
本稿では, 逆強化学習(IRL)を用いて暗黙の報酬関数を復元することにより, LLMを解釈する新しい手法を提案する。
我々は,ヒトの嗜好を予測するために,最大85%の精度で報酬モデルを抽出し,様々な大きさの毒性に整合したLSMの実験を行った。
論文 参考訳(メタデータ) (2024-10-16T12:14:25Z) - Efficient Reinforcement Learning via Decoupling Exploration and Utilization [6.305976803910899]
強化学習(Reinforcement Learning, RL)は、ゲーム、ロボティクス、自動運転車など、さまざまな分野やアプリケーションで大きな成功を収めている。
本研究の目的は,探索と利用を分離して効率よく学習するエージェントを訓練することであり,エージェントが最適解の難解を逃れられるようにすることである。
提案したOPARL(Optimistic and Pessimistic Actor Reinforcement Learning)アルゴリズムに実装した。
論文 参考訳(メタデータ) (2023-12-26T09:03:23Z) - Semantically Aligned Task Decomposition in Multi-Agent Reinforcement
Learning [56.26889258704261]
我々は,MARL(SAMA)における意味的アライズされたタスク分解という,新しい「不整合」意思決定手法を提案する。
SAMAは、潜在的な目標を示唆し、適切な目標分解とサブゴールアロケーションを提供するとともに、自己回帰に基づくリプランニングを提供する、チェーン・オブ・シントによる事前訓練された言語モデルを促進する。
SAMAは, 最先端のASG法と比較して, 試料効率に有意な優位性を示す。
論文 参考訳(メタデータ) (2023-05-18T10:37:54Z) - Weakly Supervised Disentangled Representation for Goal-conditioned
Reinforcement Learning [15.698612710580447]
本稿では,サンプル効率の向上と政策一般化を目的としたスキル学習フレームワークDR-GRLを提案する。
本稿では,解釈可能かつ制御可能な表現を学習するための空間変換オートエンコーダ(STAE)を提案する。
DR-GRLは, 試料効率と政策一般化において, 従来の手法よりも有意に優れていたことを実証的に実証した。
論文 参考訳(メタデータ) (2022-02-28T09:05:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。