論文の概要: LLM-Empowered State Representation for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2407.13237v1
- Date: Thu, 18 Jul 2024 07:47:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-19 16:32:17.768555
- Title: LLM-Empowered State Representation for Reinforcement Learning
- Title(参考訳): LLMを用いた強化学習のための状態表現
- Authors: Boyuan Wang, Yun Qu, Yuhang Jiang, Jianzhun Shao, Chang Liu, Wenming Yang, Xiangyang Ji,
- Abstract要約: 強化学習における状態表現はしばしば重要なタスク関連の詳細を省略する。
LLMを用いたタスク関連状態表現を自律的に生成する新しい手法であるLESR(LLM-Empowered State Representation)を提案する。
LESRは高いサンプル効率を示し、ムジョコタスクの累積報酬の29%、ジム・ロボティクスタスクの成功率の30%で最先端のベースラインを上回っている。
- 参考スコア(独自算出の注目度): 64.3351150030341
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conventional state representations in reinforcement learning often omit critical task-related details, presenting a significant challenge for value networks in establishing accurate mappings from states to task rewards. Traditional methods typically depend on extensive sample learning to enrich state representations with task-specific information, which leads to low sample efficiency and high time costs. Recently, surging knowledgeable large language models (LLM) have provided promising substitutes for prior injection with minimal human intervention. Motivated by this, we propose LLM-Empowered State Representation (LESR), a novel approach that utilizes LLM to autonomously generate task-related state representation codes which help to enhance the continuity of network mappings and facilitate efficient training. Experimental results demonstrate LESR exhibits high sample efficiency and outperforms state-of-the-art baselines by an average of 29% in accumulated reward in Mujoco tasks and 30% in success rates in Gym-Robotics tasks.
- Abstract(参考訳): 強化学習における従来の状態表現はしばしば重要なタスク関連の詳細を省略し、状態からタスク報酬への正確なマッピングを確立する上で、バリューネットワークにとって重要な課題を提示している。
従来の手法は、通常、タスク固有の情報で状態表現を豊かにする広範なサンプル学習に依存しており、サンプル効率が低く、時間的コストも高い。
近年,知識のある大規模言語モデル (LLM) が増加し,人的介入を最小限に抑えた先行注入の代替として有望な代替手段が提供されてきた。
そこで本研究では,LLMを用いてタスク関連状態表現コードを自動生成し,ネットワークマッピングの継続性を向上し,効率的なトレーニングを容易にする,LESR(LLM-Empowered State Representation)を提案する。
実験の結果、LESRは高いサンプル効率を示し、ムジョコタスクの累積報酬の29%、ジム・ロボティクスタスクの成功率の30%を平均で上回り、最先端のベースラインを上回ります。
関連論文リスト
- Choices are More Important than Efforts: LLM Enables Efficient Multi-Agent Exploration [46.938186139700804]
本稿では,多言語探索を効率的に行うために,LLM (Large Language Model) から情報伝達タスク関連ガイダンスを選択する LEMAE を提案する。
具体的には,LLMからの言語知識を,低推論コストで識別的に,タスク遂行に不可欠な記号的キー状態に分類する。
LEMAEは冗長な探索を減らし、既存のSOTAアプローチよりも大きなマージン(例えば SMAC や MPE)で性能を向上し、特定のシナリオにおいて10倍の加速を達成する。
論文 参考訳(メタデータ) (2024-10-03T14:21:23Z) - Language Models can Exploit Cross-Task In-context Learning for Data-Scarce Novel Tasks [22.66167973623777]
LLM(Large Language Models)は、ICL(In-context Learning)機能によってNLPを変換した。
本稿では,予め定義されたタスクのラベル付き例から新しいタスクまで,LLMが一般化できるかどうかを検討する。
LLaMA-2 7Bは107%, LLaMA-2 13Bは18.6%, GPT3.5は3.2%であった。
論文 参考訳(メタデータ) (2024-05-17T05:20:49Z) - Reverse Forward Curriculum Learning for Extreme Sample and Demonstration Efficiency in Reinforcement Learning [17.092640837991883]
強化学習(Reinforcement Learning, RL)は、環境相互作用を通じてポリシーを学ぶための有望な枠組みである。
ひとつの方向性として、オフラインデータによるRLの拡張による望ましいタスクの実証があるが、過去の作業では、多くの高品質なデモデータが必要になることが多い。
提案手法における逆カリキュラムと前方カリキュラムの組み合わせ(RFCL)は,実演とサンプル効率を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2024-05-06T11:33:12Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - Semantically Aligned Task Decomposition in Multi-Agent Reinforcement
Learning [56.26889258704261]
我々は,MARL(SAMA)における意味的アライズされたタスク分解という,新しい「不整合」意思決定手法を提案する。
SAMAは、潜在的な目標を示唆し、適切な目標分解とサブゴールアロケーションを提供するとともに、自己回帰に基づくリプランニングを提供する、チェーン・オブ・シントによる事前訓練された言語モデルを促進する。
SAMAは, 最先端のASG法と比較して, 試料効率に有意な優位性を示す。
論文 参考訳(メタデータ) (2023-05-18T10:37:54Z) - Provable Benefits of Representational Transfer in Reinforcement Learning [59.712501044999875]
本稿では,RLにおける表現伝達の問題について検討し,エージェントがまず複数のソースタスクを事前訓練し,共有表現を発見する。
本稿では,ソースタスクに対する生成的アクセスが与えられた場合,次に続く線形RL手法がほぼ最適ポリシーに迅速に収束する表現を発見できることを示す。
論文 参考訳(メタデータ) (2022-05-29T04:31:29Z) - Mask-based Latent Reconstruction for Reinforcement Learning [58.43247393611453]
マスクをベースとした遅延再構成(MLR)は,空間的および時間的マスキング画素を用いた観測から潜在空間の完全な状態表現を予測するために提案される。
広汎な実験により,MLRは深部強化学習における試料効率を著しく向上させることが示された。
論文 参考訳(メタデータ) (2022-01-28T13:07:11Z) - Learning Temporally-Consistent Representations for Data-Efficient
Reinforcement Learning [3.308743964406687]
$k$-Step Latent (KSL) は表現の時間的一貫性を強制する表現学習法である。
KSLはトレーニング中に見つからない新しいタスクを一般化するエンコーダを生成する。
論文 参考訳(メタデータ) (2021-10-11T00:16:43Z) - Persistent Reinforcement Learning via Subgoal Curricula [114.83989499740193]
VaPRL(Value-accelerated Persistent Reinforcement Learning)は、初期状態のカリキュラムを生成する。
VaPRLは、エピソード強化学習と比較して、3桁の精度で必要な介入を減らす。
論文 参考訳(メタデータ) (2021-07-27T16:39:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。