論文の概要: Language Guided Exploration for RL Agents in Text Environments
- arxiv url: http://arxiv.org/abs/2403.03141v1
- Date: Tue, 5 Mar 2024 17:26:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 13:59:42.948410
- Title: Language Guided Exploration for RL Agents in Text Environments
- Title(参考訳): テキスト環境におけるRLエージェントの言語ガイド探索
- Authors: Hitesh Golchha, Sahil Yerawar, Dhruvesh Patel, Soham Dan, Keerthiram
Murugesan
- Abstract要約: LLM(Large Language Models)は、世界知識の豊富な言語モデルであり、RLエージェントが素早く学習し、分散シフトに適応するのに役立つ。
我々は、事前訓練された言語モデルを用いて、RLエージェント(EXPLORER)に決定レベルのガイダンスを提供するLanguage Guided Exploration(LGE)フレームワークを紹介する。
我々は,難易度の高いテキスト環境であるScienceWorldにおいて,LGEがバニラRLエージェントを著しく上回り,Behaviour CloningやText Decision Transformerなどの高度な手法を上回ります。
- 参考スコア(独自算出の注目度): 15.256908785183617
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Real-world sequential decision making is characterized by sparse rewards and
large decision spaces, posing significant difficulty for experiential learning
systems like $\textit{tabula rasa}$ reinforcement learning (RL) agents. Large
Language Models (LLMs), with a wealth of world knowledge, can help RL agents
learn quickly and adapt to distribution shifts. In this work, we introduce
Language Guided Exploration (LGE) framework, which uses a pre-trained language
model (called GUIDE ) to provide decision-level guidance to an RL agent (called
EXPLORER). We observe that on ScienceWorld (Wang et al.,2022), a challenging
text environment, LGE outperforms vanilla RL agents significantly and also
outperforms other sophisticated methods like Behaviour Cloning and Text
Decision Transformer.
- Abstract(参考訳): 実世界のシーケンシャルな意思決定は、粗末な報酬と大きな意思決定空間によって特徴づけられ、$\textit{tabula rasa}$ reinforcement learning (RL)エージェントのような経験的学習システムにとって重大な困難を生じさせる。
世界中に豊富な知識を持つ大規模言語モデル(llm)は、rlエージェントが素早く学習し、分散シフトに適応するのに役立つ。
本稿では、事前訓練された言語モデル(GUIDE)を用いて、RLエージェント(EXPLORER)に決定レベルのガイダンスを提供するLanguage Guided Exploration(LGE)フレームワークを紹介する。
我々は,難易度の高いテキスト環境であるscienceworld (wang et al.,2022) において,lgeはヴァニラrlエージェントを著しく上回り,行動クローニングやテキスト決定トランスフォーマーといった他の洗練された手法を上回っていることを観察する。
関連論文リスト
- Teaching Embodied Reinforcement Learning Agents: Informativeness and Diversity of Language Use [16.425032085699698]
具体的エージェントは、人間の言語を活用して、学習タスクの明示的または暗黙的な知識を得る能力を持つことが望ましい。
タスク学習を容易にするために、リッチ言語をどのように組み込むかは明確ではない。
本稿では,強化学習における言語入力の種類について検討する。
論文 参考訳(メタデータ) (2024-10-31T17:59:52Z) - Symbolic Learning Enables Self-Evolving Agents [55.625275970720374]
エージェントシンボリックラーニング(エージェントシンボリックラーニング)(エージェントシンボリックラーニング)は、言語エージェントが自分自身で最適化できるための体系的なフレームワークである。
エージェント記号学習は、コネクショナリズム学習における2つの基本的なアルゴリズムを模倣することにより、言語エージェント内のシンボルネットワークを最適化するように設計されている。
我々は、標準ベンチマークと複雑な実世界のタスクの両方で概念実証実験を行う。
論文 参考訳(メタデータ) (2024-06-26T17:59:18Z) - EXPLORER: Exploration-guided Reasoning for Textual Reinforcement Learning [23.83162741035859]
テキスト強化学習のための探索誘導推論剤であるEXPLORERについて述べる。
実験の結果,EXPLORERはテキストワールド調理(TW-Cooking)およびテキストワールドコモンセンス(TWC)ゲームにおいて,ベースラインエージェントよりも優れていた。
論文 参考訳(メタデータ) (2024-03-15T21:22:37Z) - GLIDE-RL: Grounded Language Instruction through DEmonstration in RL [7.658523833511356]
自然言語を基盤とした効率的な強化学習(RL)エージェントの訓練は、長年にわたる課題である。
本稿では,教師-教師-学生のカリキュラム学習フレームワークを導入した新しいアルゴリズム,GLIDE-RL(GLIDE-RL)を提案する。
この多エージェントフレームワークでは、教師と学生エージェントは、生徒の現在のスキルレベルに基づいて同時に学習する。
論文 参考訳(メタデータ) (2024-01-03T17:32:13Z) - LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language
Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。
我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文 参考訳(メタデータ) (2023-11-30T03:59:31Z) - ExpeL: LLM Agents Are Experiential Learners [60.54312035818746]
実験学習エージェント(ExpeL)を導入し、パラメトリック更新を必要とせずにエージェント体験から学習できるようにする。
我々のエージェントは、経験を自律的に収集し、学習課題の集合から自然言語を用いて知識を抽出する。
推論において、エージェントは抽出された洞察と過去の経験をリコールし、情報的決定を行う。
論文 参考訳(メタデータ) (2023-08-20T03:03:34Z) - Do Embodied Agents Dream of Pixelated Sheep: Embodied Decision Making
using Language Guided World Modelling [101.59430768507997]
強化学習 (Reinforcement Learning, RL) エージェントは通常、世界の事前の知識なしに、タブラララザを学習する。
抽象世界モデル (AWM) を仮定するために, 少数ショット大言語モデル (LLM) を提案する。
LLMを用いてAWMを仮定し, エージェント経験に基づくAWMの検証を行うことで, 従来手法よりもサンプル効率を桁違いに向上させることができる。
論文 参考訳(メタデータ) (2023-01-28T02:04:07Z) - A Survey on Explainable Reinforcement Learning: Concepts, Algorithms,
Challenges [38.70863329476517]
強化学習(Reinforcement Learning, RL)は、インテリジェントエージェントが環境と対話して長期的な目標を達成する、一般的な機械学習パラダイムである。
励ましの結果にもかかわらず、ディープニューラルネットワークベースのバックボーンは、専門家が高いセキュリティと信頼性が不可欠である現実的なシナリオにおいて、訓練されたエージェントを信頼し、採用することを妨げるブラックボックスとして広く見なされている。
この問題を緩和するために、本質的な解釈可能性やポストホックな説明可能性を構築することにより、知的エージェントの内部動作に光を放つための大量の文献が提案されている。
論文 参考訳(メタデータ) (2022-11-12T13:52:06Z) - Is Reinforcement Learning (Not) for Natural Language Processing?:
Benchmarks, Baselines, and Building Blocks for Natural Language Policy
Optimization [73.74371798168642]
我々は、強化学習による言語生成を最適化するためのオープンソースのモジュールライブラリRL4LMを紹介する。
次に、ターゲット文字列ではなく、報酬関数によって教師される6つの言語生成タスクのセットであるGRUEベンチマークを示す。
最後に,言語生成における動作空間を効果的に削減するNLPOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-03T21:38:29Z) - WordCraft: An Environment for Benchmarking Commonsense Agents [107.20421897619002]
我々はLittle Alchemy 2.0をベースとしたRL環境であるWordCraftを提案する。
この軽量環境は、現実のセマンティクスにインスパイアされたエンティティとリレーションに基づいて実行され、構築される。
論文 参考訳(メタデータ) (2020-07-17T18:40:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。