論文の概要: Guiding Pretraining in Reinforcement Learning with Large Language Models
- arxiv url: http://arxiv.org/abs/2302.06692v1
- Date: Mon, 13 Feb 2023 21:16:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-15 17:05:02.865564
- Title: Guiding Pretraining in Reinforcement Learning with Large Language Models
- Title(参考訳): 大規模言語モデルを用いた強化学習における事前学習の指導
- Authors: Yuqing Du, Olivia Watkins, Zihan Wang, C\'edric Colas, Trevor Darrell,
Pieter Abbeel, Abhishek Gupta, Jacob Andreas
- Abstract要約: テキストコーパスからの背景知識を用いて探索を図形化する手法について述べる。
このメソッドはELLMと呼ばれ、言語モデルによって提案される目標を達成するエージェントに報酬を与える。
大規模な言語モデルの事前訓練を活用することで、ELLMはエージェントをループに人間を必要とせず、人間に有意義で、もっとも有用な行動へと導く。
- 参考スコア(独自算出の注目度): 150.8664400775632
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning algorithms typically struggle in the absence of a
dense, well-shaped reward function. Intrinsically motivated exploration methods
address this limitation by rewarding agents for visiting novel states or
transitions, but these methods offer limited benefits in large environments
where most discovered novelty is irrelevant for downstream tasks. We describe a
method that uses background knowledge from text corpora to shape exploration.
This method, called ELLM (Exploring with LLMs) rewards an agent for achieving
goals suggested by a language model prompted with a description of the agent's
current state. By leveraging large-scale language model pretraining, ELLM
guides agents toward human-meaningful and plausibly useful behaviors without
requiring a human in the loop. We evaluate ELLM in the Crafter game environment
and the Housekeep robotic simulator, showing that ELLM-trained agents have
better coverage of common-sense behaviors during pretraining and usually match
or improve performance on a range of downstream tasks.
- Abstract(参考訳): 強化学習アルゴリズムは、通常、密集した形をした報酬関数の欠如に苦労する。
本質的に動機づけられた探索方法は、新しい状態や遷移を訪れるエージェントに報酬を与えることでこの制限に対処するが、これらの方法は、最も発見されるノベルティが下流タスクに無関係な大きな環境では限定的な利点を提供する。
本稿では,テキストコーパスの背景知識を用いた探索手法について述べる。
このメソッドは ELLM (Exploring with LLMs) と呼ばれ、エージェントの現在の状態を記述した言語モデルによって提案された目標を達成するエージェントに報酬を与える。
大規模な言語モデルの事前訓練を活用することで、ELLMはエージェントをループに人間を必要とせず、人間に有意義で、もっとも有用な行動へと導く。
本研究は,造形ゲーム環境およびハウスキープロボットシミュレータにおけるellmの評価を行い,学習中の共通感覚行動のカバレッジが向上し,通常,下流タスクにおけるパフォーマンスが向上することを示す。
関連論文リスト
- zsLLMCode: An Effective Approach for Functional Code Embedding via LLM with Zero-Shot Learning [6.976968804436321]
大型言語モデル(LLM)はゼロショット学習の能力を持ち、訓練や微調整を必要としない。
LLMを用いた関数型コード埋め込みを生成する新しいアプローチであるzsLLMCodeを提案する。
論文 参考訳(メタデータ) (2024-09-23T01:03:15Z) - StateAct: State Tracking and Reasoning for Acting and Planning with Large Language Models [10.359008237358603]
対話型環境における大規模言語モデル(LLM)を用いたリアルタスクの計画と実行が,AI手法の新たなフロンティアとなっている。
LLMの計画と動作のための状態追跡によるチェーン・オブ・シントの強化を目的とした,数発のインコンテキスト学習のみに基づく簡易な手法を提案する。
論文 参考訳(メタデータ) (2024-09-21T05:54:35Z) - EnvGen: Generating and Adapting Environments via LLMs for Training Embodied Agents [65.38474102119181]
トレーニング環境を適応的に作成するフレームワークであるEnvGenを提案する。
我々は、LLM生成環境とLLM生成環境を混合した小さなRLエージェントを訓練する。
我々は、EnvGenで訓練された小さなRLエージェントが、GPT-4エージェントを含むSOTAメソッドより優れており、長い水平タスクをかなり高速に学習できることを発見した。
論文 参考訳(メタデータ) (2024-03-18T17:51:16Z) - Large Language Models as Generalizable Policies for Embodied Tasks [50.870491905776305]
大規模言語モデル(LLM)は,視覚的タスクを具現化するための一般化可能なポリシーであることを示す。
我々のアプローチはLarge LAnguage Model Reinforcement Learning Policy (LLaRP)と呼ばれ、学習済みの凍結LDMに適応し、入力テキスト命令と視覚的自我中心の観察と出力動作を環境内で直接行う。
論文 参考訳(メタデータ) (2023-10-26T18:32:05Z) - Language Reward Modulation for Pretraining Reinforcement Learning [61.76572261146311]
本稿では,強化学習のための事前学習信号としてLRFの機能を活用することを提案する。
我々の VLM プレトレーニングアプローチは,従来の LRF の使い方とは違い,ロボット操作タスクにおけるサンプル効率の学習を温めることができる。
論文 参考訳(メタデータ) (2023-08-23T17:37:51Z) - Selective Perception: Optimizing State Descriptions with Reinforcement
Learning for Language Model Actors [40.18762220245365]
大規模言語モデル(LLM)は、ロボット工学やゲームといった分野における逐次的な意思決定タスクのためにアクターとして応用されている。
これまでの研究は、LLMアクターが言語を介してどのような環境状態情報を提供するかを探ることはほとんどない。
簡潔な状態記述を自動的に選択するBLINDER(Bref Language Inputs for Decision-making Responses)を提案する。
論文 参考訳(メタデータ) (2023-07-21T22:02:50Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - Language Models as Zero-Shot Planners: Extracting Actionable Knowledge
for Embodied Agents [111.33545170562337]
自然言語で表現された高レベルなタスクを、選択された実行可能なステップのセットに基底付ける可能性について検討する。
事前学習したLMが十分に大きく、適切に誘導された場合、ハイレベルなタスクを効果的に低レベルな計画に分解できることがわかった。
本稿では,既存の実演の条件を規定し,計画が許容可能な行動に意味的に変換される手順を提案する。
論文 参考訳(メタデータ) (2022-01-18T18:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。