論文の概要: Guiding Pretraining in Reinforcement Learning with Large Language Models
- arxiv url: http://arxiv.org/abs/2302.06692v2
- Date: Fri, 15 Sep 2023 02:42:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-18 18:47:14.399950
- Title: Guiding Pretraining in Reinforcement Learning with Large Language Models
- Title(参考訳): 大規模言語モデルを用いた強化学習における事前学習の指導
- Authors: Yuqing Du, Olivia Watkins, Zihan Wang, C\'edric Colas, Trevor Darrell,
Pieter Abbeel, Abhishek Gupta, Jacob Andreas
- Abstract要約: テキストコーパスからの背景知識を用いて探索を図形化する手法について述べる。
このメソッドはELLMと呼ばれ、言語モデルによって提案される目標を達成するエージェントに報酬を与える。
大規模な言語モデルの事前訓練を活用することで、ELLMはエージェントをループに人間を必要とせず、人間に有意義で、もっとも有用な行動へと導く。
- 参考スコア(独自算出の注目度): 133.32146904055233
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning algorithms typically struggle in the absence of a
dense, well-shaped reward function. Intrinsically motivated exploration methods
address this limitation by rewarding agents for visiting novel states or
transitions, but these methods offer limited benefits in large environments
where most discovered novelty is irrelevant for downstream tasks. We describe a
method that uses background knowledge from text corpora to shape exploration.
This method, called ELLM (Exploring with LLMs) rewards an agent for achieving
goals suggested by a language model prompted with a description of the agent's
current state. By leveraging large-scale language model pretraining, ELLM
guides agents toward human-meaningful and plausibly useful behaviors without
requiring a human in the loop. We evaluate ELLM in the Crafter game environment
and the Housekeep robotic simulator, showing that ELLM-trained agents have
better coverage of common-sense behaviors during pretraining and usually match
or improve performance on a range of downstream tasks. Code available at
https://github.com/yuqingd/ellm.
- Abstract(参考訳): 強化学習アルゴリズムは、通常、密集した形をした報酬関数の欠如に苦労する。
本質的に動機づけられた探索方法は、新しい状態や遷移を訪れるエージェントに報酬を与えることでこの制限に対処するが、これらの方法は、最も発見されるノベルティが下流タスクに無関係な大きな環境では限定的な利点を提供する。
本稿では,テキストコーパスの背景知識を用いた探索手法について述べる。
このメソッドは ELLM (Exploring with LLMs) と呼ばれ、エージェントの現在の状態を記述した言語モデルによって提案された目標を達成するエージェントに報酬を与える。
大規模な言語モデルの事前訓練を活用することで、ELLMはエージェントをループに人間を必要とせず、人間に有意義で、もっとも有用な行動へと導く。
本研究は,造形ゲーム環境およびハウスキープロボットシミュレータにおけるellmの評価を行い,学習中の共通感覚行動のカバレッジが向上し,通常,下流タスクにおけるパフォーマンスが向上することを示す。
コードはhttps://github.com/yuqingd/ellm。
関連論文リスト
- Should You Use Your Large Language Model to Explore or Exploit? [55.562545113247666]
探索・探索トレードオフに直面した意思決定エージェントを支援するために,大規模言語モデルの能力を評価する。
現在のLLMは、しばしば利用に苦労するが、小規模タスクのパフォーマンスを大幅に改善するために、コンテキスト内緩和が用いられる可能性がある。
論文 参考訳(メタデータ) (2025-01-31T23:42:53Z) - Training Agents with Weakly Supervised Feedback from Large Language Models [19.216542820742607]
本稿では,批判的LSMからの弱教師付き信号を用いたLSMエージェントの新しいトレーニング手法を提案する。
エージェントは反復的に訓練され、まず環境相互作用を通じて軌道を生成する。
API-bankデータセットのテストでは、エージェントの能力とGPT-4に匹敵するパフォーマンスが一貫して改善されている。
論文 参考訳(メタデータ) (2024-11-29T08:47:04Z) - StateAct: State Tracking and Reasoning for Acting and Planning with Large Language Models [10.359008237358603]
対話型環境における大規模言語モデル(LLM)を用いたリアルタスクの計画と実行が,AI手法の新たなフロンティアとなっている。
状態追跡によるチェーン・オブ・シークレットの強化を目的とした,数ショットのインコンテキスト学習のみに基づく簡易な手法を提案する。
本稿では,本手法が,文脈内学習のためのALFworldの最先端技術を確立していることを示す。
論文 参考訳(メタデータ) (2024-09-21T05:54:35Z) - EnvGen: Generating and Adapting Environments via LLMs for Training Embodied Agents [65.38474102119181]
トレーニング環境を適応的に作成するフレームワークであるEnvGenを提案する。
我々は、LLM生成環境とLLM生成環境を混合した小さなRLエージェントを訓練する。
我々は、EnvGenで訓練された小さなRLエージェントが、GPT-4エージェントを含むSOTAメソッドより優れており、長い水平タスクをかなり高速に学習できることを発見した。
論文 参考訳(メタデータ) (2024-03-18T17:51:16Z) - Language Reward Modulation for Pretraining Reinforcement Learning [61.76572261146311]
本稿では,強化学習のための事前学習信号としてLRFの機能を活用することを提案する。
我々の VLM プレトレーニングアプローチは,従来の LRF の使い方とは違い,ロボット操作タスクにおけるサンプル効率の学習を温めることができる。
論文 参考訳(メタデータ) (2023-08-23T17:37:51Z) - Selective Perception: Optimizing State Descriptions with Reinforcement
Learning for Language Model Actors [40.18762220245365]
大規模言語モデル(LLM)は、ロボット工学やゲームといった分野における逐次的な意思決定タスクのためにアクターとして応用されている。
これまでの研究は、LLMアクターが言語を介してどのような環境状態情報を提供するかを探ることはほとんどない。
簡潔な状態記述を自動的に選択するBLINDER(Bref Language Inputs for Decision-making Responses)を提案する。
論文 参考訳(メタデータ) (2023-07-21T22:02:50Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - Language Models as Zero-Shot Planners: Extracting Actionable Knowledge
for Embodied Agents [111.33545170562337]
自然言語で表現された高レベルなタスクを、選択された実行可能なステップのセットに基底付ける可能性について検討する。
事前学習したLMが十分に大きく、適切に誘導された場合、ハイレベルなタスクを効果的に低レベルな計画に分解できることがわかった。
本稿では,既存の実演の条件を規定し,計画が許容可能な行動に意味的に変換される手順を提案する。
論文 参考訳(メタデータ) (2022-01-18T18:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。