論文の概要: SPRING: GPT-4 Out-performs RL Algorithms by Studying Papers and
Reasoning
- arxiv url: http://arxiv.org/abs/2305.15486v1
- Date: Wed, 24 May 2023 18:14:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 19:10:43.276934
- Title: SPRING: GPT-4 Out-performs RL Algorithms by Studying Papers and
Reasoning
- Title(参考訳): SPRING: GPT-4 による論文と推論による RL アルゴリズムの性能向上
- Authors: Yue Wu, So Yeon Min, Shrimai Prabhumoye, Yonatan Bisk, Ruslan
Salakhutdinov, Amos Azaria, Tom Mitchell, Yuanzhi Li
- Abstract要約: 我々は,ゲーム本来の学術論文を読み取るための新しいアプローチ,SPRINGを提案し,大言語モデル(LLM)を通してゲームの説明とプレイの知識を利用する。
実験では,クラフトオープンワールド環境の設定下で,異なる形態のプロンプトによって引き起こされる文脈内「推論」の品質について検討した。
我々の実験は、LLMが一貫したチェーン・オブ・シークレットによって誘導されると、洗練された高レベル軌道の完成に大きな可能性があることを示唆している。
- 参考スコア(独自算出の注目度): 99.17668730578588
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-world survival games pose significant challenges for AI algorithms due
to their multi-tasking, deep exploration, and goal prioritization requirements.
Despite reinforcement learning (RL) being popular for solving games, its high
sample complexity limits its effectiveness in complex open-world games like
Crafter or Minecraft. We propose a novel approach, SPRING, to read the game's
original academic paper and use the knowledge learned to reason and play the
game through a large language model (LLM). Prompted with the LaTeX source as
game context and a description of the agent's current observation, our SPRING
framework employs a directed acyclic graph (DAG) with game-related questions as
nodes and dependencies as edges. We identify the optimal action to take in the
environment by traversing the DAG and calculating LLM responses for each node
in topological order, with the LLM's answer to final node directly translating
to environment actions. In our experiments, we study the quality of in-context
"reasoning" induced by different forms of prompts under the setting of the
Crafter open-world environment. Our experiments suggest that LLMs, when
prompted with consistent chain-of-thought, have great potential in completing
sophisticated high-level trajectories. Quantitatively, SPRING with GPT-4
outperforms all state-of-the-art RL baselines, trained for 1M steps, without
any training. Finally, we show the potential of games as a test bed for LLMs.
- Abstract(参考訳): オープンワールドサバイバルゲームは,マルチタスクや深い探索,目標優先といった要件から,aiアルゴリズムにとって大きな課題となる。
強化学習(rl)はゲームを解くために人気があるが、その高いサンプル複雑性はcrafterやminecraftのような複雑なオープンワールドゲームでの効果を制限している。
本稿では,ゲームオリジナルの学術論文を読むための新しいアプローチであるSPRINGを提案し,大言語モデル(LLM)を用いてゲームの説明とプレイの知識を利用する。
ゲームコンテキストとしてのLaTeXソースとエージェントの現在の観察を記述したSPRingフレームワークでは,ゲーム関連質問をノードとして,依存関係をエッジとして有向非巡回グラフ(DAG)を採用している。
dagをトラバースし、各ノードのllm応答を位相順に計算し、最終ノードに対するllmの応答を環境動作に直接翻訳することで、環境における最適な動作を特定する。
実験では,クラフトオープンワールド環境の設定の下で,異なる種類のプロンプトによって引き起こされる文脈内「推論」の品質について検討した。
我々の実験は、LLMが一貫したチェーン・オブ・シークレットによって誘導されると、洗練された高レベル軌道の完成に大きな可能性があることを示唆している。
定量的には、GPT-4によるSPRingは、トレーニングなしで100万歩のトレーニングを受けたすべての最先端のRLベースラインを上回ります。
最後に,LLMのテストベッドとしてゲームの可能性を示す。
関連論文リスト
- A Minimal Approach for Natural Language Action Space in Text-based Games [74.86718586547555]
本稿では,テキストベースのゲーム(TG)におけるアクション空間の探索という課題を再考する。
我々は,許容行動を利用する最小限のアプローチである$epsilon$-admissible Exploringをトレーニングフェーズに提案する。
本稿では,テキストベースのアクタ・クリティカル(TAC)エージェントを提案する。
論文 参考訳(メタデータ) (2023-05-06T16:05:27Z) - Do Embodied Agents Dream of Pixelated Sheep: Embodied Decision Making
using Language Guided World Modelling [101.59430768507997]
強化学習 (Reinforcement Learning, RL) エージェントは通常、世界の事前の知識なしに、タブラララザを学習する。
抽象世界モデル (AWM) を仮定するために, 少数ショット大言語モデル (LLM) を提案する。
LLMを用いてAWMを仮定し, エージェント経験に基づくAWMの検証を行うことで, 従来手法よりもサンプル効率を桁違いに向上させることができる。
論文 参考訳(メタデータ) (2023-01-28T02:04:07Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - JueWu-MC: Playing Minecraft with Sample-efficient Hierarchical
Reinforcement Learning [13.57305458734617]
本稿では,表現学習と模倣学習を併用したサンプル効率の高い階層的RLアプローチであるJueWu-MCを提案する。
具体的には、高レベルのコントローラがオプションを制御するポリシーを学習し、低レベルのワーカーが各サブタスクの解決を学ぶという2つの階層構造を含む。
サブタスクの学習を促進するために,1)行動と表現の基盤となる関係を捉えた行動認識表現学習,2)効率的な探索のための識別器に基づく自己刺激学習,3)一貫性フィルタリングによるアンサンブル行動のクローニングなどを組み合わせた手法を提案する。
論文 参考訳(メタデータ) (2021-12-07T09:24:49Z) - Generalization in Text-based Games via Hierarchical Reinforcement
Learning [42.70991837415775]
本稿では,知識グラフに基づくRLエージェントを基盤とした階層型フレームワークを提案する。
高いレベルでは、メタポリシーが実行され、ゲーム全体をテキストゴールによって指定されたサブタスクのセットに分解する。
低レベルにおいては、目標条件付き強化学習を行うためにサブ政治が実行される。
論文 参考訳(メタデータ) (2021-09-21T05:27:33Z) - NLPGym -- A toolkit for evaluating RL agents on Natural Language
Processing Tasks [2.5760935151452067]
NLPGymはオープンソースのPythonツールキットで、標準のNLPタスクに対してインタラクティブなテキスト環境を提供する。
研究の基盤となるRLアルゴリズムの異なる6つのタスクについて実験を行った。
論文 参考訳(メタデータ) (2020-11-16T20:58:35Z) - WordCraft: An Environment for Benchmarking Commonsense Agents [107.20421897619002]
我々はLittle Alchemy 2.0をベースとしたRL環境であるWordCraftを提案する。
この軽量環境は、現実のセマンティクスにインスパイアされたエンティティとリレーションに基づいて実行され、構築される。
論文 参考訳(メタデータ) (2020-07-17T18:40:46Z) - Active Finite Reward Automaton Inference and Reinforcement Learning
Using Queries and Counterexamples [31.31937554018045]
深部強化学習(RL)法は, 良好な性能を達成するために, 環境探索からの集中的なデータを必要とする。
本稿では,RLエージェントが探索過程を推論し,その将来的な探索を効果的に導くための高レベルの知識を蒸留するフレームワークを提案する。
具体的には、L*学習アルゴリズムを用いて、有限報酬オートマトンという形で高レベルの知識を学習する新しいRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-28T21:13:08Z) - The NetHack Learning Environment [79.06395964379107]
本稿では、強化学習研究のための手続き的に生成されたローグのような環境であるNetHack Learning Environment(NLE)を紹介する。
我々は,NetHackが,探索,計画,技術習得,言語条件付きRLといった問題に対する長期的な研究を促進するのに十分複雑であると主張している。
我々は,分散されたDeep RLベースラインとランダムネットワーク蒸留探索を用いて,ゲームの初期段階における実験的な成功を示す。
論文 参考訳(メタデータ) (2020-06-24T14:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。