論文の概要: SPRING: GPT-4 Out-performs RL Algorithms by Studying Papers and
Reasoning
- arxiv url: http://arxiv.org/abs/2305.15486v1
- Date: Wed, 24 May 2023 18:14:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 19:10:43.276934
- Title: SPRING: GPT-4 Out-performs RL Algorithms by Studying Papers and
Reasoning
- Title(参考訳): SPRING: GPT-4 による論文と推論による RL アルゴリズムの性能向上
- Authors: Yue Wu, So Yeon Min, Shrimai Prabhumoye, Yonatan Bisk, Ruslan
Salakhutdinov, Amos Azaria, Tom Mitchell, Yuanzhi Li
- Abstract要約: 我々は,ゲーム本来の学術論文を読み取るための新しいアプローチ,SPRINGを提案し,大言語モデル(LLM)を通してゲームの説明とプレイの知識を利用する。
実験では,クラフトオープンワールド環境の設定下で,異なる形態のプロンプトによって引き起こされる文脈内「推論」の品質について検討した。
我々の実験は、LLMが一貫したチェーン・オブ・シークレットによって誘導されると、洗練された高レベル軌道の完成に大きな可能性があることを示唆している。
- 参考スコア(独自算出の注目度): 99.17668730578588
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-world survival games pose significant challenges for AI algorithms due
to their multi-tasking, deep exploration, and goal prioritization requirements.
Despite reinforcement learning (RL) being popular for solving games, its high
sample complexity limits its effectiveness in complex open-world games like
Crafter or Minecraft. We propose a novel approach, SPRING, to read the game's
original academic paper and use the knowledge learned to reason and play the
game through a large language model (LLM). Prompted with the LaTeX source as
game context and a description of the agent's current observation, our SPRING
framework employs a directed acyclic graph (DAG) with game-related questions as
nodes and dependencies as edges. We identify the optimal action to take in the
environment by traversing the DAG and calculating LLM responses for each node
in topological order, with the LLM's answer to final node directly translating
to environment actions. In our experiments, we study the quality of in-context
"reasoning" induced by different forms of prompts under the setting of the
Crafter open-world environment. Our experiments suggest that LLMs, when
prompted with consistent chain-of-thought, have great potential in completing
sophisticated high-level trajectories. Quantitatively, SPRING with GPT-4
outperforms all state-of-the-art RL baselines, trained for 1M steps, without
any training. Finally, we show the potential of games as a test bed for LLMs.
- Abstract(参考訳): オープンワールドサバイバルゲームは,マルチタスクや深い探索,目標優先といった要件から,aiアルゴリズムにとって大きな課題となる。
強化学習(rl)はゲームを解くために人気があるが、その高いサンプル複雑性はcrafterやminecraftのような複雑なオープンワールドゲームでの効果を制限している。
本稿では,ゲームオリジナルの学術論文を読むための新しいアプローチであるSPRINGを提案し,大言語モデル(LLM)を用いてゲームの説明とプレイの知識を利用する。
ゲームコンテキストとしてのLaTeXソースとエージェントの現在の観察を記述したSPRingフレームワークでは,ゲーム関連質問をノードとして,依存関係をエッジとして有向非巡回グラフ(DAG)を採用している。
dagをトラバースし、各ノードのllm応答を位相順に計算し、最終ノードに対するllmの応答を環境動作に直接翻訳することで、環境における最適な動作を特定する。
実験では,クラフトオープンワールド環境の設定の下で,異なる種類のプロンプトによって引き起こされる文脈内「推論」の品質について検討した。
我々の実験は、LLMが一貫したチェーン・オブ・シークレットによって誘導されると、洗練された高レベル軌道の完成に大きな可能性があることを示唆している。
定量的には、GPT-4によるSPRingは、トレーニングなしで100万歩のトレーニングを受けたすべての最先端のRLベースラインを上回ります。
最後に,LLMのテストベッドとしてゲームの可能性を示す。
関連論文リスト
- A Survey on Large Language Model-Based Game Agents [9.892954815419452]
ゲームエージェントの開発は、人工知能(AGI)に進む上で重要な役割を担っている
本稿では, LLMをベースとしたゲームエージェントについて, 総合的な視点から概観する。
論文 参考訳(メタデータ) (2024-04-02T15:34:18Z) - EXPLORER: Exploration-guided Reasoning for Textual Reinforcement Learning [23.83162741035859]
テキスト強化学習のための探索誘導推論剤であるEXPLORERについて述べる。
実験の結果,EXPLORERはテキストワールド調理(TW-Cooking)およびテキストワールドコモンセンス(TWC)ゲームにおいて,ベースラインエージェントよりも優れていた。
論文 参考訳(メタデータ) (2024-03-15T21:22:37Z) - GTBench: Uncovering the Strategic Reasoning Limitations of LLMs via Game-Theoretic Evaluations [87.99872683336395]
大規模言語モデル(LLM)は、重要な現実世界のアプリケーションに統合される。
本稿では,LLMの競合環境における推論能力について検討する。
まず,広く認識されている10のタスクを構成する言語駆動型環境であるGTBenchを提案する。
論文 参考訳(メタデータ) (2024-02-19T18:23:36Z) - DoraemonGPT: Toward Understanding Dynamic Scenes with Large Language Models (Exemplified as A Video Agent) [73.10899129264375]
本稿では,LLMによる動的シーン理解のための包括的かつ概念的にエレガントなシステムであるドラモンGPTについて検討する。
質問/タスクのあるビデオが与えられた場合、DoraemonGPTは入力されたビデオをタスク関連の属性を格納するシンボリックメモリに変換することから始める。
我々は,DoraemonGPTの有効性を,3つのベンチマークといくつかのアプリ内シナリオで広範囲に評価した。
論文 参考訳(メタデータ) (2024-01-16T14:33:09Z) - ALYMPICS: LLM Agents Meet Game Theory -- Exploring Strategic
Decision-Making with AI Agents [77.34720446306419]
Alympicsは、ゲーム理論の研究にLarge Language Model (LLM)エージェントを利用する、体系的なシミュレーションフレームワークである。
Alympicsは、複雑なゲーム理論の問題を研究するための汎用的なプラットフォームを作成する。
論文 参考訳(メタデータ) (2023-11-06T16:03:46Z) - Accelerate Multi-Agent Reinforcement Learning in Zero-Sum Games with
Subgame Curriculum Learning [65.36326734799587]
ゼロサムゲームのための新しいサブゲームカリキュラム学習フレームワークを提案する。
エージェントを以前に訪れた状態にリセットすることで、適応的な初期状態分布を採用する。
我々は,2乗距離をNE値に近似するサブゲーム選択指標を導出する。
論文 参考訳(メタデータ) (2023-10-07T13:09:37Z) - Generalization in Text-based Games via Hierarchical Reinforcement
Learning [42.70991837415775]
本稿では,知識グラフに基づくRLエージェントを基盤とした階層型フレームワークを提案する。
高いレベルでは、メタポリシーが実行され、ゲーム全体をテキストゴールによって指定されたサブタスクのセットに分解する。
低レベルにおいては、目標条件付き強化学習を行うためにサブ政治が実行される。
論文 参考訳(メタデータ) (2021-09-21T05:27:33Z) - The NetHack Learning Environment [79.06395964379107]
本稿では、強化学習研究のための手続き的に生成されたローグのような環境であるNetHack Learning Environment(NLE)を紹介する。
我々は,NetHackが,探索,計画,技術習得,言語条件付きRLといった問題に対する長期的な研究を促進するのに十分複雑であると主張している。
我々は,分散されたDeep RLベースラインとランダムネットワーク蒸留探索を用いて,ゲームの初期段階における実験的な成功を示す。
論文 参考訳(メタデータ) (2020-06-24T14:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。