論文の概要: STARLING: Self-supervised Training of Text-based Reinforcement Learning Agent with Large Language Models
- arxiv url: http://arxiv.org/abs/2406.05872v1
- Date: Sun, 9 Jun 2024 18:07:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 17:38:03.676476
- Title: STARLING: Self-supervised Training of Text-based Reinforcement Learning Agent with Large Language Models
- Title(参考訳): STARling:大規模言語モデルを用いたテキストベース強化学習エージェントの自己指導訓練
- Authors: Shreyas Basavatia, Keerthiram Murugesan, Shivam Ratnakar,
- Abstract要約: インタラクティブなフィクションゲームのための既存の環境は、特定のスキルセットをマスターするためにRLエージェントを生成するのにドメイン固有または時間を要する。
本稿では,テキストベースのRLエージェントを自動生成ゲームでブートストラップし,目標環境の目標を達成するためのパフォーマンスと一般化能力を向上する,自己教師型RL,STARlingのための対話型環境を提案する。
- 参考スコア(独自算出の注目度): 5.786039929801102
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Interactive fiction games have emerged as an important application to improve the generalization capabilities of language-based reinforcement learning (RL) agents. Existing environments for interactive fiction games are domain-specific or time-consuming to generate and do not train the RL agents to master a specific set of skills. In this work, we introduce an interactive environment for self-supervised RL, STARLING, for text-based games that bootstraps the text-based RL agents with automatically generated games (based on the seed set of game ideas) to boost the performance and generalization capabilities to reach a goal of the target environment. These games let the agent hone their skills on a predefined set of tasks. We create and test an environment with 100 games, generated using this automated framework that uses large language models (GPT-3) and an interactive fiction game engine (based on Inform7) to provide the user with the ability to generate more games under minimal human supervision. Experimental results based on both the human participants and baseline text-based RL agents reveal that current state-of-the-art text-based RL agents cannot use previously learned skills in new situations at the level humans can. These results enforce STARLING's potential to serve as a sandbox environment for further research in self-supervised text-based RL.
- Abstract(参考訳): 対話型フィクションゲームは、言語に基づく強化学習(RL)エージェントの一般化能力向上のための重要な応用として登場した。
インタラクティブなフィクションゲームのための既存の環境は、特定のスキルセットをマスターするためにRLエージェントを生成するのにドメイン固有または時間を要する。
本研究では,テキストベースのRLエージェントを自動生成ゲーム(ゲームアイデアのシードセットに基づく)でブートストラップし,目標環境の目標を達成するために,自己教師型RL(STARling)のための対話型環境を提案する。
これらのゲームによって、エージェントは事前に定義されたタスクセットでスキルを磨くことができる。
我々は,大規模言語モデル(GPT-3)と対話型フィクションゲームエンジン(Inform7をベースとする)を用いたこの自動化フレームワークを用いて,100のゲームで環境を作成し,テストする。
ヒトの参加者とベースラインのテキストベースのRLエージェントの両方に基づく実験の結果、現在の最先端のテキストベースのRLエージェントは、人間ができるような新しい状況下で、以前に学んだスキルを使用できないことが明らかとなった。
これらの結果はSTARlingがサンドボックス環境として機能し、自己組織化されたテキストベースのRLについてさらなる研究を行う可能性を強要している。
関連論文リスト
- AMONGAGENTS: Evaluating Large Language Models in the Interactive Text-Based Social Deduction Game [12.384945632524424]
本稿では,シミュレーション環境における人間行動のプロキシの作成に焦点をあてる。
我々の研究は、最先端の大規模言語モデル(LLM)がゲームルールを効果的に把握し、現在の状況に基づいて意思決定できることを示した。
論文 参考訳(メタデータ) (2024-07-23T14:34:38Z) - LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language
Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。
我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文 参考訳(メタデータ) (2023-11-30T03:59:31Z) - ScriptWorld: Text Based Environment For Learning Procedural Knowledge [2.0491741153610334]
ScriptWorldは、現実世界の日々の雑用についてエージェントに教えるテキストベースの環境である。
10日間の活動にゲーム環境を提供し,提案環境の詳細な分析を行う。
RLエージェントの事前学習言語モデルから得られた特徴を利用する。
論文 参考訳(メタデータ) (2023-07-08T05:43:03Z) - SPRING: Studying the Paper and Reasoning to Play Games [102.5587155284795]
我々は,ゲーム本来の学術論文を読み取るための新しいアプローチ,SPRINGを提案し,大言語モデル(LLM)を通してゲームの説明とプレイの知識を利用する。
実験では,クラフトオープンワールド環境の設定下で,異なる形態のプロンプトによって引き起こされる文脈内「推論」の品質について検討した。
我々の実験は、LLMが一貫したチェーン・オブ・シークレットによって誘導されると、洗練された高レベル軌道の完成に大きな可能性があることを示唆している。
論文 参考訳(メタデータ) (2023-05-24T18:14:35Z) - Learning to Follow Instructions in Text-Based Games [30.713430615498375]
本研究では,強化学習エージェントが自然言語の指示に従う能力について検討する。
我々はRLエージェントに自然言語命令の内部構造表現を線形時間論理の形で装備する。
我々のフレームワークは、命令の時間的意味論を理解することの利点を共にサポートし、強調します。
論文 参考訳(メタデータ) (2022-11-08T22:20:17Z) - Pre-trained Language Models as Prior Knowledge for Playing Text-based
Games [2.423547527175808]
本稿では,LMフレームワークを用いたシンプルなRLを提案することにより,エージェントの意味的理解を改善する。
我々は,この人気ゲームであるZolk1において,我々のモデルがどのように既存のエージェントよりも優れているかを実証するために,我々のフレームワークの詳細な研究を行う。
提案手法は,テキストゲームの他のセットにおける最先端モデルに対して,コンパレントに機能する。
論文 参考訳(メタデータ) (2021-07-18T10:28:48Z) - DeepCrawl: Deep Reinforcement Learning for Turn-based Strategy Games [137.86426963572214]
Deep CrawlはiOSとAndroid用の完全にプレイ可能なRogueライクなプロトタイプで、すべてのエージェントがDeep Reinforcement Learning (DRL)を使用してトレーニングされたポリシーネットワークによって制御される。
本研究の目的は、近年のDRLの進歩が、ビデオゲームにおける非プレイヤーキャラクターに対する説得力のある行動モデルの開発に有効であるかどうかを理解することである。
論文 参考訳(メタデータ) (2020-12-03T13:53:29Z) - Deep Reinforcement Learning with Stacked Hierarchical Attention for
Text-based Games [64.11746320061965]
自然言語の文脈におけるインタラクティブなシミュレーションであるテキストベースゲームの強化学習について検討する。
エージェントの動作が解釈可能な推論手順によって生成され、支援されるように、意思決定のための知識グラフを用いた明示的な推論を行うことを目指している。
提案手法を多数の人為的ベンチマークゲームで広範囲に評価し,本手法が既存のテキストベースエージェントよりも優れていることを示す実験結果を得た。
論文 参考訳(メタデータ) (2020-10-22T12:40:22Z) - Text-based RL Agents with Commonsense Knowledge: New Challenges,
Environments and Baselines [40.03754436370682]
テキストワールド・コモンセンスにコモンセンスの知識を取り入れたエージェントは,より効率的に行動しながら,より優れた行動を示す。
我々は,TWC上での人的パフォーマンスを推定するユーザスタディを実施し,今後の改善の余地が十分にあることを示す。
論文 参考訳(メタデータ) (2020-10-08T06:20:00Z) - Learning Dynamic Belief Graphs to Generalize on Text-Based Games [55.59741414135887]
テキストベースのゲームをプレイするには、自然言語処理とシーケンシャルな意思決定のスキルが必要である。
本研究では,原文からエンドツーエンドに学習したグラフ構造化表現を用いて,エージェントがテキストベースのゲームでどのように計画・一般化できるかを検討する。
論文 参考訳(メタデータ) (2020-02-21T04:38:37Z) - Exploration Based Language Learning for Text-Based Games [72.30525050367216]
本研究は,テキストベースのコンピュータゲームにおいて,最先端の性能を発揮できる探索・模倣学習型エージェントを提案する。
テキストベースのコンピュータゲームは、自然言語でプレイヤーの世界を記述し、プレイヤーがテキストを使ってゲームと対話することを期待する。
これらのゲームは、言語理解、問題解決、および人工エージェントによる言語生成のためのテストベッドと見なすことができるため、興味がある。
論文 参考訳(メタデータ) (2020-01-24T03:03:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。