論文の概要: How to Avoid Being Eaten by a Grue: Structured Exploration Strategies
for Textual Worlds
- arxiv url: http://arxiv.org/abs/2006.07409v1
- Date: Fri, 12 Jun 2020 18:24:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 01:56:47.902000
- Title: How to Avoid Being Eaten by a Grue: Structured Exploration Strategies
for Textual Worlds
- Title(参考訳): 恨みに食われるのを避ける方法 - テキスト世界のための構造化探索戦略
- Authors: Prithviraj Ammanabrolu, Ethan Tien, Matthew Hausknecht, Mark O. Riedl
- Abstract要約: 質問に答えることで世界の知識グラフを構築することを学習するエージェントであるQ*BERTを紹介する。
MC!Q*BERTは知識グラフに基づく本質的なモチベーションを用いてボトルネックを検出するエージェントである。
本研究は,9つのテキストゲームにおいて,我々の手法が現状よりも優れていることを示すアブレーション研究と結果を提示する。
- 参考スコア(独自算出の注目度): 16.626095390308304
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-based games are long puzzles or quests, characterized by a sequence of
sparse and potentially deceptive rewards. They provide an ideal platform to
develop agents that perceive and act upon the world using a combinatorially
sized natural language state-action space. Standard Reinforcement Learning
agents are poorly equipped to effectively explore such spaces and often
struggle to overcome bottlenecks---states that agents are unable to pass
through simply because they do not see the right action sequence enough times
to be sufficiently reinforced. We introduce Q*BERT, an agent that learns to
build a knowledge graph of the world by answering questions, which leads to
greater sample efficiency. To overcome bottlenecks, we further introduce
MC!Q*BERT an agent that uses an knowledge-graph-based intrinsic motivation to
detect bottlenecks and a novel exploration strategy to efficiently learn a
chain of policy modules to overcome them. We present an ablation study and
results demonstrating how our method outperforms the current state-of-the-art
on nine text games, including the popular game, Zork, where, for the first
time, a learning agent gets past the bottleneck where the player is eaten by a
Grue.
- Abstract(参考訳): テキストベースのゲームは長いパズルやクエストであり、スパースと潜在的な偽りの報酬によって特徴づけられる。
コンビネータサイズの自然言語ステートアクション空間を使って、世界を知覚し行動するエージェントを開発するための理想的なプラットフォームを提供する。
標準的な強化学習エージェントは、そのような空間を効果的に探索する能力が不十分で、しばしばボトルネックを克服するのに苦労する。
質問に答えることで世界の知識グラフを構築することを学習するエージェントであるQ*BERTを紹介する。
ボトルネックを克服するために、さらにmc!
Q*BERTは、知識グラフに基づく本質的なモチベーションを使用してボトルネックを検出するエージェントであり、新しい探索戦略により、それらを克服するためのポリシーモジュールの連鎖を効率的に学習する。
そこで本研究では,本手法が,人気のゲームであるzorkを含む9種類のテキストゲームにおいて,現状よりも優れており,学習エージェントが初めてプレイヤーが食するボトルネックを克服したことを示す。
関連論文リスト
- SPRING: Studying the Paper and Reasoning to Play Games [102.5587155284795]
我々は,ゲーム本来の学術論文を読み取るための新しいアプローチ,SPRINGを提案し,大言語モデル(LLM)を通してゲームの説明とプレイの知識を利用する。
実験では,クラフトオープンワールド環境の設定下で,異なる形態のプロンプトによって引き起こされる文脈内「推論」の品質について検討した。
我々の実験は、LLMが一貫したチェーン・オブ・シークレットによって誘導されると、洗練された高レベル軌道の完成に大きな可能性があることを示唆している。
論文 参考訳(メタデータ) (2023-05-24T18:14:35Z) - A Minimal Approach for Natural Language Action Space in Text-based Games [103.21433712630953]
本稿では,テキストベースのゲーム(TG)におけるアクション空間の探索という課題を再考する。
我々は,許容行動を利用する最小限のアプローチである$epsilon$-admissible Exploringをトレーニングフェーズに提案する。
本稿では,テキストベースのアクタ・クリティカル(TAC)エージェントを提案する。
論文 参考訳(メタデータ) (2023-05-06T16:05:27Z) - Long-Term Exploration in Persistent MDPs [68.8204255655161]
RbExplore (Rollback-Explore) と呼ばれる探査手法を提案する。
本稿では,マルコフ決定過程を永続的に決定する手法であるロールバック・エクスロア (RbExplore) を提案する。
我々は,ペルシャのプリンス・オブ・ペルシャゲームにおいて,報酬やドメイン知識を伴わずに,我々のアルゴリズムを検証した。
論文 参考訳(メタデータ) (2021-09-21T13:47:04Z) - Generalization in Text-based Games via Hierarchical Reinforcement
Learning [42.70991837415775]
本稿では,知識グラフに基づくRLエージェントを基盤とした階層型フレームワークを提案する。
高いレベルでは、メタポリシーが実行され、ゲーム全体をテキストゴールによって指定されたサブタスクのセットに分解する。
低レベルにおいては、目標条件付き強化学習を行うためにサブ政治が実行される。
論文 参考訳(メタデータ) (2021-09-21T05:27:33Z) - First return, then explore [18.876005532689234]
Go-Exploreは、有望な状態を明示的に記憶し、意図的に探索する前に最初にそのような状態に戻るアルゴリズムのファミリーである。
Go-Exploreは、これまで未解決だったAtariゲームをすべて解決し、ハード探索ゲームにおける最先端の技術を超越している。
目標条件付きポリシーを追加することで、Go-Exploreの探索効率をさらに向上し、トレーニング全体を通して処理できることを示す。
論文 参考訳(メタデータ) (2020-04-27T16:31:26Z) - Learning Dynamic Belief Graphs to Generalize on Text-Based Games [55.59741414135887]
テキストベースのゲームをプレイするには、自然言語処理とシーケンシャルな意思決定のスキルが必要である。
本研究では,原文からエンドツーエンドに学習したグラフ構造化表現を用いて,エージェントがテキストベースのゲームでどのように計画・一般化できるかを検討する。
論文 参考訳(メタデータ) (2020-02-21T04:38:37Z) - How To Avoid Being Eaten By a Grue: Exploration Strategies for
Text-Adventure Agents [17.215984752298443]
テキストベースのゲームのための2つの新しいゲーム状態探索戦略を導入する。
古典的テキストアドベンチャーゲームZolk1の強力なベースラインに対する探索戦略を比較した。
論文 参考訳(メタデータ) (2020-02-19T17:18:20Z) - Never Give Up: Learning Directed Exploration Strategies [63.19616370038824]
そこで我々は,多岐にわたる探索政策を学習し,ハード・サーベイ・ゲームを解決するための強化学習エージェントを提案する。
エージェントの最近の経験に基づいて,k-アネレスト隣人を用いたエピソード記憶に基づく本質的な報酬を構築し,探索政策を訓練する。
自己教師付き逆動力学モデルを用いて、近くのルックアップの埋め込みを訓練し、エージェントが制御できる新しい信号をバイアスする。
論文 参考訳(メタデータ) (2020-02-14T13:57:22Z) - Exploration Based Language Learning for Text-Based Games [72.30525050367216]
本研究は,テキストベースのコンピュータゲームにおいて,最先端の性能を発揮できる探索・模倣学習型エージェントを提案する。
テキストベースのコンピュータゲームは、自然言語でプレイヤーの世界を記述し、プレイヤーがテキストを使ってゲームと対話することを期待する。
これらのゲームは、言語理解、問題解決、および人工エージェントによる言語生成のためのテストベッドと見なすことができるため、興味がある。
論文 参考訳(メタデータ) (2020-01-24T03:03:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。