論文の概要: Multi-Stage Episodic Control for Strategic Exploration in Text Games
- arxiv url: http://arxiv.org/abs/2201.01251v1
- Date: Tue, 4 Jan 2022 17:19:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-05 13:48:07.956536
- Title: Multi-Stage Episodic Control for Strategic Exploration in Text Games
- Title(参考訳): テキストゲームにおける戦略探索のための多段階エピソード制御
- Authors: Jens Tuyls, Shunyu Yao, Sham Kakade, Karthik Narasimhan
- Abstract要約: 本研究は,各エピソードにおいてこれらの2つの戦略を明示的に切り離す多段階アプローチを用いて,探索-vs-exploitジレンマに取り組むことを提案する。
eXploit-Then-eXplore (XTX)と呼ばれる我々のアルゴリズムは、過去の有望な軌跡を模倣したエクスプロイトポリシーを用いて各エピソードを開始する。
提案手法は,Jerrichoベンチマークによる12ゲームの平均正規化スコアを27%,11%向上させた。
- 参考スコア(独自算出の注目度): 16.897326154822135
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text adventure games present unique challenges to reinforcement learning
methods due to their combinatorially large action spaces and sparse rewards.
The interplay of these two factors is particularly demanding because large
action spaces require extensive exploration, while sparse rewards provide
limited feedback. This work proposes to tackle the explore-vs-exploit dilemma
using a multi-stage approach that explicitly disentangles these two strategies
within each episode. Our algorithm, called eXploit-Then-eXplore (XTX), begins
each episode using an exploitation policy that imitates a set of promising
trajectories from the past, and then switches over to an exploration policy
aimed at discovering novel actions that lead to unseen state spaces. This
policy decomposition allows us to combine global decisions about which parts of
the game space to return to with curiosity-based local exploration in that
space, motivated by how a human may approach these games. Our method
significantly outperforms prior approaches by 27% and 11% average normalized
score over 12 games from the Jericho benchmark (Hausknecht et al., 2020) in
both deterministic and stochastic settings, respectively. On the game of Zork1,
in particular, XTX obtains a score of 103, more than a 2x improvement over
prior methods, and pushes past several known bottlenecks in the game that have
plagued previous state-of-the-art methods.
- Abstract(参考訳): テキストアドベンチャーゲームは、組み合わさった大きなアクション空間とスパース報酬により、強化学習手法に固有の課題を示す。
これらの2つの要因の相互作用は、大きなアクションスペースは広範囲な探索を必要とするが、スパース報酬は限られたフィードバックを提供するため、特に要求されている。
本研究は,各エピソードでこれら2つの戦略を明確に分断する多段階アプローチを用いて,explore-vs-exploitジレンマに取り組むことを提案する。
eXploit-Then-eXplore (XTX)と呼ばれる我々のアルゴリズムは、過去の有望な軌道を模倣したエクスプロイトポリシーを使用して各エピソードを起動し、未知の状態空間につながる新しい行動を発見することを目的とした探索ポリシーに切り替える。
このポリシーの分解によって、ゲームスペースのどの部分に戻るべきかのグローバルな決定と、その領域における好奇心に基づく局所的な探索を組み合わせることができます。
本手法は,Jerichoベンチマーク(Hausknecht et al., 2020)の判定および確率的設定において,12ゲームの平均正規化スコアを27%,11%,それぞれ27%で上回った。
特にZolk1のゲームでは、XTXは従来の方法よりも2倍以上改善された103のスコアを取得し、過去の最先端の手法に悩まされてきたゲームにおけるいくつかの既知のボトルネックを突破する。
関連論文リスト
- Deterministic Exploration via Stationary Bellman Error Maximization [6.474106100512158]
探索は強化学習(RL)の重要かつ特異な側面である
本稿では,後者を安定させ,決定論的探索政策に到達するための3つの修正点を紹介する。
実験結果から,本手法は高密度かつスパースな報酬設定において,$varepsilon$-greedyよりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-10-31T11:46:48Z) - Multi-Player Approaches for Dueling Bandits [58.442742345319225]
Follow Your Leaderのブラックボックスアプローチの直接的な使用は、この設定の低いバウンダリと一致することを示す。
また,Condorcet-Winnerレコメンデーションプロトコルを用いて,メッセージパッシングによる完全分散アプローチも分析する。
論文 参考訳(メタデータ) (2024-05-25T10:25:48Z) - Long-Term Exploration in Persistent MDPs [68.8204255655161]
RbExplore (Rollback-Explore) と呼ばれる探査手法を提案する。
本稿では,マルコフ決定過程を永続的に決定する手法であるロールバック・エクスロア (RbExplore) を提案する。
我々は,ペルシャのプリンス・オブ・ペルシャゲームにおいて,報酬やドメイン知識を伴わずに,我々のアルゴリズムを検証した。
論文 参考訳(メタデータ) (2021-09-21T13:47:04Z) - Generating Diverse and Competitive Play-Styles for Strategy Games [58.896302717975445]
ターン型戦略ゲーム(Tribes)のためのプログレッシブアンプランによるPortfolio Monte Carlo Tree Searchを提案する。
品質分散アルゴリズム(MAP-Elites)を使用して異なるプレイスタイルを実現し、競争レベルを維持しながらパラメータ化する方法を示します。
その結果,このアルゴリズムは,トレーニングに用いるレベルを超えて,幅広いゲームレベルにおいても,これらの目標を達成できることが示された。
論文 参考訳(メタデータ) (2021-04-17T20:33:24Z) - Discovering Diverse Multi-Agent Strategic Behavior via Reward
Randomization [42.33734089361143]
複雑なマルチエージェントゲームにおいて多様な戦略方針を発見する手法を提案する。
我々は新しいアルゴリズム Reward-Randomized Policy Gradient (RPG) を導出する。
RPGは、時間的信頼のジレンマに挑戦する際、複数の特徴的な人間解釈可能な戦略を発見することができる。
論文 参考訳(メタデータ) (2021-03-08T06:26:55Z) - BeBold: Exploration Beyond the Boundary of Explored Regions [66.88415950549556]
本稿では,本質的報酬(IR)の簡便かつ効果的な基準として,逆訪問回数の規制的差異を提案する。
この基準は、エージェントが探索された地域の境界を越えて探索し、短視力や分離などのカウントベースの方法の一般的な問題を緩和するのに役立ちます。
その結果得られたBeBoldは、MiniGridの12の最も難しい手続き的タスクを、カリキュラムの学習なしにわずか120万の環境ステップで解決する。
論文 参考訳(メタデータ) (2020-12-15T21:26:54Z) - Efficient exploration of zero-sum stochastic games [83.28949556413717]
ゲームプレイを通じて,ゲームの記述を明示せず,託宣のみにアクセス可能な,重要で一般的なゲーム解決環境について検討する。
限られたデュレーション学習フェーズにおいて、アルゴリズムは両方のプレイヤーのアクションを制御し、ゲームを学習し、それをうまくプレイする方法を学習する。
私たちのモチベーションは、クエリされた戦略プロファイルの支払いを評価するのにコストがかかる状況において、利用可能性の低い戦略を迅速に学習することにあります。
論文 参考訳(メタデータ) (2020-02-24T20:30:38Z) - How To Avoid Being Eaten By a Grue: Exploration Strategies for
Text-Adventure Agents [17.215984752298443]
テキストベースのゲームのための2つの新しいゲーム状態探索戦略を導入する。
古典的テキストアドベンチャーゲームZolk1の強力なベースラインに対する探索戦略を比較した。
論文 参考訳(メタデータ) (2020-02-19T17:18:20Z) - Never Give Up: Learning Directed Exploration Strategies [63.19616370038824]
そこで我々は,多岐にわたる探索政策を学習し,ハード・サーベイ・ゲームを解決するための強化学習エージェントを提案する。
エージェントの最近の経験に基づいて,k-アネレスト隣人を用いたエピソード記憶に基づく本質的な報酬を構築し,探索政策を訓練する。
自己教師付き逆動力学モデルを用いて、近くのルックアップの埋め込みを訓練し、エージェントが制御できる新しい信号をバイアスする。
論文 参考訳(メタデータ) (2020-02-14T13:57:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。