論文の概要: Brick Tic-Tac-Toe: Exploring the Generalizability of AlphaZero to Novel
Test Environments
- arxiv url: http://arxiv.org/abs/2207.05991v2
- Date: Thu, 14 Jul 2022 03:29:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-15 11:29:13.103261
- Title: Brick Tic-Tac-Toe: Exploring the Generalizability of AlphaZero to Novel
Test Environments
- Title(参考訳): Brick Tic-Tac-Toe:AlphaZeroの新たな試験環境への一般化可能性を探る
- Authors: John Tan Chong Min, Mehul Motani
- Abstract要約: テスト環境におけるブロック位置とトレーニング環境におけるブロック位置が異なるBrick Tic-Tac-Toe (BTTT) テストベッドを紹介した。
モンテカルロ木探索(MCTS)やミニマックスのような従来のRL状態探索手法は、AlphaZeroよりも新しいテスト環境に対してより一般化可能であることを示す。
- 参考スコア(独自算出の注目度): 29.519376857728325
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional reinforcement learning (RL) environments typically are the same
for both the training and testing phases. Hence, current RL methods are largely
not generalizable to a test environment which is conceptually similar but
different from what the method has been trained on, which we term the novel
test environment. As an effort to push RL research towards algorithms which can
generalize to novel test environments, we introduce the Brick Tic-Tac-Toe
(BTTT) test bed, where the brick position in the test environment is different
from that in the training environment. Using a round-robin tournament on the
BTTT environment, we show that traditional RL state-search approaches such as
Monte Carlo Tree Search (MCTS) and Minimax are more generalizable to novel test
environments than AlphaZero is. This is surprising because AlphaZero has been
shown to achieve superhuman performance in environments such as Go, Chess and
Shogi, which may lead one to think that it performs well in novel test
environments. Our results show that BTTT, though simple, is rich enough to
explore the generalizability of AlphaZero. We find that merely increasing MCTS
lookahead iterations was insufficient for AlphaZero to generalize to some novel
test environments. Rather, increasing the variety of training environments
helps to progressively improve generalizability across all possible starting
brick configurations.
- Abstract(参考訳): 従来の強化学習(RL)環境は通常、トレーニングとテストの両方のフェーズで同じです。
したがって、現在のRL法は、概念的には似ているが、その方法が訓練されたものとは異なっているテスト環境に対して、ほとんど一般化できない。
新たなテスト環境に一般化できるアルゴリズムに向けてRL研究を推し進めるため,テスト環境におけるレンガの位置がトレーニング環境と異なるBrick Tic-Tac-Toe(BTTT)テストベッドを紹介した。
bttt環境でのラウンドロビントーナメントを用いて、モンテカルロ木探索(mcts)やミニマックスのような伝統的なrl状態探索アプローチがalphazeroよりも新しいテスト環境に一般化可能であることを示す。
alphazeroは、go、チェス、shogiなどの環境で超人的なパフォーマンスを実現することが示されており、新しいテスト環境ではうまく機能すると考えることができるため、これは驚くべきことです。
以上の結果から,BTTTは単純ではあるがAlphaZeroの一般化可能性を探るには十分であることがわかった。
MCTSのルックアヘッドイテレーションの増加はAlphaZeroが新しいテスト環境に一般化するには不十分であることがわかった。
むしろ、さまざまなトレーニング環境の増加は、可能なすべての起動ブロック構成の一般化性を徐々に改善するのに役立つ。
関連論文リスト
- No Regrets: Investigating and Improving Regret Approximations for Curriculum Discovery [53.08822154199948]
非教師なし環境設計(UED)手法は、エージェントがイン・オブ・アウト・ディストリビューションタスクに対して堅牢になることを約束する適応的カリキュラムとして近年注目を集めている。
本研究は,既存のUEDメソッドがいかにトレーニング環境を選択するかを検討する。
本研究では,学習性の高いシナリオを直接訓練する手法を開発した。
論文 参考訳(メタデータ) (2024-08-27T14:31:54Z) - Discovering Minimal Reinforcement Learning Environments [24.6408931194983]
強化学習(RL)エージェントは、通常、同じ環境で訓練され、評価される。
人間は試験を受ける前に本を勉強するなど、評価される前に専門的な環境で訓練することが多い。
論文 参考訳(メタデータ) (2024-06-18T13:19:26Z) - SPRING: Studying the Paper and Reasoning to Play Games [102.5587155284795]
我々は,ゲーム本来の学術論文を読み取るための新しいアプローチ,SPRINGを提案し,大言語モデル(LLM)を通してゲームの説明とプレイの知識を利用する。
実験では,クラフトオープンワールド環境の設定下で,異なる形態のプロンプトによって引き起こされる文脈内「推論」の品質について検討した。
我々の実験は、LLMが一貫したチェーン・オブ・シークレットによって誘導されると、洗練された高レベル軌道の完成に大きな可能性があることを示唆している。
論文 参考訳(メタデータ) (2023-05-24T18:14:35Z) - gym-DSSAT: a crop model turned into a Reinforcement Learning environment [0.0]
本稿では,リアルな作物管理タスクのためのオープンソースのRL環境を提案する。
ジムDSSAT(英語: gym-DSSAT)は、農業技術移転のための意思決定支援システム(DSSAT)のジムインタフェースである。
論文 参考訳(メタデータ) (2022-07-07T12:45:02Z) - Autonomous Reinforcement Learning: Formalism and Benchmarking [106.25788536376007]
人間や動物が行うような現実世界の具体的学習は、連続的で非エポゾディックな世界にある。
RLの一般的なベンチマークタスクはエピソジックであり、試行錯誤によってエージェントに複数の試行を行う環境がリセットされる。
この相違は、擬似環境向けに開発されたRLアルゴリズムを現実世界のプラットフォーム上で実行しようとする場合、大きな課題となる。
論文 参考訳(メタデータ) (2021-12-17T16:28:06Z) - MiniHack the Planet: A Sandbox for Open-Ended Reinforcement Learning
Research [24.9044606044585]
MiniHackは、新しい深層強化学習環境を簡単に設計するための強力なサンドボックスフレームワークである。
NetHackのエンティティと環境ダイナミクスの完全なセットを活用することで、MiniHackはカスタムのRLテストベッドを設計できる。
さまざまなRLタスクとベースラインに加えて、MiniHackは既存のRLベンチマークをラップし、シームレスに複雑さを追加する方法を提供する。
論文 参考訳(メタデータ) (2021-09-27T17:22:42Z) - Eden: A Unified Environment Framework for Booming Reinforcement Learning
Algorithms [19.62620266334838]
強化学習アルゴリズムは、より強力な人工知能(AI)を構築するためのコードベースになりつつある
既存の環境は、現実世界のゲームとカスタマイズされたおもちゃ環境に分けられるが、明らかな欠点がある。
RLのための最初の仮想ユーザフレンドリーな環境フレームワークを紹介する。
論文 参考訳(メタデータ) (2021-09-04T02:38:08Z) - When Is Generalizable Reinforcement Learning Tractable? [74.87383727210705]
複数の環境に一般化可能なRLエージェントの訓練に必要なクエリ複雑性について検討する。
異なる環境の相対的近接性を正確に特徴付ける構造条件である強近接を導入する。
この条件の自然な弱化の下では、rlは水平方向に指数関数的であるクエリの複雑さを必要とする。
論文 参考訳(メタデータ) (2021-01-01T19:08:24Z) - The NetHack Learning Environment [79.06395964379107]
本稿では、強化学習研究のための手続き的に生成されたローグのような環境であるNetHack Learning Environment(NLE)を紹介する。
我々は,NetHackが,探索,計画,技術習得,言語条件付きRLといった問題に対する長期的な研究を促進するのに十分複雑であると主張している。
我々は,分散されたDeep RLベースラインとランダムネットワーク蒸留探索を用いて,ゲームの初期段階における実験的な成功を示す。
論文 参考訳(メタデータ) (2020-06-24T14:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。