論文の概要: MimicBot: Combining Imitation and Reinforcement Learning to win in Bot
Bowl
- arxiv url: http://arxiv.org/abs/2108.09478v1
- Date: Sat, 21 Aug 2021 09:48:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-25 08:08:10.093977
- Title: MimicBot: Combining Imitation and Reinforcement Learning to win in Bot
Bowl
- Title(参考訳): MimicBot:ImitationとReinforcement Learningを組み合わせてBot Bowlで優勝
- Authors: Nicola Pezzotti
- Abstract要約: 本稿では,Bot Bowl IIIコンペティションに参加したFantasy Football AIでプレイするように訓練されたハイブリッドエージェントについて述べる。
MimicBotは、特別に設計されたディープポリシーネットワークを使用して実装され、模倣と強化学習の組み合わせを使って訓練される。
MimicBotはBot Bowl IIIコンペティションの勝者であり、現在最先端のソリューションである。
- 参考スコア(独自算出の注目度): 1.7259824817932292
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper describe an hybrid agent trained to play in Fantasy Football AI
which participated in the Bot Bowl III competition. The agent, MimicBot, is
implemented using a specifically designed deep policy network and trained using
a combination of imitation and reinforcement learning. Previous attempts in
using a reinforcement learning approach in such context failed for a number of
reasons, e.g. due to the intrinsic randomness in the environment and the large
and uneven number of actions available, with a curriculum learning approach
failing to consistently beat a randomly paying agent. Currently no machine
learning approach can beat a scripted bot which makes use of the domain
knowledge on the game. Our solution, thanks to an imitation learning and a
hybrid decision-making process, consistently beat such scripted agents.
Moreover we shed lights on how to more efficiently train in a reinforcement
learning setting while drastically increasing sample efficiency. MimicBot is
the winner of the Bot Bowl III competition, and it is currently the
state-of-the-art solution.
- Abstract(参考訳): 本稿では,Bot Bowl IIIコンペティションに参加したFantasy Football AIでプレイするように訓練されたハイブリッドエージェントについて述べる。
エージェントであるMimicBotは、特別に設計されたディープポリシーネットワークを使用して実装され、模倣と強化学習の組み合わせを使って訓練される。
このような文脈で強化学習アプローチを用いた以前の試みは、いくつかの理由で失敗した。
環境に内在するランダム性と、利用可能なアクションの数が大きくて不均一であるため、カリキュラム学習アプローチは、ランダムに支払われるエージェントを一貫して打ち負かせない。
現在、機械学習のアプローチは、ゲーム上のドメイン知識を利用するスクリプトボットを打ち負かすことはできない。
私たちのソリューションは、模倣学習とハイブリッド意思決定プロセスのおかげで、一貫してこのようなスクリプトエージェントを破ります。
さらに,強化学習環境において,サンプル効率を劇的に向上させながら,より効率的にトレーニングする方法を考察した。
MimicBotはBot Bowl IIIコンペティションの勝者であり、現在最先端のソリューションである。
関連論文リスト
- Efficient Active Imitation Learning with Random Network Distillation [8.517915878774756]
Random Network Distillation DAgger (RND-DAgger) は、新しいアクティブな模倣学習法である。
学習した状態ベースのアウト・オブ・ディストリビューション(out-of-distribution)手段を使用して介入をトリガーすることで、専門家によるクエリを制限します。
RND-DAggerを従来の模倣学習や3Dビデオゲームやロボット作業におけるアクティブなアプローチに対して評価する。
論文 参考訳(メタデータ) (2024-11-04T08:50:52Z) - Offline Imitation Learning Through Graph Search and Retrieval [57.57306578140857]
模倣学習は、ロボットが操作スキルを取得するための強力な機械学習アルゴリズムである。
本稿では,グラフ検索と検索により,最適下実験から学習する,シンプルで効果的なアルゴリズムGSRを提案する。
GSRは、ベースラインに比べて10%から30%高い成功率、30%以上の熟練を達成できる。
論文 参考訳(メタデータ) (2024-07-22T06:12:21Z) - Learning Agile Soccer Skills for a Bipedal Robot with Deep Reinforcement Learning [26.13655448415553]
Deep Reinforcement Learning (Deep RL)は、低コストでミニチュアなヒューマノイドロボットのための洗練された安全な運動スキルを合成することができる。
我々はDeep RLを使って、20個の関節を持つヒューマノイドロボットを訓練し、1対1(1v1)のサッカーゲームを単純化した。
結果として得られるエージェントは、急激な転倒回復、歩行、回転、蹴りなど、堅牢でダイナミックな動きのスキルを示す。
論文 参考訳(メタデータ) (2023-04-26T16:25:54Z) - Leveraging Sequentiality in Reinforcement Learning from a Single
Demonstration [68.94506047556412]
本稿では,複雑なロボットタスクの制御ポリシーを1つの実演で学習するために,シーケンシャルなバイアスを活用することを提案する。
本研究は, ヒューマノイド移動やスタンドアップなど, 模擬課題のいくつかを, 前例のないサンプル効率で解くことができることを示す。
論文 参考訳(メタデータ) (2022-11-09T10:28:40Z) - Real Robot Challenge using Deep Reinforcement Learning [6.332038240397164]
本稿では,2021年リアルロボットチャレンジの第1フェーズの優勝を詳述する。
課題は、3本指のロボットが特定の目標軌道に沿って立方体を運ばなければならないことだ。
我々は、ロボットシステムの知識を最小限にする必要のある、純粋な強化学習アプローチを使用している。
論文 参考訳(メタデータ) (2021-09-30T16:12:17Z) - Pre-training of Deep RL Agents for Improved Learning under Domain
Randomization [63.09932240840656]
我々は、すでにランダム化に不変な埋め込み型を提供する知覚エンコーダの事前学習方法を示す。
本研究では、DeepMind制御スイートタスクのランダム化バージョンと、任意の背景上の積み重ね環境において、ゼロショットで物理ロボットに転送する結果を連続的に改善することを示す。
論文 参考訳(メタデータ) (2021-04-29T14:54:11Z) - Learning to Play Sequential Games versus Unknown Opponents [93.8672371143881]
学習者が最初にプレーするゲームと、選択した行動に反応する相手との連続的なゲームについて考察する。
対戦相手の対戦相手列と対戦する際,学習者に対して新しいアルゴリズムを提案する。
我々の結果には、相手の反応の正則性に依存するアルゴリズムの後悔の保証が含まれている。
論文 参考訳(メタデータ) (2020-07-10T09:33:05Z) - Detection of Novel Social Bots by Ensembles of Specialized Classifiers [60.63582690037839]
悪意ある俳優は、社会ボットとして知られるアルゴリズムによって部分的に制御される不正なソーシャルメディアアカウントを作成し、誤情報を広め、オンラインでの議論を扇動する。
異なるタイプのボットが、異なる行動特徴によって特徴づけられることを示す。
本稿では,ボットのクラスごとに専門的な分類器を訓練し,それらの決定を最大ルールで組み合わせる,教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2020-06-11T22:59:59Z) - Deep Adversarial Reinforcement Learning for Object Disentangling [36.66974848126079]
本稿では, 廃棄物の密接化を図り, 対人強化学習(ARL)フレームワークを提案する。
ARLフレームワークは、元のエージェントであるプロタゴニストを挑戦する状態に操るために訓練された敵を利用する。
本手法は,ロボット制御のためのエンドツーエンドシステムを用いて,難易度の高い物体分離タスクを学習することにより,シナリオの学習からテストまでを一般化できることを示す。
論文 参考訳(メタデータ) (2020-03-08T13:20:39Z) - Provable Self-Play Algorithms for Competitive Reinforcement Learning [48.12602400021397]
我々はマルコフゲームの設定の下で、競争力強化学習における自己プレイについて研究する。
自己再生アルゴリズムは、ゲームのT$ステップをプレイした後、後悔の$tildemathcalO(sqrtT)$を達成する。
また, 最悪の場合においても, 時間内に実行可能であることを保証し, 若干悪い後悔を招き, エクスプロイトスタイルのアルゴリズムも導入する。
論文 参考訳(メタデータ) (2020-02-10T18:44:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。