論文の概要、ライセンス

# (参考訳) 深部強化学習とSim-to-sim転送を用いたロケットリーグの解法について [全文訳有]

On the Verge of Solving Rocket League using Deep Reinforcement Learning and Sim-to-sim Transfer ( http://arxiv.org/abs/2205.05061v1 )

ライセンス: CC BY 4.0
Marco Pleines, Konstantin Ramthun, Yannik Wegener, Hendrik Meyer, Matthias Pallasch, Sebastian Prior, Jannik Dr\"ogem\"uller, Leon B\"uttinghaus, Thilo R\"othemeyer, Alexander Kaschwig, Oliver Chmurzynski, Frederik Rohkr\"ahmer, Roman Kalkreuth, Frank Zimmer, Mike Preuss(参考訳) 自律的に訓練されたエージェントは、高速なシミュレーション速度か、同時に実行される何千ものマシンの重い並列化に依存する。 この研究は、ロボット工学で確立された第3の方法、すなわちsim-to-real transfer、またはゲーム自体がシミュレーションであると見なされる場合のsim-to-sim transferを探求する。 rocket leagueの場合、ゴールキーパーとストライカーの単一行動がシミュレーション環境で深層強化学習を用いてうまく学習でき、元のゲームに戻せることを実証する。 実施したトレーニングシミュレーションはある程度不正確であるが、ゴールキーピングエージェントは一度転送されたショットの100%近くを保存し、打撃剤は75%のケースでスコアを付ける。 したがって、訓練されたエージェントは十分に頑健であり、ロケットリーグのターゲットドメインに一般化することができる。

Autonomously trained agents that are supposed to play video games reasonably well rely either on fast simulation speeds or heavy parallelization across thousands of machines running concurrently. This work explores a third way that is established in robotics, namely sim-to-real transfer, or if the game is considered a simulation itself, sim-to-sim transfer. In the case of Rocket League, we demonstrate that single behaviors of goalies and strikers can be successfully learned using Deep Reinforcement Learning in the simulation environment and transferred back to the original game. Although the implemented training simulation is to some extent inaccurate, the goalkeeping agent saves nearly 100% of its faced shots once transferred, while the striking agent scores in about 75% of cases. Therefore, the trained agent is robust enough and able to generalize to the target domain of Rocket League.
公開日: Tue, 10 May 2022 17:37:19 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
2 2 0 2 y a M 0 1 2 2 0 2 y a m 0 1 である。 0.53
] G L . s c [ ] G L。 sc [ 0.47
1 v 1 6 0 5 0 1 v 1 6 0 5 0 0.42
. 5 0 2 2 : v i X r a . 5 0 2 2 : v i X r a 0.42
On the Verge of Solving Rocket League using Deep Deep を用いたロケットリーグの解法について 0.69
Reinforcement Learning and Sim-to-sim Transfer 強化学習とSim-to-sim転送 0.64
Marco Pleines, Konstantin Ramthun, Yannik Wegener, Hendrik Meyer, Matthias Pallasch, Sebastian Prior Marco Pleines, Konstantin Ramthun, Yannik Wegener, Hendrik Meyer, Matthias Pallasch, Sebastian Prior 0.43
Jannik Dr¨ogem¨uller, Leon B¨uttinghaus, Thilo R¨othemeyer, Alexander Kaschwig, ヤンニク・ドルーゲム・シュラー、レオン・B・シュトゥッティンハウス、ティロ・R・シュテメイヤー、アレクサンドル・カシュヴィヒ。 0.43
Oliver Chmurzynski, Frederik Rohkr¨ahmer, Roman Kalkreuth, Frank Zimmer∗, Mike Preuss† Oliver Chmurzynski, Frederik Rohkr sahmer, Roman Kalkreuth, Frank Zimmer∗, Mike Preuss. 0.45
∗Department of Communication and Environment, Rhine-Waal University of Applied Sciences, Kamp-Linfort, Germany ドイツ・カンプリンフォートのライン=ワール応用科学大学 ∗ 通信環境部 0.51
Department of Computer Science, TU Dortmund University, Dortmund, Germany ドイツのドルトムントにあるツ・ドルトムント大学コンピュータ科学科 0.50
†LIACS Universiteit Leiden, Leiden, Netherlands オランダ・ライデン大学ライデン校 0.31
Abstract—Autonomously trained agents that are supposed to play video games reasonably well rely either on fast simulation speeds or heavy parallelization across thousands of machines running concurrently. Abstract — ビデオゲームを合理的にプレイするために訓練されたエージェントは、高速なシミュレーション速度か、何千ものマシンを同時に実行する重い並列化に頼っている。 0.66
This work explores a third way that is established in robotics, namely sim-to-real transfer, or if the game is considered a simulation itself, sim-to-sim transfer. この研究は、ロボット工学で確立された第3の方法、すなわちsim-to-real transfer、またはゲーム自体がシミュレーションであると見なされる場合のsim-to-sim transferを探求する。 0.66
In the case of Rocket League, we demonstrate that single behaviors of goalies and strikers can be successfully learned using Deep Reinforcement Learning in the simulation environment and transferred back to the original game. rocket leagueの場合、ゴールキーパーとストライカーの単一行動がシミュレーション環境で深層強化学習を用いてうまく学習でき、元のゲームに戻せることを実証する。 0.61
Although the implemented training simulation is to some extent inaccurate, the goalkeeping agent saves nearly 100% of its faced shots once transferred, while the striking agent scores in about 75% of cases. 実施したトレーニングシミュレーションはある程度不正確であるが、ゴールキーピングエージェントは一度転送されたショットの100%近くを保存し、打撃剤は75%のケースでスコアを付ける。 0.76
Therefore, the trained agent is robust enough and able to generalize to the target domain of Rocket League. したがって、訓練されたエージェントは十分に頑健であり、ロケットリーグのターゲットドメインに一般化することができる。 0.64
Index Terms—rocket league, sim-to-sim transfer, deep rein- インデックス用語 -rocket league, sim-to-sim transfer, deep rein- 0.64
forcement learning, proximal policy optimization 強制学習 親密な政策最適化 0.72
I. INTRODUCTION I. イントロダクション 0.64
The spectacular successes of agents playing considerably difficult games, such as StarCraft II [1] and DotA 2 [2], have been possible only because the employed algorithms were able to train on huge numbers of games on the order of billions or more. StarCraft II [1] や DotA 2 [2] のような非常に難しいゲームをプレイするエージェントの驚くべき成功は、雇用されたアルゴリズムが数十億以上のゲームでトレーニングできるためである。
訳抜け防止モード: スタークラフトii[1]のようなかなり難しいゲームをするエージェントの壮大な成功 そして dota 2 [ 2 ] は 採用したアルゴリズムは数十億以上の順序で、膨大な数のゲームをトレーニングすることができた。
0.74
Unfortunately, and despite many improvements achieved in AI in recent years, the utilized Deep Learning methods are still relatively sample inefficient. 残念ながら、近年AIで多くの改善が達成されているにもかかわらず、Deep Learningの手法は依然として比較的サンプル非効率である。 0.60
To deal with this problem, fast running environments or high amounts of computing resources are vital. この問題に対処するためには、高速実行環境や大量のコンピューティングリソースが不可欠である。 0.74
OpenAI Five for DotA 2 [2] is an example of the utilization of hundreds of thousands of computing cores in order to achieve high throughput in terms of played games. OpenAI Five for DotA 2 [2]は、プレイゲームにおいて高いスループットを達成するために、数十万のコンピューティングコアを利用する例である。 0.77
However, this way is closed for games that run only on specific platforms and are thus very hard to parallelize. しかし、これは特定のプラットフォーム上でしか動作しないゲームではクローズドなので、並列化は非常に難しい。 0.69
Moreover, not many research groups have such resources at their disposal. また、そのような資源を必要としない研究グループも少なくない。 0.66
Video games that suffer from not being able to be sped up significantly, risk minimal running times and hence repeatability. 大幅にスピードアップできないと苦しむビデオゲームは、実行時間を最小限に抑え、したがってリピータビリティを損なう。 0.69
Therefore it makes sense to look for alternative ways to tackle difficult problems. したがって、難しい問題に取り組むための代替方法を探すのは理にかなっている。 0.63
Sim-to-real transfer offers such an alternative way and is well established in robotics, and it follows the general idea that robot behavior can be learned in a very simplified simulation environment and the trained agents can then be successfully transferred to the original environment. sim-to-real transferはそのような代替手段を提供し、ロボット工学においてよく確立されており、ロボットの動作を非常に単純なシミュレーション環境で学ぶことができ、訓練されたエージェントを元の環境にうまく移すことができるという一般的な考え方に従っている。
訳抜け防止モード: Sim - to - real transferはそのような代替手段を提供し、ロボティクスで十分に確立されている。 そしてそれは ロボットの動作は 非常に単純なシミュレーション環境で 訓練されたエージェントを 元の環境に移すことができます
0.86
If the target platform is a game as well, we may speak of sim-to-sim transfer because the original game is also virtual, just computationally Accepted to IEEE CoG 2022 ターゲットプラットフォームがゲームである場合、オリジナルのゲームも仮想であり、IEEE CoG 2022にコンピュータで受け入れられるので、sim-to-sim転送について話すことができる。 0.73
Fig. 1. The game of Rocket League (top) and the contributed simulation (bottom), which notably advances its ancestor project RoboLeague [3]. 図1。 Rocket League(トップ)とコントリビューションされたシミュレーション(ボット)のゲームは、その祖先プロジェクトRoboLeague[3]を特に前進させています。 0.51
much more costly. もっとコストがかかります 0.78
This approach is applicable to current games, even if they are not parallelizable, and makes them available for modern Deep Reinforcement Learning (DRL) methods. このアプローチは、たとえ並列化できないとしても、現在のゲームに適用可能であり、現代のDeep Reinforcement Learning(DRL)メソッドで利用可能である。 0.74
There is of course a downside of this approach, namely that it may be difficult or even infeasible to establish a simulation that is similar enough to enable transfer later on, but still simple enough to speed up learning significantly. もちろんこのアプローチの欠点は、後で転送できるほどに類似しているが、学習を著しくスピードアップするのには十分シンプルであるようなシミュレーションを確立するのが難しい、あるいは不可能であるかもしれないことだ。 0.80
A considerable amount of effort has to be invested in establishing this simulation environment before we can make any progress on the learning task. このシミュレーション環境の構築には、学習タスクの進捗が進む前に、かなりの労力を費やさなければなりません。 0.65
To our knowledge, the sim-to-sim approach has not yet been applied to train agents for a recent game. 我々の知る限り、sim-to-simアプローチは最近のゲームのトレーニングエージェントには適用されていない。 0.70
Therefore we aim to explore the possibilities of this direction in order to detect how simple the simulation can be, and how good the transfer to the original game works. そこで本研究では,シミュレーションがいかに簡単か,またオリジナルゲームへの転送がいかに優れているかを検出するために,この方向の可能性を探る。 0.82
The game we choose as a test case of the sim-to-sim approach is Rocket League (Figure 1), which basically resembles indoor football with cars and teams of 3. 私たちがsim-to-simアプローチのテストケースとして選択したゲームはRocket League (Figure 1)だ。
訳抜け防止モード: sim -to - simアプローチのテストケースとして選択したゲームはRocket League(図1)です。 これは車と3人のチームによる屋内サッカーに似ている。
0.71
Rocket league is freely available for Windows and Mac, possesses a bot API Rocket LeagueがWindowsとMacで無料で利用可能、ボットAPIを保有 0.82
英語(論文から抽出)日本語訳スコア
(RLBot [4]) and a community of bot developers next to a large human player base. (RLBot [4])と、大きな人間のプレイヤーベースの横にあるボット開発者のコミュニティ。 0.79
As the 3 members of each team control car avatars with physical properties different from human runners, the overall tactics are the one of rotation without fixed roles. 各チームの3人のメンバーが、人間のランナーとは異なる物理的特性を持つアバターを制御するため、全体的な戦術は固定された役割のない回転の1つである。
訳抜け防止モード: それぞれのチームの3人のメンバーが、人間のランナーとは異なる物理的特性を持つアバターを制御する。 全体的な戦術は 一定の役割を 持たない回転だ。
0.70
Thereby, large parts of the current speed can be conserved and players do not have to accelerate from zero when ball possession changes [5]. これにより、現在の速度の大きな部分を保存でき、ボール保持が変化してもプレイヤーはゼロから加速する必要がなくなる [5]。 0.82
Next to basic abilities attempting to shoot towards the goal and to move the goalie in order to prevent a goal, Rocket League is a minimal team AI setting [6] where layers of team tactics and strategy can be learned. Rocket Leagueは、目標に向かってシュートし、ゴールを阻止するためにゴールキーパーを動かす基本的な能力の次に、最小限のチームAI設定 [6] であり、そこではチームの戦術と戦略が学べます。 0.85
The first step of our work re-implements not all, but multiple physical gameplay mechanics of Rocket League using the game engine Unity, which results in a slightly inaccurate simulation. 私たちの仕事の最初のステップは、すべてではなく、ゲームエンジンのUnityを使ってRocket Leagueの物理ゲームプレイ機構を再実装することです。 0.77
We then train an agent in a relatively easy goalie and striker environment using Proximal Policy Optimization (PPO) [7]. 次に、PPO(Proximal Policy Optimization) [7] を用いて比較的簡単なゴールキーパーおよびストライカー環境でエージェントを訓練する。 0.79
The learned behaviors are then transferred to Rocket League for evaluation. 学習された行動は評価のためにロケットリーグに移される。 0.66
Even though the training simulation is imperfect, the transferred behaviors are robust enough to succeed at their tasks by generalizing to the domain of Rocket League. 訓練シミュレーションは不完全であるにもかかわらず、移行された行動はロケットリーグの領域に一般化することで彼らのタスクを成功させるのに十分頑健である。
訳抜け防止モード: トレーニングシミュレーションは不完全ですが 伝達行動は十分頑健です 仕事を成功させるには ロケットリーグの領域に 一般化することで
0.66
The goalkeeping agent saves nearly 100% of the shots faced, while the striking agent scores about 75% of its shots. ゴールキーピングエージェントは対向するショットの約100%をセーブし、打撃エージェントはそのショットの約75%をスコアする。 0.74
The sim-to-sim transfer is further examined by ablating physical adaptations that were added to the training simulation. さらに,シム-ト-シム変換をトレーニングシミュレーションに付加した物理適応を非難することにより検討した。 0.65
This paper proceeds with elaborating on related work. 本稿は,関連研究について詳述する。 0.55
Then, the physical gameplay mechanics of Rocket League are shown. 次に、rocket leagueの物理ゲームプレイメカニズムを示す。 0.62
After illustrating the trained goalie and striker environment, PPO and algorithmic details are presented. トレーニングされたゴールキーパーとストライカー環境を照明した後、PPOとアルゴリズムの詳細が提示される。 0.55
Section V examines the sim-to-sim transfer. 第V節はsim-to-sim転送を調べる。 0.49
Before concluding our work, a discussion is provided. 私たちの仕事をまとめる前に議論がある。 0.73
II. RELATED WORK Sim-to-sim transfer on a popular multiplayer team video game touches majorly on two different areas, namely multiagent and sim-to-real transfer. II。 関連作業 sim-to-sim転送 人気のマルチプレイヤーチームゲームでは、主にマルチエージェントとsim-to-real転送という2つの領域にタッチする。 0.66
DotA 2 and StarCraft II are the already mentioned prominent examples in the field of multiagent environments. DotA 2とStarCraft IIはマルチエージェント環境の分野ですでに言及されている顕著な例である。 0.78
As this work focuses on single-agent environments, namely the goalkeeper and striker environments, related work on sim-to-real transfer is focused next. この作業はシングルエージェント環境、すなわちゴールキーパーとストライカー環境に焦点を当てているため、sim-to-real転送に関する関連する作業は次に焦点が当てられている。 0.55
Given the real world, a considered prime example for multi-agent scenarios is RoboCup. 実世界を考えると、マルチエージェントシナリオの第一の例はRoboCupである。 0.76
RoboCup is an annual international competition [8] that offers a publicly effective open challenge for the intersection of robotics and AI research. RoboCupは、ロボティクスとAI研究の交差点で公に効果的なオープンチャレンジを提供する国際コンペティション [8] である。 0.76
The competition is known for the robot soccer cup but also includes other challenges. この競技会はロボットサッカーカップで知られているが、他の課題も含んでいる。 0.60
Reinforcement Learning (RL) has been successfully applied to simulated robot soccer in the past [9] and has been found a powerful method for tackling robot soccer. 強化学習(Reinforcement Learning, RL)は, ロボットサッカーのシミュレーションに過去[9]で成功し, ロボットサッカーに取り組むための強力な手法であることがわかった。 0.80
A recent survey [10] provides insights into robot soccer and highlights significant trends, which briefly mention the transfer from simulation to the real world. 最近の調査[10]は、ロボットサッカーに関する洞察を提供し、重要なトレンドを強調しており、シミュレーションから現実世界への移動について簡単に言及している。
訳抜け防止モード: ロボットサッカーに関する最近の調査[10] 重要な傾向を浮き彫りにします シミュレーションから現実世界への移行について簡単に説明してください。
0.72
In general, sim-to-real transfer is a well-established method for robot learning and is widely used in combination with RL. 一般に、sim-to-real転送はロボット学習の確立された方法であり、RLと組み合わせて広く使われている。
訳抜け防止モード: 一般に sim -to - real transfer is well- established method for robot learning RLと組み合わせて広く使われている。
0.83
It allows the transition of an RL agent’s behavior, which has been trained in simulations, to real-world environments. これにより、シミュレーションで訓練されたrlエージェントの動作を実環境へ移行することができる。 0.70
Simto-real transfer has been predominantly applied to RL-based robotics [11] where the robotic agent has been trained with ロボットエージェントをトレーニングしたRLベースのロボティクス [11] では, シムトリアルトランスファーが主流となっている。 0.79
state-of-the-art RL techniques like PPO [7]. PPO[7]のような最先端のRL技術。 0.61
Popular applications for sim-to-real transfer in robotics have been autonomous racing [12], Robot Soccer [13], navigation [14], and control tasks [15]. ロボット工学におけるシモン・トゥ・リアル・トランスファーの一般的な応用は、自律走行[12]、ロボットサッカー[13]、ナビゲーション[14]、制御タスク[15]である。 0.70
To address the inability to exactly match the realworld environment, a challenge commonly known as sim-toreal gap, steps have also been taken towards generalized simto-real transfer for robot learning [16], [17]. 現実世界の環境に正確にマッチすることができないことを解決するため、ロボット学習のための一般化されたシムトリアルトランスファーに向けたステップも試みられている [16], [17]。 0.72
The translation of synthetic images to realistic ones at is employed by a method called GraspGAN [18] which utilizes a generative adversarial network (GAN) [19]. 合成画像から現実画像への変換は, GAN (generative adversarial network) を用いた GraspGAN [18] と呼ばれる手法を用いて行われる。 0.73
GANs are able to generate synthetic data with good generalization ability. GANは、優れた一般化能力を持つ合成データを生成することができる。 0.62
This property can be used for image synthesis to model the transformation between simulated and real images. この特性は、シミュレーション画像と実画像の間の変換をモデル化するために画像合成に使用できる。 0.77
GraspGAN provides a method called pixel-level domain adaptation, which translates synthetic images to realistic ones at the pixel level. GraspGANは、合成画像をピクセルレベルでリアルなものに変換する、ピクセルレベルのドメイン適応と呼ばれる方法を提供する。
訳抜け防止モード: GraspGANはメソッドを提供する pixel - レベルドメイン適応 合成画像をピクセルレベルでリアルなものに変換します
0.81
The synthesized pseudo-real images correct the sim-to-real gap to some extent. 合成された擬似現実画像は、sim-to-realギャップをある程度補正する。 0.56
Overall, it has been found that the respective policies learned with simulations execute more successfully on real robots when GraspGAN is used [18]. 全体として,GraspGANを用いた場合,シミュレーションによって学習した各ポリシーは実際のロボット上でよりうまく実行されることが判明した[18]。 0.71
the pixel pixel (複数形 pixels) 0.38
level Another approach to narrow the sim-to-real gap is domain randomization [20]. レベル sim-to-realギャップを狭める別のアプローチは、ドメインランダム化[20]である。 0.66
Its goal is to train the agent in plenty of randomized domains to generalize to the real domain. その目標は、多数のランダムなドメインでエージェントを訓練し、実際のドメインに一般化することである。 0.67
By randomizing all physical properties and visual appearances during training in the simulation, a trained behavior was successfully transferred to the real world to solve the Rubik’s cube [21]. シミュレーションにおいて、すべての物理的特性と視覚的外観をランダム化することにより、訓練された振る舞いを実世界に移し、ルービックキューブを解く[21]。 0.72
III. ROCKET LEAGUE ENVIRONMENT III。 ロケットレガエ環境 0.57
This section starts out by providing an overview of vital components of Rocket League’s physical gameplay mechanics, which are implemented in the training simulation based on the game engine Unity and the ML-Agents Toolkit [22]. このセクションは、ゲームエンジンunityとml-agents toolkit[22]に基づいたトレーニングシミュレーションで実装されたrocket leagueの物理ゲームプレイメカニズムの重要なコンポーネントの概要を提供することから始まります。 0.79
RLBot [4] provides the interface to Rocket League where the training situations can be reproduced. RLBot [4]は、トレーニング状況を再現可能なRocket Leagueへのインターフェースを提供する。 0.76
Afterward, the DRL environments, designated for training, and their properties are detailed. その後、訓練用に指定されたDRL環境とその特性について詳述する。 0.73
The code is open source1. コードはopen source1です。 0.83
A. Implementation of the Training Simulation A. 訓練シミュレーションの実装 0.67
The implementation of the Unity simulation originates from the so called RoboLeague repository [3]. Unityシミュレーションの実装は、RoboLeagueリポジトリ[3]と呼ばれるものです。 0.66
As this version of the simulation is by far incomplete and inaccurate, multiple fundamental aspects and concepts are implemented, which are essentially based on the physical specifications of Rocket League. シミュレーションのこのバージョンは不完全で不正確であるため、複数の基本的な側面と概念が実装され、基本的にはロケットリーグの物理的仕様に基づいている。 0.73
These comprise, for example, the velocity and acceleration of the ball and the car, as well as the concept of boosting. これらは例えば、ボールと車の速度と加速、およびブースターの概念から構成されている。 0.64
Jumps, double jumps as well as dodge rolls are now possible, and also collisions and interactions. ジャンプ、ダブルジャンプ、ドッジロールも可能になり、衝突や相互作用も可能になった。 0.78
There is friction caused by the interaction of a car with the ground, but also friction caused by the air is taken into account. 自動車と地上との相互作用による摩擦もあるが、空気による摩擦も考慮される。
訳抜け防止モード: 車と地面の相互作用によって引き起こされる摩擦があります。 また、空気による摩擦も考慮される。
0.76
However, further adjustments are necessary. しかし、さらなる調整が必要である。 0.75
Therefore, table I provides an overview of all that was considered during implementing essential physical components, while highlighting distinct adjustments that differ from the information provided by the references. したがって、表1は、重要な物理コンポーネントを実装する際に考慮された全てのことを概観すると同時に、参照によって提供される情報とは異なる明確な調整を強調する。
訳抜け防止モード: したがって、テーブルIは、本質的な物理コンポーネントの実装時に考慮されたすべての概要を提供する。 参照によって提供される情報とは異なる 異なる調整を強調します
0.67
It has to be noted the material 注意すべきなのは 素材は 0.68
1Link to Github Githubへの1Link 0.73
英語(論文から抽出)日本語訳スコア
OVERVIEW ON ESSENTIAL PHYSICAL GAMEPLAY MECHANICS PRESENT IN ROCKET LEAGUE, WHICH ARE ADDED TO THE TRAINING SIMULATION. ロケットリーグに存在し, トレーニングシミュレーションに付加される基本的な物理ゲームプレイ機構について概説する。 0.38
TABLE I Physics Component テーブルI 物理成分 0.41
Entity Measures (e g Arena) エンティティ対策(例:アリーナ) 0.57
Car: Velocity, Acceleration, Boost Car: Jumps, Double Jumps, Dodge Rolls Car: Air Control 車:速度、加速度、ブーストカー:ジャンプ、ダブルジャンプ、ドッジロールカー:エアコントロール 0.64
Bullet and Psyonix Impulse 弾丸とプシニックス・インパルス 0.45
Ball Bouncing Friction (Air, Ground) and Drifting Ground Stabilization Wall Stabilization ボール跳ね摩擦(空気, 地面)と漂流地盤安定化壁の安定化 0.88
Suspension Car-to-car interaction Demolitions サスペンション 自動車間相互作用の破壊 0.60
Sources [3], [4] 出典 [3], [4] 0.37
[23] [4], [24] [23] [23] [4], [24] [23] 0.39
[23], [25] [23], [25] 0.37
[23] [25] [4], [25] [4] [23] [25] [4], [25] [4] 0.40
[26] [27] [28] [26] [27] [28] 0.43
Additional Information and Different Parameters Car model Octane and its collision mesh is used Radius of the ball is set to 93.15uu (value in Rocket League 92.75uu) No modifications done Raise max. 追加情報と異なるパラメータの車体モデルオクタンと、ボールの半径が使用される衝突メッシュを93.15uu(ロケットリーグ92.75uu)に設定し、最大値の修正を行わない。 0.79
angular velocity during dodge from 5.5 rad s Adjust drag coefficients for roll to −4.75 and pitch to −2.85 Used for the ball-to-car interaction and car-to-car interaction. ドッジ中の角速度は5.5 rad sでロールのドラッグ係数を −4.75 に、ピッチを −2.85 に調整する。 0.66
The impulse by the bullet engine replaces the Unity one. 弾丸エンジンによるインパルスは、Unityに取って代わる。 0.71
Psyonix impulse is an additional impulse on the center of the ball, which allows a better prediction and control of collisions. Psyonixのインパルスは、ボールの中心にある追加のインパルスであり、より優れた予測と衝突の制御を可能にする。 0.73
Within the bounce’s computation a ball radius of 91.25uu is considered. バウンス計算では、ボール半径91.25uuが考慮される。 0.77
A drag of −525 uu The stabilization torque is denoted by an acceleration of 50 rad s2 . 安定化トルクが −525 uu の抗力は、50 rad s2 の加速で表される。 0.77
Raise sticky forces for wall stabilization to an acceleration of 500 uu s2 Stiffness of front wheels: 163.9 1 Damper front and back is set to 30 1 s . 壁安定化のための粘着力を500 uu s2の加速度に引き上げ、前輪の剛性:163.91 ダンパー前と後を30 1 sに設定する。 0.81
The equations used are inspired by [27], which may differ to the approach taken in Rocket League that remains unclear. 使用される方程式は[27]にインスパイアされたもので、まだ不明なRocket Leagueのアプローチとは異なるかもしれない。 0.65
Implemented using the Bullet and Psyonix impulses, but not thoroughly tested Implemented, but not thoroughly tested and hence not considered in this paper Bullet と Psyonix のインパルスを実装したが、徹底的にテストされていないが、徹底的にテストされていないため、本論文では考慮されていない。 0.51
s2 and of back wheels: 275.4 1 s2 s2と後輪:275.41 s2 0.41
to 7.3 rad s s2 is used, which is reduced by more than half when the car is upside down. 7.3 rad s s2は車体が逆さまになると半分以上減少する。
訳抜け防止モード: 7.3 rad s s2が使われていて 車が逆さまになると 半分以上減少します
0.59
Fig. 2. The physical maneuver of a dodge roll is executed to exemplary show the alignment of the Unity simulation to the ground truth by using different max angular velocities. 図2。 ドッジロールの物理的操作は、異なる最大角速度を用いて、ユニティシミュレーションと基底真実とのアライメントを例示するために実行される。 0.66
that most measures are given in unreal units (uu). ほとんどの測度は非現実単位 (uu) で与えられる。 0.67
To convert them to Unity’s scale, these have to be divided by 100. それらをUnityのスケールに変換するには、これらを100に分割する必要がある。 0.69
Some adjustments are based on empirical findings by comparing the outcome of distinct physical maneuvers inside the implemented training simulation and the ground truth provided by Rocket League. いくつかの調整は、実装された訓練シミュレーション内の異なる物理的操作の結果とロケットリーグが提供する真実を比較して経験的な結果に基づいている。 0.63
A physical maneuver simulates several player inputs over time, such as applying throttle and steering left or right. 物理的な操作は、スロットルを施したり、左右に操るなど、時間とともにプレイヤーの入力をシミュレートする。 0.65
While the simulation is conducted in both simulations, multiple relevant game state variables like positions, rotations, and velocities are monitored for later evaluation. シミュレーションはどちらのシミュレーションでも行われるが、位置、回転、速度といった複数の関連するゲーム状態変数が後から評価のために監視される。 0.68
Figure 2 is an example where the physical maneuver orders the car to execute a dodge roll. 図2は、物理的操作が車にドッジロールを実行するよう命令する例です。 0.79
Whereas the original max angular velocity of 5.5 rad s does not compare well to the ground truth, a more suitable value of 7.3 rad is found by analyzing s the observed data. 5.5 rad s の当初の最大角速度は基底真理とよく比較されないが、観測データの解析により、より適切な7.3 rad の値が得られる。 0.83
of about simulation training 950 steps/second, while RLBot is constrained to the real-time, where only 120 steps/second are possible. ですから シミュレーショントレーニングについて 950 ステップ/秒、RLBot は 120 ステップ/秒しかできないリアルタイムに制限されている。 0.62
This simulation performance is measured on a Windows Desktop このシミュレーション性能はWindowsデスクトップ上で測定される 0.91
speed The the 速度 その... その... 0.39
is Fig. 3. The contents of the agent’s observation. は 図3。 エージェントの観察内容。 0.57
utilizing a GTX 1080 and a AMD Ryzen 7 3700X. GTX 1080とAMD Ryzen 7 3700Xを利用する。 0.88
B. Goalie Environment b.ゴールキーパー環境 0.80
In the goalie environment, the agent is asked to save shots. ゴールキーパー環境では、エージェントはショットの保存を依頼される。 0.73
1000 different samples of shots, which uniformly vary in speed, direction, and origin, are faced by the agent during training. 1000種類のショットのサンプルは、速度、方向、起源が一様に異なるが、訓練中にエージェントが対面する。 0.68
In every episode, one shot is fired towards the agent’s goal. すべてのエピソードで、1発がエージェントのゴールに向かって発射される。 0.77
The agent’s position is reset to the center of the goal at the start of each episode. エージェントの位置は、各エピソードの開始時にゴールの中心にリセットされる。 0.62
Every save rewards the agent with +1. すべてのセーブは +1 でエージェントに報酬を与える。 0.57
A goalkeeping episode terminates if the ball hits the goal or is deflected by the agent. ゴールキーピングエピソードは、ボールがゴールに当たった場合またはエージェントによって偏向された場合、終了する。
訳抜け防止モード: ゴールキーピングエピソードが終了する ボールはゴールを打つか エージェントによって偏向される
0.67
C. Striker Environment c.ストライカー環境 0.75
To score a goal is the agent’s task inside the striker environment. 目標を達成するためには、ストライカー環境内のエージェントのタスクです。 0.69
The ball moves bouncy, slowly, close, and in parallel to the goal. ボールは弾力があり、ゆっくりと、近づき、ゴールに平行して動く。 0.75
Its speed and origin are sampled uniformly from 1000 samples during the agent’s training. その速度と起源は、エージェントのトレーニング中に1000のサンプルから一様にサンプリングされる。 0.80
The agent’s position is farther away from the goal while being varied as well. エージェントの位置は、目標から遠く離れている一方で、変化している。 0.74
+1 is the only reward signal that the agent receives upon scoring. +1は、得点時にエージェントが受け取る唯一の報酬信号である。 0.77
Once the ball hits the goal or a time limit is reached, the episode terminates and the environment is reset. ボールがゴールに達するかタイムリミットに達すると、エピソードは終了し、環境がリセットされる。 0.67
D. Observation and Action Space Both environments share the same observation and action space. D.観察と行動空間 両方の環境は同じ観察空間と行動空間を共有している。 0.77
The agent perceives 23 normalized game state variables エージェントは23の正規化されたゲーム状態変数を知覚する 0.56
0.00.20.40.60.81.01. 2Seconds050100150200 250300350Roll (degrees)Comparing the Alignment of a Dodge RollRocket League's Ground TruthMax Angular Velocity = 5.5Max Angular Velocity = 7.3 0.00.20.40.60.81.01. 2Seconds050100150200 250300350Roll (度数) ドッジロールロケットリーグのグランドトラスマックス角速度 = 5.5Max角速度 = 7.3の比較 0.48
英語(論文から抽出)日本語訳スコア
to fully observe its environment as illustrated by figure 3. 図3に示すように環境を完全に観察する。 0.84
The agent’s action space is multi-discrete and contains the following 8 dimensions: • Throttle (5 actions) • Steer (5 actions) • Yaw (5 actions) • Pitch (5 actions) エージェントのアクション空間はマルチディスクレートで、以下の8次元を含む。 • throttle (5アクション) • steer (5アクション) • yaw (5アクション) • pitch (5アクション) 0.77
• Roll (3 actions) • Boost (2 actions) • Drift or Air Roll (2 actions) • Jump (2 actions) •ロール(3アクション)•ブースト(2アクション)•ドリフトまたはエアロール(2アクション)•ジャンプ(2アクション) 0.73
Rocket League is usually played by humans using a gamepad as input device. ロケットリーグは通常、人間がゲームパッドを入力装置として使用する。 0.73
Some of the inputs (e g thumbstick) are thus continuous and not discrete. 一部の入力(例えば親指)は連続であり離散的ではない。 0.65
To simplify the action space, the continuous actions throttle, steer, yaw, and pitch are discretized using buckets as suggested by Pleines et al [29]. 動作空間を単純化するために、pleines et al[29] が示唆するように、連続的なアクションスロットル、ステア、ヨー、ピッチをバケットを用いて判別する。 0.63
By this means, the agent picks one value from a bucket containing the values −1, −0.5, 0, 0.5 and 1. これにより、エージェントは、値−1,−0.5,0,0.5,1を含むバケットから1つの値を選択する。 0.66
The roll action is also discretized using the values −1, 0 and 1. ロールアクションは、値 −1, 0, 1 を用いて離散化される。 0.68
All other actions determine whether the concerned discrete action is executed or not. 他の全てのアクションは、関連する離散アクションが実行されるかどうかを決定する。 0.59
The action dimension that is in charge of drifting and air rolling is another special case. ドリフトと空気転がりを担当するアクションディメンションも特別なケースである。 0.51
Both actions can be boiled down to one because drifting is limited to being on the ground, whereas air rolling can be done in the air only. ドリフトが地上に限られているのに対して、空気の転がりは空気のみで行うことができるため、どちらのアクションも沸騰させることができる。 0.73
Moreover, multi-discrete action spaces allow the execution of concurrent actions. さらに、複数の離散アクション空間は同時アクションの実行を可能にする。 0.62
One discrete action dimension could achieve the same behavior. 1つの個別の行動次元は同じ振る舞いを達成できる。 0.59
This would require defining actions that feature every permutation of the available actions. これは利用可能なアクションのすべての置換を特徴とするアクションを定義する必要がある。 0.57
As a consequence, the already high-dimensional action space of Rocket League would be much larger and therefore harder to train. その結果、ロケットリーグの既に高次元のアクションスペースははるかに大きく、訓練が困難になる。 0.70
IV. DEEP REINFORCEMENT LEARNING IV。 深層強化学習 0.43
The actor-critic, on-policy algorithm PPO [7] and its clipped surrogate objective (Equation 1) is used to train the agent’s policy π, with respect to its model parameters θ, inside the Unity simulation. アクタークリティカルでオン・ポリシーなアルゴリズムPPO[7]とそのクリップされた代理目的(方程式1)は、ユニティシミュレーション内のモデルパラメータθに関してエージェントのポリシーπを訓練するために使用される。 0.81
PPO, algorithmic details, and the model architecture are presented next. 次に、PPO、アルゴリズムの詳細、モデルアーキテクチャを示す。 0.62
A. Proximal Policy Optimization t (θ) denotes the policy objective, which optimizes the LC probability ratio of the current policy πθ and the old one πθold: (1) A. 政策最適化 t (θ) は政策目標を表し、現在の政策 πθ と古い政策 πθold: (1) の lc 確率比を最適化する。 0.86
t (θ) = ˆEt[min(qt(θ) ˆAt, clip(qt(θ), 1 − , 1 + ) ˆAt)] LC with the surrogate objective qt(θ) = t (θ) = set[min(qt(θ) sat, clip(qt(θ), 1 − s, 1 + s) sat)] lc with the surrogate objective qt(θ) = with the surrogate objective qt(θ) =
訳抜け防止モード: t ( θ ) = >Et[min(qt(θ ) >At, clip(qt(θ ) 代理対象 qt(θ ) = 1 − θ , 1 + θ ) > At ) ] LC である。
0.83
πθ(at|st) πθold(at|st) πθ(at|st) πθold(at|st) 0.35
st is the environment’s state at step t. stは、ステップtにおける環境の状態です。 0.79
at is an action tuple, which is executed by the agent, while being in st. The clipping range is stated by  and ˆAt is the advantage, which is computed using generalized advantage estimation [30]. atはアクションタプルで、エージェントによって実行され、st内にある。 クリッピング範囲は . で記述され、 .At は .At が利点であり、一般化された利点推定[30] で計算される。 0.64
While computing t of the value function, the maximum the squared error loss LV between the default and the clipped error loss is determined. 値関数tの演算中に、デフォルトとクリップされた誤差損失との2乗誤差損失LVの最大値を決定する。 0.80
(2) (3) t = Vθold(st) + clip(Vθ(st) − Vθold(st),−, ) V C (2) (3) t = vθold(st) + clip(vθ(st) − vθold(st), −s, ) v c 0.44
t − Gt)2) t = max((Vθ(st) − Gt)2, (V C LV with the sampled return Gt = Vθold(st) + ˆAt t − Gt)2) t = max((Vθ(st) − Gt)2, (V C LV with the sampled return Gt = Vθold(st) + >At 0.47
The final objective is established by LCV H 最終目標はLCV Hによって確立される 0.76
(θ): t LCV H (θ): t LCV H 0.43
t (θ) = ˆEt[LC (4) the entropy bonus H[πθ](st) is To encourage exploration, added and weighted by the coefficient c2. t (θ) = set[lc (4) エントロピーボーナス h[πθ](st) は係数 c2 による探索、付加、重み付けを促進するためである。 0.55
Weighting is also applied to the value loss using c1. c1を用いた値損失にも重み付けが適用される。 0.70
t (θ) + c2H[πθ](st)] t (θ) + c2H[πθ](st)] 0.42
t (θ) − c1LV t (θ) − c1LV 0.46
Fig. 4. The policy and the value function share gradients and several parameters. 図4。 ポリシーと値関数は勾配といくつかのパラメータを共有します。 0.65
After feeding 23 game states variables as input to the model and processing a shared fully connected layer, the network is split into a policy and value stream starting with their own fully connected layer. 23のゲーム状態の変数を入力としてモデルに入力し、共有された完全接続層を処理した後、ネットワークは、自身の完全接続層から始まるポリシーとバリューストリームに分割される。 0.77
The policy stream outputs action probabilities for each available action dimension, whereas the value stream exposes its estimated state-value. ポリシストリームは利用可能なアクション次元ごとにアクション確率を出力し、バリューストリームはその推定状態値を公開する。 0.75
B. Algorithmic Details and Model Architecture B.アルゴリズムの詳細とモデルアーキテクチャ 0.80
PPO starts out by sampling multiple trajectories of experiences, which may contain multiple completed and truncated episodes, from a constant number of concurrent environments (i.e. workers). PPOは、連続した環境(すなわち、労働者)から複数の完了したエピソードを含む複数の経験の軌跡をサンプリングすることから始まる。 0.68
The model parameters are then optimized by conducting stochastic gradient descent for several epochs of mini-batches, which are sampled from the collected data. モデルパラメータは、収集したデータからサンプル化したいくつかのミニバッチのエポックに対して確率勾配降下を行うことで最適化される。 0.64
Before computing the loss function, advantages are normalized across each mini-batch. 損失関数を計算する前に、各ミニバッチで利点が正規化される。 0.59
The computed gradients are clipped based on their norm. 計算された勾配は、その標準に基づいてクリップされる。 0.55
A relatively shallow neural net (model) is shared by the value function and the policy (Figure 4). 比較的浅いニューラルネットワーク(モデル)は、値関数とポリシーで共有される(図4)。 0.74
To support multidiscrete actions, the policy head of the model outputs 8 categorical action probability distributions. 多分化アクションをサポートするため、モデルのポリシーヘッドは、8つのカテゴリ的アクション確率分布を出力する。 0.61
During action selection, each distribution is used to sample actions, which are provided to the agent as a tuple. アクション選択の間、各ディストリビューションは、エージェントにタプルとして提供されるアクションのサンプルとして使用される。 0.69
The only adjustment to the policy’s loss computation is that the probabilities of the selected actions are concatenated. ポリシーの損失計算の唯一の調整は、選択されたアクションの確率が連結されていることである。 0.79
Concerning the entropy bonus, the mean of the action distributions’ entropies is used. エントロピーボーナスについては、アクション分布のエントロピーの平均が使用される。 0.57
V. SIM-TO-SIM TRANSFER V.SIM-to-SIM転送 0.43
Two major approaches are considered to examine learned behaviors inside the Unity simulation and its transfer to Rocket League. 2つの主要なアプローチは、Unityシミュレーションの学習行動と、Rocket Leagueへの移行を検討することである。
訳抜け防止モード: 2つの主要なアプローチが考えられる Unityシミュレーションの学習行動とRocket Leagueへの移行を検討する。
0.77
The first one runs various handcrafted scenarios (like seen in section III-A) in both simulations to directly compare their alignment. 最初のシナリオは、両方のシミュレーションで様々な手作りのシナリオを実行し、アライメントを直接比較します。 0.70
This way, it can be determined whether the car or the ball behave similarly or identically concerning their positions and velocities. このようにして、車またはボールが位置や速度に関して同様に、または同一に振る舞うかどうかを判断することができる。 0.67
The second approach trains the agent in Unity given the goalie and the striker environment, while all implemented physics components are included. 第2のアプローチは、ゴールキーパーとストライカー環境が与えられた場合、エージェントを統一的に訓練し、実装された全ての物理コンポーネントを含む。 0.60
We further conduct an ablation study on the implemented physics where each experiment turns off one or all components. さらに、各実験が1つまたはすべてのコンポーネントをオフにする物理に関するアブレーション研究を行う。 0.73
Turning off may also refer to use the default physics of Unity. オンオフはまた、unityのデフォルト物理を使用することもある。 0.70
If not stated otherwise, each training run is repeated 5 times and undergoes a thorough evaluation. そうでない場合は、各トレーニング実行を5回繰り返し、徹底的な評価を行う。 0.75
Each model checkpoint is evaluated in Unity and Rocket League by 10 training and 10 novel shots, which are repeated 3 times. 各モデルのチェックポイントは、Unity and Rocket Leagueで10のトレーニングと10の新規ショットによって評価され、3回繰り返される。 0.76
Therefore, each data point aggregates 150 episodes featuring one shot. したがって、各データポイントは1発のショットを含む150エピソードを集約する。 0.64
Result plots Game State Variables (23)Fully Connected (256)Fully Connected (256)Fully Connected (256)Value (1)(5)(5)(5)(5)(3)(2 )(2)(2)Action DimensionsPolicyStre am ValueStream 結果プロット ゲーム状態変数 (23)Fully Connected (256)Fully Connected (256)Fully Connected (256)Value (1)(5)(5)(5)(5)(3)(2 )Action DimensionsPolicyStre am ValueStream 0.54
英語(論文から抽出)日本語訳スコア
THE RESULTED ERROR FOR EACH RUN PHYSICAL MANEUVER SCENARIO. 結果として生じたエラーは、実行中の物理操作シナリオごとに発生した。 0.16
THE CAR’S POSITION IS CONSIDERED BY THE GREEN SHADED DATA POINTS, 車両の位置はグリーンシェードデータポイントによって考慮される。 0.50
WHILE THE BLUE ONES ARE RELATED TO THE BALL’S POSITION. 青い部分はボールの位置と関連しています。 0.44
TABLE II 1) Acceleration テーブルII 1)加速 0.66
2) Air Control 2)エアコントロール 0.81
Mean Std Max 平均スタッドマックス 0.65
0.69 0.48 1.21 0.69 0.48 1.21 0.24
3.72 3.05 8.04 3.72 3.05 8.04 0.24
1.67 1.92 5.96 1.67 1.92 5.96 0.24
2.32 2.61 8.40 2.32 2.61 8.40 0.24
3.07 1.81 8.12 3.07 1.81 8.12 0.24
5.24 4.58 12.97 5.24 4.58 12.97 0.24
3.19 4.73 16.06 3.19 4.73 16.06 0.24
3) Drift 0.84 1.04 5.12 3)ドリフト 0.84 1.04 5.12 0.49
4.87 6.80 21.08 4.87 6.80 21.08 0.24
0.07 0.06 0.24 0.07 0.06 0.24 0.24
4) Jump 0.22 0.15 0.41 4)ジャンプ 0.22 0.15 0.41 0.50
1.37 0.69 2.02 1.37 0.69 2.02 0.24
5) Ball Bounce 0.01 0.01 0.02 5)ボールバウンス 0.01 0.01 0.02 0.51
0.05 0.03 0.12 0.05 0.03 0.12 0.24
0.03 0.02 0.07 0.03 0.02 0.07 0.24
28.45 25.20 58.16 28.45 25.20 58.16 0.24
6) Shot 23.79 25.01 59.00 6) ショット23.79 25.01 59.00 0.60
28.31 22.49 58.19 28.31 22.49 58.19 0.24
THE HYPERPARAMETERS USED TO CONDUCT THE TRAINING WITH PPO. PPOでトレーニングを行うために使用されるハイパーパラメーター。 0.39
THE LEARNING RATE α AND c2 DECAY LINEARLY OVER TIME. 学習率αとc2は時間とともに直線的に減衰する。 0.45
TABLE III Hyperparameter Discount Factor γ λ (GAE) Number of Workers Worker Steps Batch Size Epochs Mini Batches Max Gradient Norm テーブルIII 作業員の超パラメータ分散係数 γ λ (GAE) は、最大勾配ノルムのバッチサイズを最小にする 0.66
Hyperparameter Clip Range  c1 Initial α ハイパーパラメータクリップ範囲...c1初期α 0.63
Value 0.99 0.95 16 512 Min α 8192 値 0.99 0.95 16 512 Min α 8192 0.80
Initial c2 3 Min c2 8 0.5 初期c2 3分 c2 8 0.5 0.72
Optimizer Activations Optimizer Activation 0.41
Value 0.2 0.25 0.0003 0.000003 0.0005 0.00001 AdamW ReLU 価値 0.2 0.25 0.0003 0.000003 0.0005 0.00001 AdamW ReLU 0.48
show the interquartile mean of the cumulative reward and a confidence interval of 95% as recommended by Agarwal et al [31]. agarwal et al [31] が推奨する累積報酬の四分の一の平均と95%の信頼区間を示す。 0.70
The hyperparameters are detailed in Table III. ハイパーパラメーターは表IIIで詳述されている。 0.66
At last, we describe some of the learned behaviors that are also retrieved from training in a more difficult striker environment. 最後に,より難しいストライカー環境でのトレーニングから得られた学習行動について述べる。 0.53
A. Alignment Comparison using Handcrafted Scenarios 手作りシナリオを用いたアライメントの比較 0.69
To directly compare the alignment between both simulations, six physical maneuvers are assessed by 3 different handcrafted scenarios: 両シミュレーションのアライメントを直接比較するために、6つの物理的操作を3つの異なるシナリオで評価する。 0.73
1) Acceleration • Car drives forward and steers left and right • Car drives backward and steers left and right • Car uses boost and steers left and right 1)加速 • 車は前方、操舵は左右、• 車は後方、操舵は左右に、• 車は左右に昇降と操舵を使用する 0.72
2) Air Control 2)エアコントロール 0.81
• Car starts up in the air, looks straight up, boosts • Car starts up in the air, has an angle of 45◦, boosts • 車は空中から始まり、まっすぐ見上げ、上昇する。• 車は空中から立ち上がり、角度は45度、上昇する。
訳抜け防止モード: • 車は空中に浮かび上がり、まっすぐに見えます。 boosts• car start up in the air, has a angle of 45 s,boosts (英語)
0.84
shortly and boosts while rolling in the air 空気中を転がりながらすぐに上昇し 0.64
shortly and boosts while rolling in the air 空気中を転がりながらすぐに上昇し 0.64
• Car starts up in the air, •車は空中から始まります。 0.70
looks straight up and concurrently boosts, yaws, and air rolls まっすぐに見えます 同時に、ヨー、エアロール、 0.54
3) Drift • Car drives forward for a bit and then starts turning 3)ドリフト •車は少し前進し、次に曲がり始めます。 0.77
and drifting while moving forward 前進しながらドリフトしながら 0.73
• Car drives backward for a bit and then starts turning •車は少し後ろを運転し、それから曲がり始める 0.80
and drifting while moving forward 前進しながらドリフトしながら 0.73
• Car uses boost and then starts turning and drifting •車はブーストを使い、回転とドリフトを開始 0.80
while using boost boostを使いながら 0.85
4) Jump • Car makes a short jump, then a long one and at last 4)ジャンプ •車は短いジャンプをし、長いジャンプを最後に 0.71
a double jump • Car makes a front flip, a back flip and a dodge roll • Car drives forward, does a diagonal front flip and ダブルジャンプ • 車はフロントフリップ、バックフリップ、ダッジロール • 車は前方へ進み、斜めのフロントフリップを行います。 0.61
at last a back flip とうとう バックフリップして 0.40
5) Ball Bounce • Ball falls straight down 5)ボールバウンス ·ボールがまっすぐ倒れる 0.72
• Ball falls down with an initial force applied on its ※ボールは、初期力で落下する 0.45
x-axis • Ball falls down with an initial force applied on its x軸 ※ボールは、初期力で落下する 0.40
x-axis and an angular velocity 6) Shot x軸と角速度 6) ショット 0.75
• Car drives forward and hits the motionless ball • Car drives forward and the ball rolls to the car • Ball jumps, the car jumps while boosting and hits • 車は前進して無動球を打つ • 車は前進し、ボールは車に向かって転がる • ボールがジャンプし、車は上昇しながらジャンプし、ヒットする 0.82
the ball using a front flip フロントフリップを使用してボール 0.68
Each scenario tracks the position of the ball and the car during each frame. 各シナリオは、各フレーム中のボールと車の位置を追跡する。 0.81
As both simulations end up monitoring the incoming data with slight time differences, the final data is interpolated to match in shape. どちらのシミュレーションも、わずかな時間差で受信データを監視するため、最終的なデータは、形状に合わせて補間される。 0.71
Afterward, the error for each data point between both simulations is measured. その後、両シミュレーション間の各データポイントの誤差を測定する。 0.81
The final results are described by Table II, which comprises the mean, max, and standard deviation (Std) error across each run scenario. 最終結果は、各実行シナリオの平均、最大、標準偏差(Std)エラーを含む表IIによって記述される。 0.73
Letting the ball bounce for some time shows the least error, while a significant one is observed when examining the scenarios where the car shoots the ball. ボールのバウンドを一定時間行うとエラーが最小になるが、車がボールを発射するシナリオを調べると、重要なエラーが観測される。 0.79
Note that slight inaccuracies during acceleration may cause a strongly summed error when considering a different hit location on the ball. 加速中のわずかな不正確さは、ボール上の異なるヒット位置を考える際に、強く要約された誤りを引き起こす可能性があることに注意。 0.58
The other scenarios, where the error is based on the car’s position, also indicate that the Unity simulation suffers from inaccuracies. その他のシナリオでは、エラーは車の位置に基づいており、Unityのシミュレーションが不正確であることも示している。 0.79
B. Physics Ablation Study based on PPO Training b. ppoトレーニングに基づく物理学的アブレーション研究 0.78
The previously shown imperfections of the Unity simulation may lead to the impression that successfully transferring a trained behavior is rather unlikely. 前述したユニティシミュレーションの不完全性は、訓練された振る舞いの転送に成功したという印象に繋がる可能性がある。 0.60
This assumption can be negated by considering the results retrieved from training the agent in the goalie environment (Figure 5). この仮定は、ゴールキーパー環境でエージェントのトレーニングから得られた結果を考慮して否定することができる(図5)。 0.68
Even though each experiment ablates all, single or no physical adaptations, the agent is still capable of saving nearly every ball once transferred to Rocket League. それぞれの実験は、シングルまたはノーの物理的適応を損なうが、エージェントはロケットリーグに移管されたボールのほとんどを保存できる。 0.67
A drawback of the goalie environment lies in its simplicity because the agent only has to somehow hit the ball to effectively deflect it. ゴールキーパー環境の欠点は、エージェントがボールを効果的に偏向するために何とか打たなければならないため、そのシンプルさにある。 0.64
The next step of complexity is posed by the striker environment, where the agent has to land a more accurate hit on the ball to score a goal. 複雑さの次のステップはストライカー環境によって引き起こされ、エージェントはゴールを決めるためにより正確な打球をボールに着陸させる必要がある。 0.75
Figure 6 illustrates the results of the striker training. 図6はストライカートレーニングの結果を示しています。 0.74
Notably, when all physical adaptations are present, the transferred behavior manages to score in about 75% of the played episodes. 特に、全ての物理的適応が存在する場合、転送された動作は、再生されたエピソードの約75%で得点する。 0.61
Catastrophic performances emerge in Rocket League once single physical adaptations are turned off. 単一の物理的適応がオフになると、ロケットリーグで壊滅的なパフォーマンスが現れる。 0.57
C. Learned Policies During the performed experiments, several intriguing agent behaviors emerged2. C.学習政策 実験では, 興味をそそるエージェントの挙動が2。 0.56
When trained as a goalkeeper, the agent ゴールキーパーとして訓練されるとき、エージェント 0.76
2https://www.youtube .com/watch? 2https://www.youtube .com/watch? 0.21
v=WXMHJszkz6M&list= v=WXMHJszkz6M&list= 0.26
PL2KGNY2Ei3ix7Vr vA-ZgCyVfOCfhbX0C PL2KGNY2Ei3ix7Vr vA-ZgCyVfOCfhbX0C 0.12
英語(論文から抽出)日本語訳スコア
Fig. 5. Results of training the goalie environment under different ablations and transferring it to Rocket League. 図5。 異なるアブレーションの下でゴールキーパー環境を訓練し、ロケットリーグに移管した。 0.63
The agent is evaluated on training shots and ones, which were not seen during training. エージェントは訓練中は見られなかった訓練用ショットや訓練用ショットで評価される。 0.76
The agent easily solves the goalie task under all circumstances. エージェントは、あらゆる状況下でゴールキーパータスクを容易に解決する。 0.68
Both, training and unseen shots, behave identically in Rocket League. 訓練と未発見のシュートの両方が、ロケットリーグで同じように振る舞う。 0.61
Fig. 6. Results of training the striker environment under different ablations and transferring it to Rocket League. 図6。 異なるアブレーションの下でストライカー環境を訓練し、ロケットリーグに移管した。 0.62
The agent is evaluated on training situations and ones, which were not seen during training. エージェントはトレーニング中に見られなかった訓練状況と訓練状況で評価される。 0.76
The agent scores in about 75% of the played episodes given all physical adaptations, while any ablation turns out catastrophic. エージェントは全ての物理的適応によって演奏されたエピソードの約75%をスコア付けし、アブレーションは壊滅的となった。 0.61
Both, training and unseen situations, behave identically in Rocket League. 訓練と無意識の状況の両方が、ロケットリーグで同じように振る舞う。 0.63
tries to hit the ball very early, while making its body as big as possible towards the ball. ボールに向かってできるだけ体を大きくしながら、非常に早くボールを打とうとします。 0.76
This is achieved by simultaneously jumping and rolling forward or executing a forward flip. これは同時に前方にジャンプして転がったり、フォワードフリップを実行したりすることで達成される。 0.55
Concerning the striker environment, the agent usually approaches the ball using its boost. ストライカーの環境では通常、エージェントはブースターを使用してボールに近づきます。 0.62
To get a better angle to the ball, the agent steers left and right or vice versa. ボールの角度をより良くするために、エージェントは左右またはその逆を操縦する。 0.75
Drifting is sometimes used to aid this purpose. 漂流はこの目的のために使われることもある。 0.52
Jumping is always used when needed. ジャンプは常に必要なときに使用される。 0.59
This is usually the case if the agent is close to the ball, which is located above the agent. これは通常、エージェントがボールの近くにあり、エージェントの上方にある場合である。 0.68
Otherwise, the agent’s preference is to stay on the ground. そうでなければ、エージェントの好みは地面に留まることだ。 0.62
Further training experiments were conducted in a more difficult striker environment. さらなる訓練実験はより難しいストライカー環境で行われた。 0.72
The ball is not anymore simply passed in parallel and close to the goal. ボールは単に平行してゴールに近づくのではなく、ゴールに近づく。 0.74
Instead, the ball bounces higher and farther away from the goal, which increases the challenge of making a good touch on the ball to score. 代わりに、ボールはゴールから高く跳ね上がり、ゴールから遠く離れ、ボールに良いタッチをして得点するチャレンジを増加させる。 0.74
Given this setting, two different policies were achieved. この設定により、2つの異なる政策が達成された。 0.67
One policy approaches the ball as fast as possible while using a diagonal dodge roll to make the 1つのポリシーは、斜めのドッジロールを使用してボールを作る間、できるだけ速くボールに近づきます。 0.54
final touch to score. However, this behavior fails a few shots. 最終タッチで得点。 しかし、この行動は数回失敗している。 0.64
The other emerged behavior can be considered as the opposite. 他の出現した行動は反対と見なすことができる。 0.73
Depending on the distance and the height of the ball, the agent waits some time or even backs up to ensure that it will hit the ball while being on the ground. ボールの距離や高さに応じて、エージェントは、ボールが地面にいるときにボールにぶつかるのを確認するために、しばらく待つか、あるいはバックアップする。 0.79
Therefore, the agent avoids jumping. したがって、エージェントはジャンプを避けます。 0.66
This is surprising because the agent should maximize its discounted cumulative reward and therefore finish the episode faster. これは、エージェントがその値引きされた累積報酬を最大化し、したがってエピソードを早く終わらせるからである。
訳抜け防止モード: これは驚きです エージェントは 割引の累積報酬を最大化し エピソードを早く終わらせるべきです
0.71
Although the increased difficulty led to different behaviors, the agent may struggle a lot to get there. 困難が増すと様々な行動が引き起こされるが、エージェントはそこに着くのに苦労するかもしれない。 0.64
Usually, 2 out of 5 training runs succeeded, while the other ones utterly failed. 通常、5つのトレーニングのうち2つが成功したが、他の2つは全く失敗した。 0.63
VI. DISCUSSION In this work, the agent is trained on isolated tasks, which are quite apart from a complete match of Rocket League. VI。 討論 この作業では、エージェントは、ロケットリーグの完全なマッチとはかなり異なる、独立したタスクで訓練される。 0.58
To train multiple cooperative and competitive agents, the first obstacle that comes to mind is the tremendously high computational complexity, which might be infeasible for smaller research 複数の協力的かつ競争的なエージェントを訓練する上で、最初に思い浮かぶ障害は、非常に高い計算の複雑さであり、小さな研究では実現不可能かもしれない。
訳抜け防止モード: 複数の協力的かつ競争的なエージェントを訓練する。 最初に思い浮かぶ障害は 非常に高い計算複雑性です より小さな研究のためには
0.74
0510Steps (in millions)0.000.250.5 00.751.00IQM Cum. 0510steps (数百万)0.000.250.500.751.0 0qm cum。 0.41
RewardAll On (Baseline)Unity TrainUnity EvalRocket Eval0510Steps (in millions)0.000.250.5 00.751.00IQM Cum. RewardAll On (Baseline)Unity TrainUnity EvalRocket Eval0510Steps (in million)0.000.250.50 0.751.00IQM Cum 0.32
RewardBullet Impulse Off0510Steps (in millions)0.000.250.5 00.751.00IQM Cum. RewardBullet Impulse Off0510Steps (in million)0.000.250.50 0.751.00IQM Cum 0.27
RewardCustom Bounce Off0510Steps (in millions)0.000.250.5 00.751.00IQM Cum. RewardCustom Bounce Off0510Steps (in million)0.000.250.50 0.751.00IQM Cum 0.27
RewardGround Stabilization Off0510Steps (in millions)0.000.250.5 00.751.00IQM Cum. RewardGround Stabilization Off0510Steps (in million)0.000.250.50 0.751.00IQM Cum 0.27
RewardAll Off0510Steps (in millions)0.000.250.5 00.751.00IQM Cum. RewardAll Off0510Steps (in million)0.000.250.50 0.751.00IQM Cum 0.25
RewardPsyonix Impulse Off0510Steps (in millions)0.000.250.5 00.751.00IQM Cum. RewardPsyonix Impulse Off0510Steps (in million)0.000.250.50 0.751.00IQM Cum 0.27
RewardSuspension Off0510Steps (in millions)0.000.250.5 00.751.00IQM Cum. RewardSuspension Off0510Steps (in million)0.000.250.50 0.751.00IQM Cum 0.25
RewardWall Stabilization Off0510Steps (in millions)0.000.250.5 00.751.00IQM Cum. RewardWall Stabilization Off0510Steps (in million)0.000.250.50 0.751.00IQM Cum 0.27
RewardAll On (Baseline)Unity TrainUnity EvalRocket Eval0510Steps (in millions)0.000.250.5 00.751.00IQM Cum. RewardAll On (Baseline)Unity TrainUnity EvalRocket Eval0510Steps (in million)0.000.250.50 0.751.00IQM Cum 0.32
RewardBullet Impulse Off0510Steps (in millions)0.000.250.5 00.751.00IQM Cum. RewardBullet Impulse Off0510Steps (in million)0.000.250.50 0.751.00IQM Cum 0.27
RewardCustom Bounce Off0510Steps (in millions)0.000.250.5 00.751.00IQM Cum. RewardCustom Bounce Off0510Steps (in million)0.000.250.50 0.751.00IQM Cum 0.27
RewardGround Stabilization Off0510Steps (in millions)0.000.250.5 00.751.00IQM Cum. RewardGround Stabilization Off0510Steps (in million)0.000.250.50 0.751.00IQM Cum 0.27
RewardAll Off0510Steps (in millions)0.000.250.5 00.751.00IQM Cum. RewardAll Off0510Steps (in million)0.000.250.50 0.751.00IQM Cum 0.25
RewardPsyonix Impulse Off0510Steps (in millions)0.000.250.5 00.751.00IQM Cum. RewardPsyonix Impulse Off0510Steps (in million)0.000.250.50 0.751.00IQM Cum 0.27
RewardSuspension Off0510Steps (in millions)0.000.250.5 00.751.00IQM Cum. RewardSuspension Off0510Steps (in million)0.000.250.50 0.751.00IQM Cum 0.25
RewardWall Stabilization Off RewardWall安定化オフ 0.83
英語(論文から抽出)日本語訳スコア
groups. But before going this far, several aspects need to be considered that can be treated in isolation as well. グループ。 しかし、ここまで進む前に、分離して扱うことができるいくつかの側面を考慮する必要がある。 0.70
At last, the difficulties of training the more difficult striker environments are discussed. 最後に,より難しいストライカー環境における訓練の難しさについて考察した。 0.65
C. Difficulties of Training the harder Striker Environment c. ハードストライカー環境の訓練の難しさ 0.82
While the goalie and the striker environment are relatively easy, the slightly more difficult striker one poses a much greater challenge due to multiple reasons: ゴールキーパーとストライカーの環境は比較的簡単だが、ストライカーの環境がやや難しいことは、複数の理由から大きな課題となる。 0.65
A. On Improving the Sim-to-sim Transfer A. Sim-to-sim転送の改良について 0.61
At first, the Unity simulation is still lacking the implementation of physical concepts like the car-to-car interaction and suffers from the reported (Section V-A) inaccuracies. 当初、Unityシミュレーションは車間相互作用のような物理概念の実装に欠けており、報告された(シリーズV-A)不正確さに悩まされている。 0.68
These can be further improved by putting more work into the simulation, but also other approaches are promising. これらはシミュレーションにより多くの作業を加えることでさらに改善できるが、他のアプローチも有望である。
訳抜け防止モード: これらはシミュレーションにより多くの作業を加えることでさらに改善できる。 他のアプローチも有望です
0.82
At the cost of more computational resources, domain randomization [20] could achieve a more robust agent, potentially comprising an improved ability to generalize to the domain of Rocket League. より多くの計算資源を犠牲にしてドメインランダム化[20]は、Rocket Leagueのドメインに一般化する能力の改善を含む、より堅牢なエージェントを実現することができる。 0.69
As the ground truth is provided by Rocket League, approaches from the field of supervised learning can be considered as well. 地上真実はrocket leagueによって提供されるため、教師付き学習の分野からのアプローチも考えられる。 0.67
B. Training under Human Conditions b.人間条件下での訓練 0.80
Once the physical domain gap is narrowed, 物理的な領域のギャップが狭まると 0.64
the Unity simulation still does not consider training under human conditions. ユニティシミュレーションは、まだ人間の条件下でのトレーニングを考慮していない。 0.59
Notably, the current observation space provides perfect information on the current state of the environment, whereas players in Rocket League have to cope with imperfect information due to solely perceiving the rendered image of the game. 特に、現在の観測空間は環境の現状について完全な情報を提供するが、Rocket Leagueのプレイヤーは、レンダリングされた画像のみを知覚するため、不完全な情報を扱う必要がある。
訳抜け防止モード: 特に、現在の観測空間は、環境の現在の状態に関する完全な情報を提供する。 一方 ロケットリーグの選手は ゲームのレンダリング画像のみを知覚して不完全な情報に対処すること。
0.77
Thus, the Unity simulation has to implement Rocket League’s camera behavior as well. そのため、unityシミュレーションはrocket leagueのカメラの動作も実装する必要がある。 0.70
However, one critical concern is that the RLBot API does not reveal the rendered image of Rocket League and therefore makes a transfer impossible as of now. しかしながら、重要な懸念点のひとつは、RLBot APIがRocket Leagueのレンダリングされたイメージを公開していないため、現時点では転送が不可能であることだ。 0.59
However, even if that information is made available by Psyonix, both simulations’ visual appearances are very different. しかし、たとえこの情報がPsyonixによって入手できたとしても、両方のシミュレーションの視覚的外観は非常に異なる。 0.71
The Unity simulation’s aesthetics are very abstract, whereas Rocket League impresses with multiple arenas featuring many details concerning lighting, geometry, shaders, textures, particle effects, etc.. Unityシミュレーションの美学は非常に抽象的だが、Rocket Leagueは照明、幾何学、シェーダー、テクスチャ、粒子効果などの詳細を多種多様なアリーナで表現している。 0.82
To overcome this gap of visual appearance, approaches of the previously described related work, like GraspGAN [18], can be considered. このような視覚的外観のギャップを克服するために,GraspGAN [18] のような先述の関連作品のアプローチを考えることができる。 0.76
Another challenge arises once the environment is partially observable. 環境が部分的に観測可能になったら、別の課題が発生する。 0.53
It should be considered that the agent will probably need memory to be able to compete with human players. エージェントが人間のプレイヤーと競うためには、おそらく記憶が必要になると考えられる。 0.71
Otherwise, the agent might not be able to capture the current affairs of its teammates and opponents. さもなくば、エージェントはチームメイトや対戦相手の現在の状況を把握できないかもしれない。 0.67
For this purpose, multiple memory-based approaches might be suitable, like using a recurrent neural network or a transformer architecture. この目的のために、リカレントニューラルネットワークやトランスフォーマーアーキテクチャなど、複数のメモリベースのアプローチが適している可能性がある。 0.59
Moreover, the multi-discrete action space used in this paper is a simplification of the original action space that features concurrent continuous and discrete actions. さらに,本論文で用いたマルチ離散アクション空間は,連続的かつ離散的なアクションを特徴とする元のアクション空間の単純化である。 0.76
Initially, the training was done using the PPO implementation of the ML-Agents toolkit [22], which supports mixed (or hybrid) concurrent action spaces. 当初、トレーニングはML-Agentsツールキット[22]のPPO実装を使用して行われた。
訳抜け防止モード: 当初、トレーニングはML - AgentsツールキットのPPO実装を使用して行われました [22]。 複合(またはハイブリッド)並行アクションスペースをサポートする。
0.66
However, these experiments were quite unstable and hindered progress. しかし、これらの実験は非常に不安定であり、進歩を妨げた。 0.54
Therefore, Rocket League presents an interesting challenge for exploring such action spaces, of which other video games or applications are likely to take advantage. そのため、Rocket Leagueは、他のビデオゲームやアプリケーションが活用されるであろうアクションスペースを探索する興味深い課題を提示している。 0.66
• Episodes are longer, leading to an even more delayed •エピソードが長くなり、さらに遅れる 0.53
reward signal and more challenging credit assignment 報酬信号とより困難なクレジット割り当て 0.75
• More states have to be explored by the agent • Even more accurate touches on the ball have to be made •より多くの状態がエージェントによって探索されなければならない•さらに正確にボールに触れる必要がある。 0.79
to score To overcome these problems, curriculum learning [32] and reward shaping [33] can be considered. to score これらの問題を克服するために,カリキュラム学習 [32] と報酬形成 [33] を考えることができる。 0.58
In curriculum learning, the agent could face easier scenarios first and once success kicks in, the next level of difficulty can be trained. カリキュラム学習では、エージェントはより簡単なシナリオに直面することができ、成功すると次のレベルの難易度をトレーニングできる。 0.72
However, catastrophic forgetting may occur and therefore a curriculum should sample from a distribution of scenarios to mitigate this issue. しかし、破滅的な忘れ事が起こりうるので、この問題を緩和するためにシナリオの分布からカリキュラムをサンプリングすべきである。
訳抜け防止モード: しかし、破滅的な忘れ物が起こるかもしれない だからカリキュラムは シナリオの分布から この問題を軽減するためです
0.68
Concerning reward shaping, multiple variants were casually 報酬のシェーピングについては 様々な変種が 気軽に 0.53
tried without improving training results: • Reward the first touch on the ball • Reward or penalize the distance between the ball and the トレーニング結果を改善することなく試みられた:• ボールの最初のタッチを逆戻りする • ボールとの距離を逆戻りまたはペナルティ化する 0.81
agent • Reward or penalize the dot product between the car’s エージェント •車間でドット製品に報酬を与えるか、ペナルティを課す 0.73
velocity and the direction from the car to the ball 車からボールへの速度と方向 0.62
Adding more reward signals along the agent’s task introduces bias and is likely task-irrelevant. エージェントのタスクにより多くの報酬信号を加えるとバイアスが発生し、タスク非関連である可能性が高い。 0.47
For example, the agent could exploit such signals to cuddle with the ball at a close distance or to slowly approach the ball to maximize the cumulative return of the episode. 例えば、エージェントはそのような信号を利用して、近距離でボールと寄り添ったり、ゆっくりとボールに近づくことで、エピソードの累積リターンを最大化することができる。 0.71
If those signals are turned off once the ball is touched, the value function might struggle to make further good estimates on the value of the current state of the environment, which ultimately may lead to misleading training experiences and hence an unstable learning process. これらの信号がボールに触れた後にオフになった場合、値関数は現在の環境の値についてさらに良い見積もりをするのに苦労し、最終的には誤解を招くトレーニング経験と不安定な学習プロセスにつながる可能性がある。 0.75
In spite of the results of these first explorative tests, future work shall examine whether these points shall be reconsidered. これらの最初の探索テストの結果にもかかわらず、将来の研究はこれらの点を再検討するかどうかを検証しなければならない。 0.55
VII. CONCLUSION Towards solving Rocket League by the means of Deep Reinforcement Learning, a more sample efficient simulation is crucial, because the original game cannot be sped up and neither parallelized on Linux-based clusters. VII。 結論 深層強化学習によるrocket leagueの解決に向けては、オリジナルのゲームはスピードアップできず、linuxベースのクラスタ上でも並列化できないため、よりサンプル効率の良いシミュレーションが不可欠である。 0.67
Therefore, we advanced the implementation of a Unity project that mimics the physical gameplay mechanics of Rocket League. そこで我々は,Rocket Leagueの物理ゲームプレイ機構を模倣したUnityプロジェクトの実装を進めた。 0.76
Although the implemented simulation is not perfectly accurate, we remarkably demonstrate that transferring a trained behavior from Unity to Rocket League is robust and generalizes when dealing with a goalkeeper and striker task. 実施したシミュレーションは正確ではないが、訓練された行動をunityからrocket leagueに移すことは堅牢であり、ゴールキーパーやストライカータスクを扱う際に一般化できることを実証する。 0.67
Hence, the sim-tosim transfer is a suitable approach for learning agent behaviors in complex game environments. したがって、sim-tosim転送は複雑なゲーム環境におけるエージェント動作の学習に適したアプローチである。 0.74
After all, Rocket League still poses further challenges when targeting a complete match under human circumstances. ともあれ、rocket leagueは人間の状況下で完全な試合を狙うことでさらに挑戦している。 0.61
Based on our findings, we believe that Rocket League and its Unity counterpart will be valuable to various research fields and aspects, comprising: sim-to-sim transfer, partial observability, mixed action-spaces, curriculum learning, competitive and cooperative multi-agent settings. この結果から,Rocket LeagueとそのUnityは,sim-to-sim転送,部分観測可能性,複合アクション空間,カリキュラム学習,競争的かつ協調的なマルチエージェント設定など,さまざまな研究分野や側面において有用であると考えている。 0.76
英語(論文から抽出)日本語訳スコア
REFERENCES [1] O. Vinyals, I. Babuschkin, W. M. Czarnecki, M. Mathieu, A. Dudzik, J. Chung, D. H. Choi, R. Powell, T. Ewalds, P. Georgiev, J. Oh, D. Horgan, M. Kroiss, I. Danihelka, A. Huang, L. Sifre, T. Cai, J. P. Agapiou, M. Jaderberg, A. S. Vezhnevets, R. Leblond, T. Pohlen, V. Dalibard, D. Budden, Y. Sulsky, J. Molloy, T. L. Paine, C¸ . 参考 [1] O. Vinyals, I. Babuschkin, W. M. Czarnecki, M. Mathieu, A. Dudzik, J. Chung, D. H. Choi, R. Powell, T. Ewalds, P. Georgiev, J. Oh, D. Horgan, M. Kroiss, I. Danihelka, A. Huang, L. Sifre, T. Cai, J. P. Agapiou, M. Jaderberg, A. S. Vezhnevets, R. Leblond, T. Pohlen, V. Dalibard, D. Budden, Y. Sulsky, J. Mollo, T. T. Molo, L. Paine, C. C. C.
訳抜け防止モード: 参考 [1]O. Vinyals, I. Babuschkin, W. M. Czarnecki M. Mathieu, A. Dudzik, J. Chung, D. H. Choi R. Powell, T. Ewalds, P. Georgiev, J. Oh D. Horgan, M. Kroiss, I. Danihelka, A. Huang L. Sifre, T. Cai, J. P. Agapiou, M. Jaderberg A. S. Vezhnevets, R. Leblond, T. Pohlen, V. Dalibard D. Budden, Y. Sulsky, J. Molloy, T. L. Paine
0.47
G¨ulc¸ehre, Z. Wang, T. Pfaff, Y. Wu, R. Ring, D. Yogatama, D. W¨unsch, K. McKinney, O. Smith, T. Schaul, T. P. Lillicrap, K. Kavukcuoglu, D. Hassabis, C. Apps, and D. Silver, “Grandmaster level in starcraft II using multiagent reinforcement learning,” Nat. K. McKinney, O. Smith, T. Schaul, T. P. Lillicrap, K. Kavukcuoglu, D. Hassabis, C. Apps, and D. Silver, “スタークラフトIIのグランドマスターレベルはマルチエージェント強化学習を使っている”。
訳抜け防止モード: Z. Wang, T. Pfaff, Y. Wu, R. Ring, D. Yogatama, D. W sunsch, K. McKinney, O. Smith T. Schaul, T. P. Lillicrap, K. Kavukcuoglu, D. Hassabis C. AppsとD. Silverは、“マルチエージェント強化学習を使ったスタークラフトIIのグランドマスターレベル”だ。
0.85
, vol. 575, no. 7782, pp. 350–354, 2019. ヴォル。 575, No. 7782, pp. 350-354, 2019。 0.63
[2] C. Berner, G. Brockman, B. Chan, V. Cheung, P. Debiak, C. Dennison, D. Farhi, Q. Fischer, S. Hashme, C. Hesse, R. J´ozefowicz, S. Gray, C. Olsson, J. Pachocki, M. Petrov, H. P. de Oliveira Pinto, J. Raiman, T. Salimans, J. Schlatter, J. Schneider, S. Sidor, I. Sutskever, J. Tang, F. Wolski, and S. Zhang, “Dota 2 with large scale deep reinforcement learning,” CoRR, vol. [2] C. Berner, G. Brockman, B. Chan, V. Cheung, P. Debiak, C. Dennison, D. Farhi, Q. Fischer, S. Hashme, C. Hesse, R. J ́ozefowicz, S. Gray, C. Olsson, J. Pachocki, M. Petrov, H. P. de Oliveira Pinto, J. Raiman, T. Salimans, J. Schlatter, J. Schneider, S. Sidor, I. Sutskever, J. Tang, F. Wolski, S. Zhang, “Dota 2 with large scale advanced learning” CoRR, vol. 0.47
abs/1912.06680, 2019. 背番号1912.06680、2019。 0.36
[3] RoboLeague, “Roboleague,” 2021, available at https://github.com/ RoboLeague, “Roboleague” 2021年、https://github.com/で公開 0.85
roboserg/RoboLeague retrieved February 28, 2022. roboserg/RoboLeague 2022年2月28日回復。 0.67
[4] RLBot, “Rlbot wiki: Getting started,” 2021, available at https://github. rlbot.[4] rlbot, “rlbot wiki: getting started” 2021, https://github.com/r lbot.com/で利用可能です。 0.69
com/RLBot/RLBot/wiki retrieved February 28, 2022. 2022年2月28日閲覧。 0.51
[5] Y. Verhoeven and M. Preuss, “On the potential of rocket league for driving team ai development,” in 2020 IEEE Symposium Series on Computational Intelligence (SSCI), 2020, pp. 2335–2342. Y. Verhoeven and M. Preuss, “On the potential of rocket League for driving team ai development” in 2020 IEEE Symposium Series on Computational Intelligence (SSCI), 2020, pp. 2335–2342。
訳抜け防止モード: 5 ] y. verhoeven と m. preuss は “rocket league for driving team ai development” について述べている。 2020年ieee symposium series on computational intelligence (ssci) 2020 , pp . 2335–2342 .
0.80
[6] M. Mozgovoy, M. Preuss, and R. Bidarra, “Guest editorial special issue on team AI in games,” IEEE Trans. M. Mozgovoy, M. Preuss, R. Bidarra, “Guest Editor Special Issue on Team AI in games”, IEEE Trans. IEEE Trans
訳抜け防止モード: [6 ]M. Mozgovoy、M. Preuss、R. Bidarra ゲームにおけるチームAIに関するゲスト編集特集、IEEE Trans。
0.59
Games, vol. 13, no. 4, pp. 327–329, 2021. ゲーム、Vol。 13 no. 4, pp. 327-329, 2021。 0.75
[7] J. Schulman, F. Wolski, P. Dhariwal, A. Radford, and O. Klimov, J. Schulman, F. Wolski, P. Dhariwal, A. Radford, O. Klimov 0.39
“Proximal policy optimization algorithms,” arXiv:1707.06347, 2017. 近位政策最適化アルゴリズム」arxiv:1707.06347, 2017 0.80
[8] H. Kitano, M. Asada, Y. Kuniyoshi, I. Noda, and E. Osawa, “Robocup: The robot world cup initiative,” in Proceedings of the First International Conference on Autonomous Agents, AGENTS 1997, Marina del Rey, California, USA, February 5-8, 1997, W. L. Johnson, Ed. 第1回自律エージェント・エージェント国際会議1997,marina del rey, california, usa, february 5-8, 1997, w. l. johnson, edの議事録には, 北野, 朝田, y. kuniyoshi, noda, e. osawa, “robocup: the robot world cup initiative” と書かれている。 0.76
ACM, 1997, pp. 340–347. ACM 1997, pp. 340-347。 0.84
[9] M. J. Hausknecht and P. Stone, “Deep reinforcement learning in parameterized action space,” in 4th International Conference on Learning Representations, ICLR 2016, San Juan, Puerto Rico, May 2-4, 2016, Conference Track Proceedings, Y. Bengio and Y. LeCun, Eds. M. J. Hausknecht, P. Stone, “Deep reinforcement learning in parameterized action space” in 4th International Conference on Learning Representations, ICLR 2016 San Juan, Puerto Rico, May 2-4, 2016 Conference Track Proceedings, Y. Bengio and Y. LeCun, Eds。
訳抜け防止モード: J. Hausknecht, P. Stone, “Deep reinforcement learning in parameterized action space, ., in 4th International Conference on Learning Representations, ICLR 2016 サンフアン、プエルトリコ、2016年5月2日 - 4日。 Y. Bengio と Y. LeCun, Eds
0.72
, 2016. [10] E. Antonioni, V. Suriani, F. Riccio, and D. Nardi, “Game strategies for physical robot soccer players: A survey,” IEEE Trans. , 2016. E. Antonioni, V. Suriani, F. Riccio, D. Nardi, “Game Strategy for physical robot soccer players: A survey”, IEEE Trans。
訳抜け防止モード: , 2016. [10 ]E. Antonioni, V. Suriani, F. Riccio, D. Nardi, “Game Strategy for physical robot soccer players: A survey, ” IEEE Trans
0.43
Games, vol. 13, no. 4, pp. 342–357, 2021. ゲーム、Vol。 13, No. 4, pp. 342-357, 2021。 0.80
[11] W. Zhao, J. P. Queralta, and T. Westerlund, “Sim-to-real transfer in deep reinforcement learning for robotics: a survey,” in 2020 IEEE Symposium Series on Computational Intelligence, SSCI 2020, Canberra, Australia, December 1-4, 2020. 11] w. zhao, j. p. queralta, t. westerlund, “sim-to-real transfer in deep reinforcement learning for robotics: a survey” in 2020 ieee symposium series on computational intelligence, ssci 2020, canberra, australia, december 1-4, 2020
訳抜け防止モード: 11 ] w. zhao, j. p. queralta, t. westerlund. sim -to-real transfer in deep reinforcement learning for robotics : a survey」 2020年ieee symposium series on computational intelligence, ssci 2020 オーストラリア、キャンベラ、12月1日から4日、2020年。
0.82
IEEE, 2020, pp. 737–744. IEEE, 2020, pp. 737-744。 0.91
[12] B. Balaji, S. Mallya, S. Genc, S. Gupta, L. Dirac, V. Khare, G. Roy, T. Sun, Y. Tao, B. Townsend, E. Calleja, S. Muralidhara, and D. Karuppasamy, “Deepracer: Autonomous racing platform for experimentation learning,” in 2020 IEEE International with sim2real reinforcement Conference on Robotics and Automation, ICRA 2020, Paris, France, May 31 - August 31, 2020. B. Balaji, S. Mallya, S. Genc, S. Gupta, L. Dirac, V. Khare, G. Roy, T. Sun, Y. Tao, B. Townsend, E. Calleja, S. Muralidhara, D. Karuppasamy, “Deepracer: autonomous racing platform for experimentation learning”, 2020年、IEEE International with sim2real reinforcement Conference on Robotics and Automation, ICRA 2020, Paris, Paris, France, 2020年5月31日~8月31日。 0.46
IEEE, 2020, pp. 2746–2754. IEEE, 2020, pp. 2746-2754。 0.88
[13] J. Blumenkamp, A. Baude, and T. Laue, “Closing the reality gap with unsupervised sim-to-real image translation for semantic segmentation in robot soccer,” CoRR, vol. 13] J. Blumenkamp, A. Baude, T. Laue, “ロボットサッカーにおけるセマンティックセグメンテーションのための教師なしシミュレートと現実のギャップを埋める”。
訳抜け防止モード: [13 ]J. Blumenkamp, A. Baude, T. Laue ロボットサッカーにおけるセマンティックセグメンテーションのための実画像翻訳と教師なしシムとの現実のギャップを埋める」 略称はCoRR。
0.78
abs/1911.01529, 2019. 背番号1911.01529、2019。 0.39
[14] R. Traor´e, H. Caselles-Dupr´e, T. Lesort, T. Sun, N. D. Rodr´ıguez, and D. Filliat, “Continual reinforcement learning deployed in real-life using policy distillation and sim2real transfer,” CoRR, vol. 14] r. traor ́e, h. caselles-dupr ́e, t. lesort, t. sun, n. d. rodr ́ıguez, d. filliat, “ポリシー蒸留とsim2real transferを使って現実にデプロイされた継続的強化学習”。 0.65
abs/1906.04452, 2019. abs/1906.04452、2019年。 0.47
[15] O. Pedersen, E. Misimi, and F. Chaumette, “Grasping unknown objects by coupling deep reinforcement learning, generative adversarial networks, and visual servoing,” in 2020 IEEE International Conference on Robotics and Automation, ICRA 2020, Paris, France, May 31 - August 31, 2020. O. Pedersen, E. Misimi, F. Chaumette, “Grasping unknown objects by coupling deep reinforcement learning, Generative adversarial network, and visual servoing” in 2020 IEEE International Conference on Robotics and Automation, ICRA 2020, ICRA 2020, Paris, Paris, France, 2020年5月31日-8月31日。
訳抜け防止モード: [15 ] O. Pedersen, E. Misimi, F. Chaumette 「深層強化学習、生成的敵ネットワーク、視覚サーボを結合して未知の物体を解析する」 IEEE International Conference on Robotics and Automation, ICRA 2020, フランス、パリ、2020年5月31日~8月31日。
0.76
IEEE, 2020, pp. 5655–5662. IEEE, 2020, pp. 5655-5662。 0.84
[16] K. Rao, C. Harris, A. Irpan, S. Levine, J. Ibarz, and M. Khansari, “Rl-cyclegan: Reinforcement learning aware simulation-to-real,” in 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition, CVPR 2020, Seattle, WA, USA, June 13-19, 2020. [16] k. rao, c. harris, a. irpan, s. levine, j. ibarz, m. khansari, “rl-cyclegan: reinforcement learning aware simulation-to-real”, 2020 ieee/cvf conference on computer vision and pattern recognition, cvpr 2020, seattle, wa, usa, june 13-19, 2020” (英語) 0.39
Computer Vision Foundation / IEEE, 2020, pp. 11 154–11 163. Computer Vision Foundation / IEEE, 2020, pp. 11 154–11 163。 0.46
[17] D. Ho, K. Rao, Z. Xu, E. Jang, M. Khansari, and Y. Bai, “Retinagan: An object-aware approach to sim-to-real transfer,” in IEEE International Conference on Robotics and Automation, ICRA 2021, Xi’an, China, May 30 - June 5, 2021. 17] d. ho, k. rao, z. xu, e. jang, m. khansari, y. bai, “retinagan: an object-aware approach to sim-to-real transfer” in ieee international conference on robotics and automation, icra 2021, xi’an, china, may 30– june 5, 2021” (英語)
訳抜け防止モード: 【17】d.ho,k.rao,z.xu e. jang, m. khansari, y. bai, "retinagan : an object- aware approach to sim - to - real transfer" ieee international conference on robotics and automation, icra 2021 参加報告 中国西安、2021年5月30日~6月5日。
0.76
IEEE, 2021, pp. 10 920–10 926. IEEE, 2021, pp. 10 920–10 926。 0.48
[18] K. Bousmalis, A. Irpan, P. Wohlhart, Y. Bai, M. Kelcey, M. Kalakrishnan, L. Downs, J. Ibarz, P. Pastor, K. Konolige, S. Levine, and V. Vanhoucke, “Using simulation and domain adaptation to improve efficiency of deep robotic grasping,” in 2018 IEEE International Conference on Robotics and Automation, ICRA 2018, Brisbane, Australia, May 21-25, 2018. K. Bousmalis氏、A. Irpan氏、P. Wohlhart氏、Y. Bai氏、M. Kelcey氏、M. Kalakrishnan氏、L. Downs氏、J. Ibarz氏、P. Pastor氏、K. Konolige氏、S. Levine氏、V. Vanhoucke氏、2018年、IEEE International Conference on Robotics and Automation, ICRA 2018, Brisbane, Australia, May 21-25, 2018。
訳抜け防止モード: [18 ] K. Bousmalis, A. Irpan, P. Wohlhart, Y. Bai, M. Kelcey, M. Kalakrishnan, L. Downs J. Ibarz, P. Pastor, K. Konolige, S. Levine V. Vanhoucke氏は次のように述べている。 深層ロボットの把握の効率を向上する。 2018年IEEE International Conference on Robotics and Automation, ICRA 2018, オーストラリア、ブリスベン、2018年5月21日~25日。
0.83
IEEE, 2018, pp. 4243–4250. IEEE, 2018, pp. 4243-4250。 0.84
[19] I. J. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, A. C. Courville, and Y. Bengio, “Generative adversarial nets,” in Advances in Neural Information Processing Systems 27: Annual Conference on Neural Information Processing Systems 2014, December 8-13 2014, Montreal, Quebec, Canada, Z. Ghahramani, M. Welling, C. Cortes, N. D. Lawrence, and K. Q. Weinberger, Eds. 19] i. j. goodfellow, j. pouget-abadie, m. mirza, b. xu, d. warde-farley, s. ozair, a. c. courville, y. bengio, “generative adversarial nets” in advances in neural information processing systems 27: annual conference on neural information processing systems 2014年12月8~13日 モントリオール,ケベック,カナダ, z. ghahramani, m. welling, c. cortes, n. d. lawrence, and k. q. weinberger, eds. 2014年12月8~13日
訳抜け防止モード: [19 ]I. J. Goodfellow, J. Pouget - Abadie, M. Mirza, B. Xu, D. Warde - Farley, S. Ozair, A. C. Courville Y. Bengio, “Generative adversarial nets, ” in Advances in Neural Information Processing Systems 27 : Annual Conference on Neural Information Processing Systems 2014 2014年12月8日~13日、カナダのケベック州モントリオール。 Z. Ghahramani, M. Welling, C. Cortes, N. D. Lawrence そしてK. Q. Weinberger, Eds
0.87
, 2014, pp. 2672– 2680. 2014年、p.2672-2680。 0.67
[20] J. Tobin, R. Fong, A. Ray, J. Schneider, W. Zaremba, and P. Abbeel, “Domain randomization for transferring deep neural networks from simulation to the real world,” in 2017 IEEE/RSJ International Conference on Intelligent Robots and Systems, IROS 2017, Vancouver, BC, Canada, September 24-28, 2017. J. Tobin, R. Fong, A. Ray, J. Schneider, W. Zaremba, P. Abbeel, “Domain randomization for transfer moving Deep Neural Network from simulation from the real world” in 2017 IEEE/RSJ International Conference on Intelligent Robots and Systems, IROS 2017, Vancouver, BC, Canada, September 24-28, 2017
訳抜け防止モード: 20 ] j. tobin, r. fong, a. ray. j. schneider, w. zaremba, p. abbeel, “ドメインのランダム化” シミュレーションから現実世界へのディープニューラルネットワークの転送。 2017年、ieee / rsj international conference on intelligent robots and systems。 iros 2017、バンクーバー、bc、カナダ、2017年9月24日~28日。
0.80
IEEE, 2017, pp. 23–30. 同上、2017年、p.23-30。 0.49
[21] OpenAI, I. Akkaya, M. Andrychowicz, M. Chociej, M. Litwin, B. McGrew, A. Petron, A. Paino, M. Plappert, G. Powell, R. Ribas, J. Schneider, N. Tezak, J. Tworek, P. Welinder, L. Weng, Q. Yuan, W. Zaremba, and L. Zhang, “Solving rubik’s cube with a robot hand,” CoRR, vol. OpenAI, I. Akkaya, M. Andrychowicz, M. Chociej, M. Litwin, B. McGrew, A. Petron, A. Paino, M. Plappert, G. Powell, R. Ribas, J. Schneider, N. Tezak, J. Tworek, P. Welinder, L. Weng, Q. Yuan, W. Zaremba, L. Zhang, “Solving rubik’s Cube with a robot hand” CoRR, vol.
訳抜け防止モード: [21]OpenAI, I. Akkaya, M. Andrychowicz, M. Chociej, M. Litwin, B. McGrew, A. Petron, A. Paino, M. Plappert G. Powell, R. Ribas, J. Schneider, N. Tezak J. Tworek, P. Welinder, L. Weng, Q. Yuan, W. Zaremba, L. Zhang ロボットの手でルービックキューブを解く、とCoRR,volは言う。
0.96
abs/1910.07113, 2019. 背番号1910.07113、2019。 0.39
[22] A. Juliani, A. Khalifa, V. Berges, J. Harper, E. Teng, H. Henry, A. Crespi, J. Togelius, and D. Lange, “Obstacle tower: A generalization challenge in vision, control, and planning,” in Proceedings of the 28th International Joint Conference on Artificial Intelligence, IJCAI 2019, 2019, pp. 2684–2691. A. Juliani, A. Khalifa, V. Berges, J. Harper, E. Teng, H. Henry, A. Crespi, J. Togelius, D. Lange, “Obstacle Tower: A generalization Challenge in vision, control, and Planning” in Proceedings of the 28th International Joint Conference on Artificial Intelligence, IJCAI 2019, 2019, pp. 2684–2691。
訳抜け防止モード: 22 ] a. juliani, a. khalifa, v. berges, j. harper, e. teng, h. henry, a. crespi. j. togelius, d. lange, and d. lange 「障害物タワー : ビジョン、制御、計画における一般化チャレンジ」 第28回人工知能国際合同会議の開催にあたって ijcai 2019年、2019年、p.2684-2691。
0.68
[23] S. Mish, “Rocket league notes,” 2019, available at https://samuelpmish. S.Mish, “Rocket League Note” 2019は、https://samuelpmish. comで入手できる。 0.74
github.io/notes/Rock etLeague/ retrieved February 28, 2022. github.io/notes/Rock etLeague/ 2022年2月28日閲覧。 0.49
is at [24] Timo Huth, “Dodges explained. power & more - rocket science #14,” 2018, available at https://www.youtube. com/watch? は に Timo Huth, “Dodges explained. power & more - rocket science #14” 2018, available at https://www.youtube. com/watch?
訳抜け防止モード: は に [24 ] Timo Huth, “Dodges explained . power & more - rocket science # 14” と書いている。 2018年、https://www.youtube. com/watch ?
0.76
v=pX950bhGhJE retrieved February 28, 2022. v=pX950bhGhJE 2022年2月28日。 0.61
rocket league’ detailed,” 2018, available at https://www.gdcvault .com/play/1024972/ It-IS-Rocket-Science -The retrieved February 28, 2022. ロケット https://www.gdcvault .com/play/1024972/ It-IS-Rocket-Science -2022年2月28日閲覧。 0.65
[25] J. Cone, “It 25]j.コーン『it』 0.62
the physics of physics (複数形 physicss) 0.47
science! ’rocket 科学だ! ROCKET! 0.59
[26] Timo Huth, “Why are wheel hits so odd? - rocket science #10,” 2017, available at https://www.youtube. com/watch? なぜ車輪がそんなに奇妙なのか? - ロケット科学#10” 2017年、https://www.youtube. com/watch? 0.60
v=pTAVP00xwF4 retrieved February 28, 2022. v=ptavp00xwf4 2022年2月28日回収。 0.52
[27] Vehicle Physics Pro, “How simple suspensions work,” available at https: //vehiclephysics.com /advanced/how-suspen sions-work/ retrieved February 28, 2022. [27] vehicle physics pro, “how simple suspensions work” at https: //vehiclephysics.com /advanced/how-suspen sions-work/ retrieved february 28, 2022年2月28日閲覧。
訳抜け防止モード: 自動車物理プロ「サスペンションの簡単な動作」 https : //vehiclephysics.com / advanced / how - suspensions - 作業/回収 2022年2月28日。
0.67
[28] Rocket Sledge, “How demos actually work in rocket 2020, how-demos-actually-w ork-in-rocket-league /#:∼:text=Demos% 20were%20not%20inten ded%20to,broken%20fo r%20a%20long% 20time retrieved February 28, 2022. Rocket Sledge, “How demos actually in rocket 2020, how-demos-actually-w ork-in-rocket-league /#::text=Demos% 20were%20not%20inten ded%20to,broken%20fo r%20a%20long% 20time retrieved 2022年2月28日閲覧。
訳抜け防止モード: デモは2020年のロケットでどのように動作するのか? デモ - 実際に - 作業 - ロケット - リーグ/#::text = Demos% 20were%20not%20inten ded%20to, 2月28日、2022年に回収された20時間、20for%20a%20long%。
0.59
league,” https://www.gamersrd y.com/blog/2020/06/1 1/ league” https://www.gamersrd y.com/blog/2020/06/1 1/ 0.19
available [29] M. Pleines, F. Zimmer, and V. Berges, “Action spaces in deep reinforcement learning to mimic human input devices,” in IEEE Conference on Games, CoG 2019, London, United Kingdom, August 20-23, 2019. 利用可能 29] m. pleines, f. zimmer, v. berges, “action spaces in deep reinforcement learning to mimic human input devices” in ieee conference on games, cog 2019, london, united kingdom, august 20-23, 2019” (英語)
訳抜け防止モード: 利用可能 [29 ]M.Pleines, F. Zimmer, V. Berges 『人間入力装置を模倣する深層強化学習における行動空間』 IEEE Conference on Games, CoG 2019, London, UK August 20 - 23 , 2019 .
0.69
IEEE, 2019, pp. 1–8. IEEE, 2019, pp. 1-8。 0.87
[30] J. Schulman, P. Moritz, S. Levine, M. I. Jordan, and P. Abbeel, “Highdimensional continuous control using generalized advantage estimation,” in 4th International Conference on Learning Representations, ICLR 2016, San Juan, Puerto Rico, May 2-4, 2016, Conference Track Proceedings, Y. Bengio and Y. LeCun, Eds. J. Schulman, P. Moritz, S. Levine, M. I. Jordan, P. Abbeel, “highdimensional continuous control using generalized advantage estimation” in 4th International Conference on Learning Representations, ICLR 2016, San Juan, Puerto Rico, May 2-4, 2016 Conference Track Proceedings, Y. Bengio and Y. LeCun, Eds。
訳抜け防止モード: J. Schulman, P. Moritz, S. Levine, M.I.ジョーダンとP. Abbeelは「一般化された優位推定を用いた高次元連続制御」と述べている。 第4回国際学習表現会議報告 ICLR 2016 サンフアン, プエルトリコ 2016年5月2日から4日にかけて、Y. Bengio、Y. LeCun、Eds。
0.69
, 2016. [31] R. Agarwal, M. Schwarzer, P. S. Castro, A. Courville, and M. G. Bellemare, “Deep reinforcement learning at the edge of the statistical precipice,” in Thirty-Fifth Conference on Neural Information Processing Systems, 2021. , 2016. R. Agarwal, M. Schwarzer, P. S. Castro, A. Courville, M. G. Bellemare, “Deep reinforcement learning at the edge of the statistics precipice” in Thirth-Fifth Conference on Neural Information Processing Systems, 2021。
訳抜け防止モード: , 2016. [31 ] R. Agarwal, M. Schwarzer, P. S. Castro A.Courville と M.G. Bellemare は,「統計的沈み込みの端で深い強化学習をする」と述べている。 ニューラル情報処理システムに関する第5回国際会議
0.58
[32] Y. Bengio, J. Louradour, R. Collobert, and J. Weston, “Curriculum learning,” in Proceedings of the 26th Annual International Conference on Machine Learning, ICML 2009, Montreal, Quebec, Canada, June 1418, 2009, ser. 32] y. bengio, j. louradour, r. collobert, j. weston, "curriculum learning" 第26回年次機械学習国際会議, icml 2009 モントリオール, ケベック, カナダ, 2009年6月。 0.61
ACM International Conference Proceeding Series, A. P. Danyluk, L. Bottou, and M. L. Littman, Eds. ACM International Conference Proceeding Series, A. P. Danyluk, L. Bottou, M. L. Littman, Eds
訳抜け防止モード: ACM国際会議, A. P. Danyluk, L. Bottou そして、M・L・リットマン、エド。
0.81
, vol. 382. ヴォル。 382. 0.36
ACM, 2009, pp. 41–48. ACM、2009年、p.41-48。 0.62
[33] V. Gullapalli and A. Barto, “Shaping as a method for accelerating reinforcement learning,” in Proceedings of the 1992 IEEE International Symposium on Intelligent Control, 1992, pp. 554–559. [33] v. gullapalli氏とa. barto氏は、1992年のieee international symposium on intelligent control, 1992, pp. 554–559で、“強化学習を加速する方法として形作る”と書いている。
訳抜け防止モード: [33 ] V. Gullapalli と A. Barto は,「強化学習を加速させる方法としての形成」と評した。 In Proceedings of the 1992 IEEE International Symposium on Intelligent Control, 1992 554-559頁。
0.85
                 ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。