論文の概要: Transfer of Fully Convolutional Policy-Value Networks Between Games and
Game Variants
- arxiv url: http://arxiv.org/abs/2102.12375v1
- Date: Wed, 24 Feb 2021 15:59:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-25 13:28:12.450781
- Title: Transfer of Fully Convolutional Policy-Value Networks Between Games and
Game Variants
- Title(参考訳): ゲームとゲーム間の完全畳み込みポリシー値ネットワークの転送
- Authors: Dennis J.N.J. Soemers, Vegard Mella, Eric Piette, Matthew Stephenson,
Cameron Browne, Olivier Teytaud
- Abstract要約: AlphaZeroのようなセルフプレイトレーニングセットアップを使用して、ボードゲームと異なるゲーム間の転送を容易にします。
Ludiiの大規模なゲームライブラリとゲームバリアントを使用して、広範なトランスファー学習評価を行っています。
- 参考スコア(独自算出の注目度): 8.93579202365059
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we use fully convolutional architectures in AlphaZero-like
self-play training setups to facilitate transfer between variants of board
games as well as distinct games. We explore how to transfer trained parameters
of these architectures based on shared semantics of channels in the state and
action representations of the Ludii general game system. We use Ludii's large
library of games and game variants for extensive transfer learning evaluations,
in zero-shot transfer experiments as well as experiments with additional
fine-tuning time.
- Abstract(参考訳): 本稿では,alphazeroライクな自己プレイトレーニングセットアップにおける完全畳み込みアーキテクチャを用いて,ボードゲームと異なるゲーム間の転送を容易にする。
ludii汎用ゲームシステムの状態におけるチャネルの共有セマンティクスとアクション表現に基づいて、これらのアーキテクチャのトレーニングされたパラメータを転送する方法を検討する。
Ludiiの大規模なゲームライブラリとゲームバリエーションを使用して、幅広い転送学習評価、ゼロショット転送実験、および追加の微調整時間の実験に使用します。
関連論文リスト
- Neural Population Learning beyond Symmetric Zero-sum Games [52.20454809055356]
我々はNuPL-JPSROという,スキルの伝達学習の恩恵を受けるニューラル集団学習アルゴリズムを導入し,ゲームの粗相関(CCE)に収束する。
本研究は, 均衡収束型集団学習を大規模かつ汎用的に実施可能であることを示す。
論文 参考訳(メタデータ) (2024-01-10T12:56:24Z) - Self-Supervised Behavior Cloned Transformers are Path Crawlers for Text
Games [2.2722155331290517]
仮想環境におけるマルチステップ推論のためのベンチマークとして,テキストゲームのための自己教師型行動クローニングトランスフォーマーを提案する。
本手法は,ゲーム内の報酬につながる軌道を探索することで,トレーニングデータを自動生成する。
提案手法は,3つのベンチマークテキストゲームにおいて,教師付きシステムの約90%のパフォーマンスを達成し,一貫した一般化可能なトレーニングデータを明らかにする。
論文 参考訳(メタデータ) (2023-12-07T19:39:11Z) - On the Convergence of No-Regret Learning Dynamics in Time-Varying Games [89.96815099996132]
時間変化ゲームにおける楽観的勾配降下(OGD)の収束を特徴付ける。
我々のフレームワークは、ゼロサムゲームにおけるOGDの平衡ギャップに対して鋭い収束境界をもたらす。
また,静的ゲームにおける動的後悔の保証に関する新たな洞察も提供する。
論文 参考訳(メタデータ) (2023-01-26T17:25:45Z) - Probing Transfer in Deep Reinforcement Learning without Task Engineering [26.637254541454773]
深部強化学習エージェントのための異種変換ベンチマークとして,Atari 2600コンソールがサポートするオリジナルゲームキュリキュラの評価を行った。
ゲームデザイナーは、Space Invaders、Breakout、Freewayといったゲームの基本バージョンにいくつかの個別の修正を加えてキュリキュラを作成した。
基本ゲームからそれらのバリエーションへのゼロショット転送は可能であるが、性能のばらつきは要因間の相互作用によって大きく説明される。
論文 参考訳(メタデータ) (2022-10-22T13:40:12Z) - Multi-Game Decision Transformers [49.257185338595434]
そこで本研究では,1つのトランスフォーマーモデルを用いて,最大46個のAtariゲーム群を,人間に近いパフォーマンスで同時にプレイ可能であることを示す。
オンラインやオフラインのRL手法や行動クローンなど,マルチゲーム設定におけるいくつかのアプローチを比較した。
マルチゲーム決定変換モデルは、最高のスケーラビリティとパフォーマンスを提供します。
論文 参考訳(メタデータ) (2022-05-30T16:55:38Z) - Improving Sample Efficiency of Value Based Models Using Attention and
Vision Transformers [52.30336730712544]
性能を犠牲にすることなくサンプル効率を向上させることを目的とした深層強化学習アーキテクチャを提案する。
状態表現の特徴マップ上の自己注意機構を変換器を用いて学習する視覚的注意モデルを提案する。
我々は,このアーキテクチャがいくつかのAtari環境におけるサンプルの複雑さを向上すると同時に,いくつかのゲームにおいて優れたパフォーマンスを実現することを実証的に実証した。
論文 参考訳(メタデータ) (2022-02-01T19:03:03Z) - General Game Heuristic Prediction Based on Ludeme Descriptions [8.344476599818828]
本稿では,ルディイ一般ゲームにおけるゲーム用汎用ゲームの性能について検討する。
我々は,各ゲーム記述ファイルに基づいて,これらのシステムの性能を予測するために,複数の回帰学習モデルを訓練する。
論文 参考訳(メタデータ) (2021-05-26T21:17:47Z) - Combining Off and On-Policy Training in Model-Based Reinforcement
Learning [77.34726150561087]
MuZeroのシミュレートゲームから得られたデータを用いて、オフポリシターゲットの取得方法を提案する。
以上の結果から,これらの目標がトレーニングプロセスのスピードアップと,より高速な収束とより高い報酬につながることが示唆された。
論文 参考訳(メタデータ) (2021-02-24T10:47:26Z) - Complex Momentum for Learning in Games [42.081050296353574]
我々は、微分可能なゲームにおいて学習する運動量を伴う勾配降下を複素数値運動量を持つように一般化する。
我々は、複雑な値の運動量によってゲーム内の収束性が改善できることを実証する。
我々はまた、CIFAR-10のより良いスコアにBigGANを訓練するために使用する複素値アダム変種への実用的な一般化を示す。
論文 参考訳(メタデータ) (2021-02-16T19:55:27Z) - Deep Learning for General Game Playing with Ludii and Polygames [8.752301343910775]
モンテカルロ木探索とディープニューラルネットワークの組み合わせは、多くのボードゲームにおける自動ゲームプレイのための最先端の結果を生み出している。
本論文では,ポリゲームズがルディイを通じて実施・運営されるゲームのモデルをトレーニングし,評価することを可能にする,ルディイとポリゲームズの間の橋渡しの実装について述べる。
論文 参考訳(メタデータ) (2021-01-23T19:08:33Z) - Deep Policy Networks for NPC Behaviors that Adapt to Changing Design
Parameters in Roguelike Games [137.86426963572214]
例えばRoguelikesのようなターンベースの戦略ゲームは、Deep Reinforcement Learning(DRL)にユニークな課題を提示する。
複雑なカテゴリ状態空間をより適切に処理し、設計決定によって強制的に再訓練する必要性を緩和する2つのネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-12-07T08:47:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。