論文の概要: Towards Modern Card Games with Large-Scale Action Spaces Through Action
Representation
- arxiv url: http://arxiv.org/abs/2206.12700v1
- Date: Sat, 25 Jun 2022 17:22:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-03 03:51:40.999112
- Title: Towards Modern Card Games with Large-Scale Action Spaces Through Action
Representation
- Title(参考訳): アクション表現による大規模アクション空間を持つカードゲームへの展開
- Authors: Zhiyuan Yao, Tianyu Shi, Site Li, Yiting Xie, Yuanyuan Qin, Xiongjie
Xie, Huan Lu and Yan Zhang
- Abstract要約: 本稿では,アクション表現とゲーム戦略を学習するためのハイブリッドRLフレームワークを提案する。
提案手法は,動作表現を用いて決定される固定サイズの集合における動作を評価する。
- 参考スコア(独自算出の注目度): 6.186434111699028
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Axie infinity is a complicated card game with a huge-scale action space. This
makes it difficult to solve this challenge using generic Reinforcement Learning
(RL) algorithms. We propose a hybrid RL framework to learn action
representations and game strategies. To avoid evaluating every action in the
large feasible action set, our method evaluates actions in a fixed-size set
which is determined using action representations. We compare the performance of
our method with the other two baseline methods in terms of their sample
efficiency and the winning rates of the trained models. We empirically show
that our method achieves an overall best winning rate and the best sample
efficiency among the three methods.
- Abstract(参考訳): Axie Infinityは、巨大なアクション空間を持つ複雑なカードゲームである。
これにより、汎用強化学習(RL)アルゴリズムを用いてこの問題を解決するのが難しくなる。
アクション表現とゲーム戦略を学習するためのハイブリッドRLフレームワークを提案する。
大規模実行可能アクションセットにおけるすべてのアクションを評価するのを避けるため、本手法では、アクション表現を用いて決定される固定サイズのセットにおけるアクションを評価する。
本手法の性能を他の2つのベースライン法と比較し,そのサンプル効率とトレーニングモデルの勝利率について検討した。
実験の結果,本手法は3つの手法の総合的勝利率と最良サンプル効率が得られた。
関連論文リスト
- ApproxED: Approximate exploitability descent via learned best responses [61.17702187957206]
連続的なアクションセットを持つゲームの近似的ナッシュ均衡を求める問題について検討する。
本稿では,戦略プロファイルに対するエクスプロイラビリティの近似を最小化する2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-01-20T23:55:30Z) - Reinforcement Learning With Sparse-Executing Actions via Sparsity Regularization [15.945378631406024]
強化学習(RL)は、具体的制御、自律運転、金融取引といった意思決定タスクにおいて、素晴らしいパフォーマンスを示している。
多くの意思決定タスクでは、エージェントは限られた予算の下でアクションを実行するという問題に遭遇する。
本稿では,行動空間における特定の行動が限られた時間しか実行できないスパース行動マルコフ決定プロセス(SA-MDP)としてこの問題を定式化する。
本稿では,ポリシー最適化アルゴリズムであるAction Sparsity Regularization (ASRE)を提案する。
論文 参考訳(メタデータ) (2021-05-18T16:50:42Z) - Portfolio Search and Optimization for General Strategy Game-Playing [58.896302717975445]
ローリングホライズン進化アルゴリズムに基づく最適化とアクション選択のための新しいアルゴリズムを提案する。
エージェントのパラメータとポートフォリオセットの最適化について,N-tuple Bandit Evolutionary Algorithmを用いて検討する。
エージェントの性能分析により,提案手法はすべてのゲームモードによく一般化し,他のポートフォリオ手法よりも優れることが示された。
論文 参考訳(メタデータ) (2021-04-21T09:28:28Z) - Learning Salient Boundary Feature for Anchor-free Temporal Action
Localization [81.55295042558409]
時間的行動のローカライゼーションはビデオ理解において重要な課題である。
純粋にアンカーフリーな時間的定位法を初めて提案する。
このモデルには,(i)エンドツーエンドのトレーニング可能な基本予測器,(ii)サリエンシベースのリファインメントモジュール,(iii)いくつかの一貫性制約が含まれている。
論文 参考訳(メタデータ) (2021-03-24T12:28:32Z) - Augmented Lagrangian Adversarial Attacks [24.808284926109415]
最小摂動対向例を生成するためのホワイトボックス攻撃アルゴリズムを提案する。
性能に決定的な影響を及ぼすアルゴリズム修正もいくつか導入しています。
我々の攻撃は、ペナルティ手法の一般化と距離制約アルゴリズムの計算効率を享受する。
論文 参考訳(メタデータ) (2020-11-24T02:51:08Z) - Forgetful Experience Replay in Hierarchical Reinforcement Learning from
Demonstrations [55.41644538483948]
本稿では,複雑な視覚環境において,エージェントが低品質な実演を行えるようにするためのアプローチの組み合わせを提案する。
提案した目標指向のリプレイバッファ構築により,エージェントはデモにおいて複雑な階層的タスクを解くためのサブゴールを自動的に強調することができる。
私たちのアルゴリズムに基づくこのソリューションは、有名なMineRLコンペティションのすべてのソリューションを破り、エージェントがMinecraft環境でダイヤモンドをマイニングすることを可能にする。
論文 参考訳(メタデータ) (2020-06-17T15:38:40Z) - Learning to Play No-Press Diplomacy with Best Response Policy Iteration [31.367850729299665]
7人プレイのボードゲームであるDiplomacyに深層強化学習手法を適用した。
我々は, エージェントが従来の状態を確実に上回り, ゲーム理論平衡解析により, 新しいプロセスが一貫した改善をもたらすことを示す。
論文 参考訳(メタデータ) (2020-06-08T14:33:31Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z) - Delving into 3D Action Anticipation from Streaming Videos [99.0155538452263]
アクション予測は、部分的な観察でアクションを認識することを目的としている。
本稿では,いくつかの相補的評価指標を導入し,フレームワイド動作分類に基づく基本モデルを提案する。
また,全動作表現とクラス非依存行動ラベルという2つの側面から補助情報を取り入れたマルチタスク学習戦略についても検討する。
論文 参考訳(メタデータ) (2019-06-15T10:30:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。