論文の概要: Temporal Induced Self-Play for Stochastic Bayesian Games
- arxiv url: http://arxiv.org/abs/2108.09444v1
- Date: Sat, 21 Aug 2021 05:36:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-24 15:21:02.483400
- Title: Temporal Induced Self-Play for Stochastic Bayesian Games
- Title(参考訳): 確率ベイズゲームにおける時間的自己プレイ
- Authors: Weizhe Chen, Zihan Zhou, Yi Wu, Fei Fang
- Abstract要約: 我々は,任意の意思決定点から適切なパフォーマンスの戦略を見つけるために,TISP(Temporal-induced Self-Play)を提案する。
TISPは、信念空間表現、後方誘導、ポリシー学習、および非パラメトリック近似を使用する。
TISPに基づくアルゴリズムは、有限地平線を持つゼロサム片面ゲームにおいて、近似されたパーフェクトベイズ平衡を見つけることができることを証明している。
- 参考スコア(独自算出の注目度): 32.88124137877018
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One practical requirement in solving dynamic games is to ensure that the
players play well from any decision point onward. To satisfy this requirement,
existing efforts focus on equilibrium refinement, but the scalability and
applicability of existing techniques are limited. In this paper, we propose
Temporal-Induced Self-Play (TISP), a novel reinforcement learning-based
framework to find strategies with decent performances from any decision point
onward. TISP uses belief-space representation, backward induction, policy
learning, and non-parametric approximation. Building upon TISP, we design a
policy-gradient-based algorithm TISP-PG. We prove that TISP-based algorithms
can find approximate Perfect Bayesian Equilibrium in zero-sum one-sided
stochastic Bayesian games with finite horizon. We test TISP-based algorithms in
various games, including finitely repeated security games and a grid-world
game. The results show that TISP-PG is more scalable than existing mathematical
programming-based methods and significantly outperforms other learning-based
methods.
- Abstract(参考訳): ダイナミックゲームを解くための実践的な要件は、プレイヤーがいかなる決定点からでもうまくプレーすることを保証することである。
この要件を満たすため、既存の取り組みは均衡改善に重点を置いているが、既存の技術のスケーラビリティと適用性は限られている。
本稿では,任意の意思決定点から適切なパフォーマンスの戦略を見出すための新しい強化学習ベースフレームワークtispを提案する。
TISPは、信念空間表現、後方誘導、ポリシー学習、および非パラメトリック近似を使用する。
TISPを基盤として,政策段階のアルゴリズムであるTISP-PGを設計する。
有限地平線を持つゼロサム一辺確率ベイズゲームにおいて、tispベースのアルゴリズムが近似完全ベイズ均衡を見つけることが証明される。
セキュリティゲームやグリッドワールドゲームなど,TISPベースのアルゴリズムを多種多様なゲームでテストする。
その結果,TISP-PGは既存の数学的プログラミング手法よりも拡張性が高く,他の学習手法よりも優れていた。
関連論文リスト
- TSI-Bench: Benchmarking Time Series Imputation [52.27004336123575]
TSI-Benchは、ディープラーニング技術を利用した時系列計算のための総合ベンチマークスイートである。
TSI-Benchパイプラインは、実験的な設定を標準化し、計算アルゴリズムの公平な評価を可能にする。
TSI-Benchは、計算目的のために時系列予測アルゴリズムを調整するための体系的なパラダイムを革新的に提供する。
論文 参考訳(メタデータ) (2024-06-18T16:07:33Z) - A unified stochastic approximation framework for learning in games [82.74514886461257]
ゲームにおける学習の長期的挙動(連続的・有限的)を解析するためのフレキシブルな近似フレームワークを開発する。
提案する分析テンプレートには,勾配に基づく手法,有限ゲームでの学習のための指数的/乗算的重み付け,楽観的および帯域的変異など,幅広い一般的な学習アルゴリズムが組み込まれている。
論文 参考訳(メタデータ) (2022-06-08T14:30:38Z) - Scalable Deep Reinforcement Learning Algorithms for Mean Field Games [60.550128966505625]
平均フィールドゲーム (MFGs) は、非常に多くの戦略エージェントを持つゲームを効率的に近似するために導入された。
近年,モデルフリー強化学習(RL)手法を用いて,MFGの学習均衡の課題が活発化している。
MFGを解くための既存のアルゴリズムは戦略や$q$-valuesのような近似量の混合を必要とする。
本稿では,この欠点に対処する2つの手法を提案する。まず,歴史データの蒸留からニューラルネットワークへの混合戦略を学習し,Factitious Playアルゴリズムに適用する。
2つ目はオンライン混合方式である。
論文 参考訳(メタデータ) (2022-03-22T18:10:32Z) - Scalable Online Planning via Reinforcement Learning Fine-Tuning [25.27878823988181]
タブラル探索法は,探索空間のサイズに匹敵しない。
我々はこれを、強化学習によるポリシーニューラルネットワークのオンラインモデルに基づく微調整に置き換える。
特に,検索アルゴリズムを用いて,ハナビを自己再生する手法を提案する。
論文 参考訳(メタデータ) (2021-09-30T17:59:11Z) - Emphatic Algorithms for Deep Reinforcement Learning [43.17171330951343]
時間差学習アルゴリズムは関数近似とオフポリシーサンプリングを組み合わせると不安定になる。
強調時間差(ETD($lambda$)アルゴリズム)は、TD($lambda$)更新を適切に重み付けすることで線形の場合の収束を保証する。
本稿では,ETD($lambda$)をフォワードビュー・マルチステップ・リターンを用いた一般的な深層強化学習アルゴリズムに適用することにより,性能が低下することを示す。
論文 参考訳(メタデータ) (2021-06-21T12:11:39Z) - Optimal control of robust team stochastic games [5.425935258756356]
そこで我々は,選手が頑健な最適化アプローチを用いて意思決定を行う「ロバスト」チームゲームのモデルを提案する。
ガウス・シーデル修正政策反復の形で学習アルゴリズムを開発し,その収束性を証明する。
アルゴリズムの有効性を示す数値シミュレーションがいくつか提案されている。
論文 参考訳(メタデータ) (2021-05-16T10:42:09Z) - Model-Free Online Learning in Unknown Sequential Decision Making
Problems and Games [114.90723492840499]
大規模な2人プレイのゼロサム情報ゲームでは、反事実後悔最小化(cfr)の現代的な拡張がnash均衡を計算するための実用的な技術である。
私たちは、戦略空間がエージェントに知られていないオンライン学習設定を形式化します。
エージェントが逆の環境に直面しても、その設定に高い確率で$O(T3/4)$後悔を達成する効率的なアルゴリズムを提供します。
論文 参考訳(メタデータ) (2021-03-08T04:03:24Z) - Evolving Reinforcement Learning Algorithms [186.62294652057062]
メタラーニング強化学習アルゴリズムの手法を提案する。
学習アルゴリズムはドメインに依存しないため、トレーニング中に見えない新しい環境に一般化することができる。
従来の制御タスク、gridworld型タスク、atariゲームよりも優れた一般化性能を得る2つの学習アルゴリズムに注目した。
論文 参考訳(メタデータ) (2021-01-08T18:55:07Z) - Reinforcement Learning for Mean Field Games with Strategic
Complementarities [10.281006908092932]
我々は、Trembling-Hand-Perfect MFE(T-MFE)と呼ぶ平衡概念を自然に洗練する。
本稿では,T-MFEを既知のモデルで計算する簡単なアルゴリズムを提案する。
また、T-MFE学習のためのモデルフリーおよびモデルベースアプローチを導入し、両方のアルゴリズムの複雑なサンプルを提供する。
論文 参考訳(メタデータ) (2020-06-21T00:31:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。