論文の概要: Learning to Play Sequential Games versus Unknown Opponents
- arxiv url: http://arxiv.org/abs/2007.05271v1
- Date: Fri, 10 Jul 2020 09:33:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-11 20:47:52.279685
- Title: Learning to Play Sequential Games versus Unknown Opponents
- Title(参考訳): 未知の対戦相手に対する連続試合の学習
- Authors: Pier Giuseppe Sessa, Ilija Bogunovic, Maryam Kamgarpour, Andreas
Krause
- Abstract要約: 学習者が最初にプレーするゲームと、選択した行動に反応する相手との連続的なゲームについて考察する。
対戦相手の対戦相手列と対戦する際,学習者に対して新しいアルゴリズムを提案する。
我々の結果には、相手の反応の正則性に依存するアルゴリズムの後悔の保証が含まれている。
- 参考スコア(独自算出の注目度): 93.8672371143881
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider a repeated sequential game between a learner, who plays first,
and an opponent who responds to the chosen action. We seek to design strategies
for the learner to successfully interact with the opponent. While most previous
approaches consider known opponent models, we focus on the setting in which the
opponent's model is unknown. To this end, we use kernel-based regularity
assumptions to capture and exploit the structure in the opponent's response. We
propose a novel algorithm for the learner when playing against an adversarial
sequence of opponents. The algorithm combines ideas from bilevel optimization
and online learning to effectively balance between exploration (learning about
the opponent's model) and exploitation (selecting highly rewarding actions for
the learner). Our results include algorithm's regret guarantees that depend on
the regularity of the opponent's response and scale sublinearly with the number
of game rounds. Moreover, we specialize our approach to repeated Stackelberg
games, and empirically demonstrate its effectiveness in a traffic routing and
wildlife conservation task
- Abstract(参考訳): まず,学習者と選択した行動に反応する相手との間で繰り返し行われる連続的なゲームについて考察する。
我々は,学習者が相手とうまく対話するための戦略を設計する。
従来のほとんどのアプローチでは、既知の相手モデルを考えるが、敵モデルが不明な設定に焦点を当てる。
この目的のために、カーネルベースの正則性仮定を用いて、相手の応答の構造を捕捉し、活用する。
対戦相手の対戦相手列と対戦する際の学習者に対する新しいアルゴリズムを提案する。
このアルゴリズムは、二段階最適化とオンライン学習のアイデアを組み合わせて、探索(相手のモデルについて学ぶ)と搾取(学習者に高い報酬を与える行動を選択する)を効果的にバランスさせる。
結果には,対戦相手の応答の正則性に依存するアルゴリズムの後悔保証や,ゲームラウンド数とサブリニアにスケールすることが含まれる。
さらに,stackelbergの繰り返しゲームへのアプローチを専門とし,交通経路と野生生物保全タスクにおけるその効果を実証的に実証する。
関連論文リスト
- In-Context Exploiter for Extensive-Form Games [38.24471816329584]
In-Context Exploiter (ICE) という新しい手法を導入し、ゲーム内の任意のプレイヤーとして動作し、コンテキスト内学習によって完全に対戦相手を適応的に活用できる単一モデルを訓練する。
我々のICEアルゴリズムは、多様な相手戦略の生成、強化学習アルゴリズムによる対話的履歴データの収集、そしてよく設計されたカリキュラム学習フレームワークにおけるトランスフォーマーベースのエージェントの訓練を含む。
論文 参考訳(メタデータ) (2024-08-10T14:59:09Z) - All by Myself: Learning Individualized Competitive Behaviour with a
Contrastive Reinforcement Learning optimization [57.615269148301515]
競争ゲームのシナリオでは、エージェントのセットは、彼らの目標を最大化し、敵の目標を同時に最小化する決定を学習する必要があります。
本稿では,競争ゲームの表現を学習し,特定の相手の戦略をどうマップするか,それらを破壊するかを学習する3つのニューラルネットワーク層からなる新しいモデルを提案する。
我々の実験は、オフライン、オンライン、競争特化モデル、特に同じ対戦相手と複数回対戦した場合に、我々のモデルがより良いパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2023-10-02T08:11:07Z) - No-Regret Learning in Time-Varying Zero-Sum Games [99.86860277006318]
固定ゼロサムゲームにおける繰り返しプレイからの学習は、ゲーム理論とオンライン学習における古典的な問題である。
提案手法は,3つの性能基準の下で,良好な保証を同時に享受できる1つのパラメータフリーアルゴリズムである。
本アルゴリズムは,ある特性を満たすブラックボックスベースラーナー群に対するメタアルゴリズムを用いた2層構造に基づく。
論文 参考訳(メタデータ) (2022-01-30T06:10:04Z) - Game Theory for Adversarial Attacks and Defenses [0.0]
敵攻撃は、データセットのサンプルに小さなが故意に最悪の摂動を適用することで、敵の入力を生成することができる。
いくつかの敵防衛技術は、モデルの安全性と堅牢性を改善し、攻撃を避けるために開発されている。
論文 参考訳(メタデータ) (2021-10-08T07:38:33Z) - L2E: Learning to Exploit Your Opponent [66.66334543946672]
本稿では,暗黙的対向モデリングのための新しい学習フレームワークを提案する。
L2Eは、トレーニング中に異なる相手との対話によって、相手を悪用する能力を取得する。
本稿では, 対戦相手を自動的に生成する新しい対戦相手戦略生成アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-18T14:27:59Z) - Learning in two-player games between transparent opponents [0.0]
2つの強化学習エージェントが互いにマトリックスゲームを繰り返すシナリオを考察する。
エージェントの意思決定は互いに透明であり、各エージェントはそれぞれのエージェントに対してどのように対戦するかを予測することができる。
その結果, 相互透明な意思決定と対人意識学習の組み合わせが, 単発受刑者のジレンマにおける相互協力に強く寄与していることが判明した。
論文 参考訳(メタデータ) (2020-12-04T15:41:07Z) - Enhanced Rolling Horizon Evolution Algorithm with Opponent Model
Learning: Results for the Fighting Game AI Competition [9.75720700239984]
本稿では,RHEA(Rolling Horizon Evolution Algorithm)と対向モデル学習を組み合わせた新しいアルゴリズムを提案する。
2019年の競争で上位5つのボットのうち、モンテカルロツリーサーチ(MCTS)を使用しないボットは、ポリシーグラディエントベースの対戦モデルによるボットのみである。
論文 参考訳(メタデータ) (2020-03-31T04:44:33Z) - Efficient exploration of zero-sum stochastic games [83.28949556413717]
ゲームプレイを通じて,ゲームの記述を明示せず,託宣のみにアクセス可能な,重要で一般的なゲーム解決環境について検討する。
限られたデュレーション学習フェーズにおいて、アルゴリズムは両方のプレイヤーのアクションを制御し、ゲームを学習し、それをうまくプレイする方法を学習する。
私たちのモチベーションは、クエリされた戦略プロファイルの支払いを評価するのにコストがかかる状況において、利用可能性の低い戦略を迅速に学習することにあります。
論文 参考訳(メタデータ) (2020-02-24T20:30:38Z) - Provable Self-Play Algorithms for Competitive Reinforcement Learning [48.12602400021397]
我々はマルコフゲームの設定の下で、競争力強化学習における自己プレイについて研究する。
自己再生アルゴリズムは、ゲームのT$ステップをプレイした後、後悔の$tildemathcalO(sqrtT)$を達成する。
また, 最悪の場合においても, 時間内に実行可能であることを保証し, 若干悪い後悔を招き, エクスプロイトスタイルのアルゴリズムも導入する。
論文 参考訳(メタデータ) (2020-02-10T18:44:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。