論文の概要: R2-B2: Recursive Reasoning-Based Bayesian Optimization for No-Regret
Learning in Games
- arxiv url: http://arxiv.org/abs/2006.16679v1
- Date: Tue, 30 Jun 2020 10:54:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 04:28:49.202628
- Title: R2-B2: Recursive Reasoning-Based Bayesian Optimization for No-Regret
Learning in Games
- Title(参考訳): r2-b2:ゲームにおける非回帰学習のための再帰的推論に基づくベイズ最適化
- Authors: Zhongxiang Dai, Yizhou Chen, Kian Hsiang Low, Patrick Jaillet,
Teck-Hua Ho
- Abstract要約: 我々はアルゴリズムをRecursive Reasoning-based BO (R2-B2) と呼ぶ。
我々のR2-B2は、異なるエージェントの支払い関数間の関係を制約しないという点で一般的である。
レベル2以上の推理により、我々のR2-B2エージェントは、他のエージェントよりも1つのレベルでより高速な収束を達成できることを示す。
- 参考スコア(独自算出の注目度): 29.258916489185726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a recursive reasoning formalism of Bayesian optimization
(BO) to model the reasoning process in the interactions between boundedly
rational, self-interested agents with unknown, complex, and costly-to-evaluate
payoff functions in repeated games, which we call Recursive Reasoning-Based BO
(R2-B2). Our R2-B2 algorithm is general in that it does not constrain the
relationship among the payoff functions of different agents and can thus be
applied to various types of games such as constant-sum, general-sum, and
common-payoff games. We prove that by reasoning at level 2 or more and at one
level higher than the other agents, our R2-B2 agent can achieve faster
asymptotic convergence to no regret than that without utilizing recursive
reasoning. We also propose a computationally cheaper variant of R2-B2 called
R2-B2-Lite at the expense of a weaker convergence guarantee. The performance
and generality of our R2-B2 algorithm are empirically demonstrated using
synthetic games, adversarial machine learning, and multi-agent reinforcement
learning.
- Abstract(参考訳): 本稿ではベイズ最適化(BO)の帰納的推論形式(Recursive reasoning formalism)について,未知の,複雑で費用がかかる,有理なエージェント間の相互作用における推論過程をモデル化し,再帰的推論に基づくBO(R2-B2)と呼ぶ。
我々のR2-B2アルゴリズムは、異なるエージェントのペイオフ関数間の関係を制約しないので、定数、一般サム、共通ペイオフゲームといった様々な種類のゲームに適用できる。
我々のR2-B2エージェントは, レベル2以上, レベル1以上で他のエージェントよりも高い推理を行うことで, 再帰的推論を使わずに, より早く漸近収束を達成できることを示した。
また、より弱い収束保証を犠牲にして、R2-B2-Liteと呼ばれる計算的に安価なR2-B2変種を提案する。
R2-B2アルゴリズムの性能と一般性は, 合成ゲーム, 対向機械学習, マルチエージェント強化学習を用いて実証的に検証した。
関連論文リスト
- Impact of Decentralized Learning on Player Utilities in Stackelberg Games [57.08270857260131]
多くの2エージェントシステムでは、各エージェントは別々に学習し、2つのエージェントの報酬は完全に一致しない。
分散学習を用いたStackelbergゲームとしてこれらのシステムをモデル化し、標準後悔ベンチマークが少なくとも1人のプレイヤーにとって最悪の線形後悔をもたらすことを示す。
我々は,これらのベンチマークに関して,両プレイヤーにとってほぼ最適な$O(T2/3)を後悔するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-02-29T23:38:28Z) - Global Nash Equilibrium in Non-convex Multi-player Game: Theory and
Algorithms [66.8634598612777]
ナッシュ均衡(NE)はマルチプレイヤーゲームにおいて全てのプレイヤーに受け入れられることを示す。
また、一般理論から一歩ずつ一方的に利益を得ることはできないことも示している。
論文 参考訳(メタデータ) (2023-01-19T11:36:50Z) - Learning in Stackelberg Games with Non-myopic Agents [60.927889817803745]
そこで本研究では,主役が非筋力的な長寿命エージェントと繰り返し対話するスタックルバーグゲームについて,エージェントの支払関数を知らずに検討する。
我々は、非ミオピックエージェントの存在下での学習を、ミオピックエージェントの存在下で堅牢な帯域最適化に還元する一般的なフレームワークを提供する。
論文 参考訳(メタデータ) (2022-08-19T15:49:30Z) - Provably Efficient Fictitious Play Policy Optimization for Zero-Sum
Markov Games with Structured Transitions [145.54544979467872]
本研究では,ゼロサムマルコフゲームに対して,構造的だが未知の遷移を伴う架空のプレイポリシー最適化アルゴリズムを提案し,解析する。
我々は、2年制の競争ゲームシナリオで、$K$のエピソードに続き、$widetildemathcalO(sqrtK)$ regret boundsを証明した。
提案アルゴリズムは,アッパー信頼境界(UCB)型最適化と,同時政策最適化の範囲内での架空のプレイの組み合わせを特徴とする。
論文 参考訳(メタデータ) (2022-07-25T18:29:16Z) - Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。
検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。
検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文 参考訳(メタデータ) (2022-02-17T02:44:05Z) - Branching Reinforcement Learning [16.437993672422955]
分岐強化学習(ブランチングRL)モデルを提案する。
本稿では,Regret Minimization(RM)とReward-Free Exploration(RFE)の指標について検討する。
このモデルは階層的なレコメンデーションシステムやオンライン広告に重要な応用を見出す。
論文 参考訳(メタデータ) (2022-02-16T11:19:03Z) - Improve Agents without Retraining: Parallel Tree Search with Off-Policy
Correction [63.595545216327245]
木探索(TS)における2つの大きな課題に取り組む。
我々はまず、TSと事前学習された値関数による行動選択が、元の事前学習されたエージェントと比較して性能を低下させるという、反直感的な現象を発見し、分析する。
Batch-BFS(Batch-BFS)は,木の各深さのすべてのノードを同時に前進させるGPUワイドファースト検索である。
論文 参考訳(メタデータ) (2021-07-04T19:32:24Z) - Complex Momentum for Learning in Games [42.081050296353574]
我々は、微分可能なゲームにおいて学習する運動量を伴う勾配降下を複素数値運動量を持つように一般化する。
我々は、複雑な値の運動量によってゲーム内の収束性が改善できることを実証する。
我々はまた、CIFAR-10のより良いスコアにBigGANを訓練するために使用する複素値アダム変種への実用的な一般化を示す。
論文 参考訳(メタデータ) (2021-02-16T19:55:27Z) - Hindsight and Sequential Rationality of Correlated Play [18.176128899338433]
私たちは、修正された振る舞いで達成できたことに対して、強いパフォーマンスを後見で保証するアルゴリズムを検討します。
我々は,学習の隠れた枠組みを,逐次的な意思決定の場で開発し,提唱する。
本稿では,それぞれの平衡の強さと弱さを文献に示す例を示す。
論文 参考訳(メタデータ) (2020-12-10T18:30:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。