論文の概要: Learning to Steer Learners in Games
- arxiv url: http://arxiv.org/abs/2502.20770v1
- Date: Fri, 28 Feb 2025 06:43:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-03 13:40:30.306008
- Title: Learning to Steer Learners in Games
- Title(参考訳): ゲームにおける学習者のステアリング
- Authors: Yizhou Zhang, Yi-An Ma, Eric Mazumdar,
- Abstract要約: ゲームにおける繰り返しの相互作用を通じて学習アルゴリズムを活用することの問題点を考察する。
まず,学習者が非学習アルゴリズムの一般からアルゴリズムを使用していることを知っていれば,これは不可能であることを示す。
学習者のアルゴリズムが、既知の正則化器とステップサイズで上昇したミラーを解析することにより、より小さなクラスから引き出される場合、このアプローチの有効性を実証する。
- 参考スコア(独自算出の注目度): 13.843722297585158
- License:
- Abstract: We consider the problem of learning to exploit learning algorithms through repeated interactions in games. Specifically, we focus on the case of repeated two player, finite-action games, in which an optimizer aims to steer a no-regret learner to a Stackelberg equilibrium without knowledge of its payoffs. We first show that this is impossible if the optimizer only knows that the learner is using an algorithm from the general class of no-regret algorithms. This suggests that the optimizer requires more information about the learner's objectives or algorithm to successfully exploit them. Building on this intuition, we reduce the problem for the optimizer to that of recovering the learner's payoff structure. We demonstrate the effectiveness of this approach if the learner's algorithm is drawn from a smaller class by analyzing two examples: one where the learner uses an ascent algorithm, and another where the learner uses stochastic mirror ascent with known regularizer and step sizes.
- Abstract(参考訳): ゲームにおける繰り返しの相互作用を通じて学習アルゴリズムを活用することの問題点を考察する。
具体的には、オプティマイザがスタッケルベルク均衡に無関係の学習者を操ることを目的とした2つのプレイヤーの有限アクションゲームに焦点をあてる。
まず,学習者が非回帰アルゴリズムの一般クラスからアルゴリズムを使用していることをオプティマイザが知っていれば,これは不可能であることを示す。
これは、オプティマイザが学習者の目的やアルゴリズムについてより多くの情報を必要とすることを示唆している。
この直感に基づいて、学習者の支払構造を回復する際の最適化者の問題を削減する。
学習者のアルゴリズムがより小さなクラスから引き出される場合,学習者が昇華アルゴリズムを使用する場合と,学習者が既知の正規化器とステップサイズで確率鏡を使用する場合の2つの例を解析して,このアプローチの有効性を実証する。
関連論文リスト
- Learning to Play Against Unknown Opponents [9.346742321348366]
本研究では,学習エージェントが非学習に制約されない場合に,最適な学習アルゴリズムを効率的に構築する方法を示す。
これらの結果は、最近開発された機械を用いて、学習アルゴリズムの分析をメニューとして知られる幾何学的対象のクラスに変換する。
論文 参考訳(メタデータ) (2024-12-24T09:05:06Z) - Tree-Based Adaptive Model Learning [62.997667081978825]
我々はKearns-Vazirani学習アルゴリズムを拡張し、時間とともに変化するシステムを扱う。
本稿では,学習前の動作を再利用し,更新し,LearnerLibライブラリに実装し,大規模な実例で評価する学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-08-31T21:24:22Z) - Strategizing against Learners in Bayesian Games [74.46970859427907]
プレイヤーの1人である学習者が無学習の学習戦略を採用する2人プレイヤゲームについて検討した。
一般のベイズゲームでは,学習者と学習者の双方の報酬の支払いが,そのタイプに依存する可能性がある。
論文 参考訳(メタデータ) (2022-05-17T18:10:25Z) - No-Regret Learning in Time-Varying Zero-Sum Games [99.86860277006318]
固定ゼロサムゲームにおける繰り返しプレイからの学習は、ゲーム理論とオンライン学習における古典的な問題である。
提案手法は,3つの性能基準の下で,良好な保証を同時に享受できる1つのパラメータフリーアルゴリズムである。
本アルゴリズムは,ある特性を満たすブラックボックスベースラーナー群に対するメタアルゴリズムを用いた2層構造に基づく。
論文 参考訳(メタデータ) (2022-01-30T06:10:04Z) - The Information Geometry of Unsupervised Reinforcement Learning [133.20816939521941]
教師なしスキル発見(英語: Unsupervised skill discovery)とは、報酬関数にアクセスせずに一連のポリシーを学ぶアルゴリズムのクラスである。
教師なしのスキル発見アルゴリズムは、あらゆる報酬関数に最適なスキルを学習しないことを示す。
論文 参考訳(メタデータ) (2021-10-06T13:08:36Z) - Evolving Reinforcement Learning Algorithms [186.62294652057062]
メタラーニング強化学習アルゴリズムの手法を提案する。
学習アルゴリズムはドメインに依存しないため、トレーニング中に見えない新しい環境に一般化することができる。
従来の制御タスク、gridworld型タスク、atariゲームよりも優れた一般化性能を得る2つの学習アルゴリズムに注目した。
論文 参考訳(メタデータ) (2021-01-08T18:55:07Z) - Mastering Rate based Curriculum Learning [78.45222238426246]
学習の進行という概念には、学習者のサンプル効率の低下につながるいくつかの欠点があると主張する。
本稿では,習得率の概念に基づく新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-08-14T16:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。