論文の概要: Who Leads and Who Follows in Strategic Classification?
- arxiv url: http://arxiv.org/abs/2106.12529v1
- Date: Wed, 23 Jun 2021 16:48:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-24 15:09:56.737758
- Title: Who Leads and Who Follows in Strategic Classification?
- Title(参考訳): 戦略分類で誰がリードし、誰がフォローするか?
- Authors: Tijana Zrnic, Eric Mazumdar, S. Shankar Sastry, Michael I. Jordan
- Abstract要約: 戦略分類における役割の順序は、決定者とエージェントが互いの行動に適応する相対周波数によって決定される。
更新頻度を自由に選択できる意思決定者は,いずれの順番でスタックルバーグ均衡に収束する学習力学を誘導できることを示す。
- 参考スコア(独自算出の注目度): 82.44386576129295
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As predictive models are deployed into the real world, they must increasingly
contend with strategic behavior. A growing body of work on strategic
classification treats this problem as a Stackelberg game: the decision-maker
"leads" in the game by deploying a model, and the strategic agents "follow" by
playing their best response to the deployed model. Importantly, in this
framing, the burden of learning is placed solely on the decision-maker, while
the agents' best responses are implicitly treated as instantaneous. In this
work, we argue that the order of play in strategic classification is
fundamentally determined by the relative frequencies at which the
decision-maker and the agents adapt to each other's actions. In particular, by
generalizing the standard model to allow both players to learn over time, we
show that a decision-maker that makes updates faster than the agents can
reverse the order of play, meaning that the agents lead and the decision-maker
follows. We observe in standard learning settings that such a role reversal can
be desirable for both the decision-maker and the strategic agents. Finally, we
show that a decision-maker with the freedom to choose their update frequency
can induce learning dynamics that converge to Stackelberg equilibria with
either order of play.
- Abstract(参考訳): 予測モデルが現実世界にデプロイされるにつれ、彼らはますます戦略的な行動と競合しなくてはならない。
戦略分類に関する活動の活発化は、この問題をStackelbergのゲームとして扱う: 意思決定者(deciment-maker)は、モデルをデプロイすることでゲーム内で"リード(leads)"する。
重要なのは、このフレーミングでは、学習の負担は意思決定者のみに置かれ、エージェントのベストレスポンスは暗黙的に瞬時に扱われる。
本研究では,戦略分類における役割の順序は,意思決定者とエージェントが互いの行動に適応する相対周波数によって決定されると主張している。
特に,両プレイヤーが時間とともに学習できるように標準モデルを一般化することにより,エージェントよりも高速に更新を行う意思決定者がプレーの順序を逆転し,エージェントがリードし,意思決定者が従うことを示す。
我々は,このような役割の逆転が意思決定者や戦略エージェントにとって望ましいことを,標準的な学習環境で観察する。
最後に,更新頻度を自由に選択できる意思決定者は,いずれの順序でもstackelberg equilibriaに収束する学習ダイナミクスを誘導できることを示す。
関連論文リスト
- Paths to Equilibrium in Games [6.812247730094933]
我々は、強化学習におけるポリシー更新に触発されたペアワイズ制約を満たす戦略の列について研究する。
我々の分析は、戦略的な更新を劣化させる報酬が、満足のいく道に沿って均衡に進むための鍵である、という直感的な洞察を明らかにした。
論文 参考訳(メタデータ) (2024-03-26T19:58:39Z) - Strategic Apple Tasting [35.25249063553063]
ハイテイク領域におけるアルゴリズムによる意思決定は、しばしばアルゴリズムへの入力を戦略的に修正するインセンティブを持つエージェントに決定を割り当てる。
我々は、この設定をリンゴ味のフィードバックによるオンライン学習問題として定式化する。
我々の目標は、プリンシパルのパフォーマンスを後見の最良の固定政策のパフォーマンスと比較する、サブリニアな戦略的後悔を達成することです。
論文 参考訳(メタデータ) (2023-06-09T20:46:31Z) - MERMAIDE: Learning to Align Learners using Model-Based Meta-Learning [62.065503126104126]
本研究では,先見のつかない学習エージェントの報酬を効率よく効果的に介入し,望ましい結果を導き出す方法について検討する。
これはオークションや課税のような現実世界の多くの設定に関係しており、プリンシパルは学習行動や実際の人々の報酬を知らないかもしれない。
モデルに基づくメタ学習フレームワークであるMERMAIDEを導入し,配布外エージェントに迅速に適応できるプリンシパルを訓練する。
論文 参考訳(メタデータ) (2023-04-10T15:44:50Z) - Learning in Stackelberg Games with Non-myopic Agents [60.927889817803745]
そこで本研究では,主役が非筋力的な長寿命エージェントと繰り返し対話するスタックルバーグゲームについて,エージェントの支払関数を知らずに検討する。
我々は、非ミオピックエージェントの存在下での学習を、ミオピックエージェントの存在下で堅牢な帯域最適化に還元する一般的なフレームワークを提供する。
論文 参考訳(メタデータ) (2022-08-19T15:49:30Z) - Reinforcement Learning Agents in Colonel Blotto [0.0]
エージェントベースモデルの特定の例に着目し、強化学習(RL)を用いてエージェントの環境における行動の訓練を行う。
我々はRLエージェントが1つの対戦相手を手動で打ち負かし、対戦相手の数が増えると依然として非常によく機能することを示した。
また、RLエージェントを解析し、最も高いQ値と低いQ値を与えるアクションを見て、どのような戦略が到達したかを調べる。
論文 参考訳(メタデータ) (2022-04-04T16:18:01Z) - No-Regret Learning in Dynamic Stackelberg Games [31.001205916012307]
Stackelbergゲームでは、リーダーがランダム化された戦略にコミットし、フォロワーがレスポンスでベスト戦略を選択する。
このゲームは、リーダーの報酬や利用可能な戦略に影響を与える基礎となる状態空間を持ち、リーダーとフォロワーの選択した戦略に依存するマルコフ的な方法で進化する。
論文 参考訳(メタデータ) (2022-02-10T01:07:57Z) - Adversarial Training as Stackelberg Game: An Unrolled Optimization
Approach [91.74682538906691]
逆行訓練はディープラーニングモデルの一般化性能を向上させることが示されている。
Stackelbergゲームとして, 対人トレーニングを定式化するStackelberg Adversarial Training (SALT)を提案する。
論文 参考訳(メタデータ) (2021-04-11T00:44:57Z) - Moody Learners -- Explaining Competitive Behaviour of Reinforcement
Learning Agents [65.2200847818153]
競合シナリオでは、エージェントは動的環境を持つだけでなく、相手の行動に直接影響される。
エージェントのQ値の観察は通常、その振る舞いを説明する方法であるが、選択されたアクション間の時間的関係は示さない。
論文 参考訳(メタデータ) (2020-07-30T11:30:42Z) - Learning to Model Opponent Learning [11.61673411387596]
マルチエージェント強化学習(MARL: Multi-Agent Reinforcement Learning)は、一組の共存エージェントが相互とその環境と相互作用する設定を考える。
これは、通常、収束が定常環境の仮定に依存する値関数ベースのアルゴリズムにとって大きな課題となる。
我々は、モデルポンポント学習(LeMOL)と呼ばれる、対戦者の学習力学をモデル化するための新しいアプローチを開発する。
論文 参考訳(メタデータ) (2020-06-06T17:19:04Z) - Learning from Learners: Adapting Reinforcement Learning Agents to be
Competitive in a Card Game [71.24825724518847]
本稿では,競争力のあるマルチプレイヤーカードゲームの現実的な実装を学習・プレイするために,一般的な強化学習アルゴリズムをどのように適用できるかについて検討する。
本研究は,学習エージェントに対して,エージェントが競争力を持つことの学習方法を評価するための特定のトレーニングと検証ルーチンを提案し,それらが相互の演奏スタイルにどのように適応するかを説明する。
論文 参考訳(メタデータ) (2020-04-08T14:11:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。