論文の概要: Calibrated Stackelberg Games: Learning Optimal Commitments Against
Calibrated Agents
- arxiv url: http://arxiv.org/abs/2306.02704v1
- Date: Mon, 5 Jun 2023 08:55:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 19:19:55.087269
- Title: Calibrated Stackelberg Games: Learning Optimal Commitments Against
Calibrated Agents
- Title(参考訳): Calibrated Stackelberg Games: Calibrated Agentsに対する最適なコミットを学ぶ
- Authors: Nika Haghtalab, Chara Podimata, Kunhe Yang
- Abstract要約: Calibrated Stackelberg Games (CSGs)は、新しいタイプのStackelberg Games (SGs)である。
CSGでは、プリンシパルは(標準のSGとは対照的に)エージェントと繰り返し対話し、プリンシパルのアクションに直接アクセスするのではなく、それに関するキャリブレーションされた予測に対応する。
CSGでは,ゲームにおける最適スタックルバーグ値に収束するユーティリティを,有限条件と連続条件の両方で実現可能であることを示す。
- 参考スコア(独自算出の注目度): 15.145023509806977
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce a generalization of the standard Stackelberg
Games (SGs) framework: Calibrated Stackelberg Games (CSGs). In CSGs, a
principal repeatedly interacts with an agent who (contrary to standard SGs)
does not have direct access to the principal's action but instead best-responds
to calibrated forecasts about it. CSG is a powerful modeling tool that goes
beyond assuming that agents use ad hoc and highly specified algorithms for
interacting in strategic settings and thus more robustly addresses real-life
applications that SGs were originally intended to capture. Along with CSGs, we
also introduce a stronger notion of calibration, termed adaptive calibration,
that provides fine-grained any-time calibration guarantees against adversarial
sequences. We give a general approach for obtaining adaptive calibration
algorithms and specialize them for finite CSGs. In our main technical result,
we show that in CSGs, the principal can achieve utility that converges to the
optimum Stackelberg value of the game both in finite and continuous settings,
and that no higher utility is achievable. Two prominent and immediate
applications of our results are the settings of learning in Stackelberg
Security Games and strategic classification, both against calibrated agents.
- Abstract(参考訳): 本稿では,標準的なStackelberg Games (SGs) フレームワーク,Calibrated Stackelberg Games (CSGs) の一般化を紹介する。
CSGでは、プリンシパルが(標準SGとは対照的に)エージェントと繰り返し対話し、プリンシパルのアクションに直接アクセスするのではなく、それに関するキャリブレーションされた予測に対応する。
csgは強力なモデリングツールであり、エージェントが戦略的な設定で対話するためにアドホックなアルゴリズムと高度に特定されたアルゴリズムを使用することを前提としない。
また, csgs と並行して, 逆列に対する任意の時間キャリブレーション保証を提供する適応キャリブレーション(adaptive calibration)という, より強固な概念を導入する。
適応キャリブレーションアルゴリズムを得るための一般的なアプローチを提案し、それを有限CSGに特化する。
本研究の主な技術的結果として,CSGでは,ゲームにおける最適スタックルバーグ値に収束するユーティリティが有限かつ連続的に実現可能であること,高次ユーティリティが達成できないこと,などが示されている。
以上の結果から,stackelbergセキュリティゲームにおける学習設定と,キャリブレーションエージェントに対する戦略分類という2つの顕著な応用が得られた。
関連論文リスト
- Meta SAC-Lag: Towards Deployable Safe Reinforcement Learning via MetaGradient-based Hyperparameter Tuning [2.7898966850590625]
セーフ強化学習(Safe Reinforcement Learning, セーフRL)は、トライアル・アンド・エラーベースの手法の最もよく研究されているサブカテゴリの1つである。
我々はメタソフトアクター・クリティカル・ラグランジアン(Meta SAC-Lag)と呼ばれる統一ラグランジアンベースのモデルフリーアーキテクチャを提案する。
その結果,安全閾値の比較的速い収束率により,エージェントが安全性能を確実に調整できることが示唆された。
論文 参考訳(メタデータ) (2024-08-15T06:18:50Z) - Aligning GPTRec with Beyond-Accuracy Goals with Reinforcement Learning [67.71952251641545]
GPTRecはアイテム・バイ・イテムレコメンデーションのためのTop-Kモデルの代替品である。
GPTRecは,従来のグリーディ・リグレード手法よりも精度とセカンダリ・メトリクスのトレードオフが優れていることを示す。
2つのデータセットに対する実験により、GPTRecのNext-K生成アプローチは、古典的なグリージーな再ランク技術よりも精度と二次メトリクスのトレードオフが優れていることが示された。
論文 参考訳(メタデータ) (2024-03-07T19:47:48Z) - Curvature-Informed SGD via General Purpose Lie-Group Preconditioners [6.760212042305871]
曲率情報を利用して勾配降下(SGD)を加速する新しい手法を提案する。
提案手法は,行列フリープレコンディショナーと低ランクプレコンディショナーの2つのプレコンディショナーを含む。
プレコンディショニングされたSGD(PSGD)は、ビジョン、NLP、RLタスクにおいてSoTAよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-07T03:18:00Z) - Sharpness-Aware Gradient Matching for Domain Generalization [84.14789746460197]
ドメイン一般化(DG)の目標は、ソースドメインから他の見えないドメインに学習したモデルの一般化能力を強化することである。
最近開発されたシャープネス・アウェア最小化(SAM)法は、損失景観のシャープネス測定を最小化することで、この目標を達成することを目的としている。
モデルが小さな損失を伴って平らな最小値に収束することを保証するための2つの条件と,シャープネス・アウェア・グラディエントマッチング(SAGM)というアルゴリズムを提案する。
提案手法は5つのDGベンチマークにおける最先端の手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2023-03-18T07:25:12Z) - Pretraining Without Attention [114.99187017618408]
本研究では、状態空間モデル(SSM)に基づくシーケンスルーティングの最近の進歩を利用して、注意を払わずに事前学習を探索する。
BiGS は GLUE 上で BERT の事前トレーニング精度と一致し、近似なしで 4096 トークンの長期事前トレーニングに拡張できる。
論文 参考訳(メタデータ) (2022-12-20T18:50:08Z) - Learning in Stackelberg Games with Non-myopic Agents [60.927889817803745]
そこで本研究では,主役が非筋力的な長寿命エージェントと繰り返し対話するスタックルバーグゲームについて,エージェントの支払関数を知らずに検討する。
我々は、非ミオピックエージェントの存在下での学習を、ミオピックエージェントの存在下で堅牢な帯域最適化に還元する一般的なフレームワークを提供する。
論文 参考訳(メタデータ) (2022-08-19T15:49:30Z) - Evolutionary Approach to Security Games with Signaling [40.79980131949599]
グリーンセキュリティゲームは、野生生物のような天然資源の保護を含むシナリオをモデル化する一般的な方法となっている。
カメラを搭載したセンサーも、リアルタイム情報を提供することでこれらのシナリオでの役割を担っている。
本稿では,進化計算パラダイム(EASGS)を取り入れたセキュリティゲーム・ウィズ・シグナリング(SGS)の新たなアプローチを提案する。
EASGSは、染色体と特別に設計された演算子のセットで適切な解を符号化することで、巨大なSGSソリューション空間を効果的に探索する。
論文 参考訳(メタデータ) (2022-04-29T15:56:47Z) - Stabilizing Spiking Neuron Training [3.335932527835653]
スパイキングニューロモルフィックコンピューティングは、人工知能のエネルギー効率を改善するためにバイナリアクティビティを使用する。
与えられたタスクとネットワークに対して最適なSGを決定する方法はまだ不明である。
我々は、SGの減衰、鋭さ、尾の太さを網羅的に調査する必要性を減らすために、どのように使用できるかを示す。
論文 参考訳(メタデータ) (2022-02-01T09:10:57Z) - Bayesian decision-making under misspecified priors with applications to
meta-learning [64.38020203019013]
トンプソンサンプリングやその他のシーケンシャルな意思決定アルゴリズムは、文脈的包帯における探索と探索のトレードオフに取り組むための一般的なアプローチである。
性能は不特定な事前条件で優雅に低下することを示す。
論文 参考訳(メタデータ) (2021-07-03T23:17:26Z) - Stochastic Gradient Descent-Ascent and Consensus Optimization for Smooth
Games: Convergence Analysis under Expected Co-coercivity [49.66890309455787]
本稿では,SGDA と SCO の最終的な収束保証として,期待されるコヒーレンシティ条件を導入し,その利点を説明する。
定常的なステップサイズを用いた場合、両手法の線形収束性を解の近傍に証明する。
我々の収束保証は任意のサンプリングパラダイムの下で保たれ、ミニバッチの複雑さに関する洞察を与える。
論文 参考訳(メタデータ) (2021-06-30T18:32:46Z) - LASG: Lazily Aggregated Stochastic Gradients for Communication-Efficient
Distributed Learning [47.93365664380274]
本稿では,フェデレーション学習などの分散機械学習問題を,コミュニケーション効率のよい方法で解くことを目的とする。
新しい勾配勾配勾配法 (SGD) のクラスが開発され、最近開発された遅延集約勾配法 (LAG) の一般化と見なすことができる。
LASGの重要なコンポーネントは、ダウンロード、アップロード、あるいは両方を保存できるグラデーション用に調整された新しいルールのセットである。
論文 参考訳(メタデータ) (2020-02-26T08:58:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。