論文の概要: Encouraging Inferable Behavior for Autonomy: Repeated Bimatrix
Stackelberg Games with Observations
- arxiv url: http://arxiv.org/abs/2310.00468v1
- Date: Sat, 30 Sep 2023 19:08:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 04:12:33.850885
- Title: Encouraging Inferable Behavior for Autonomy: Repeated Bimatrix
Stackelberg Games with Observations
- Title(参考訳): 自律性のための推論不可能な行動の促進:観察を伴う繰り返しビマトリクス・スタックルバーグゲーム
- Authors: Mustafa O. Karabag, Sophia Smith, David Fridovich-Keil, Ufuk Topcu
- Abstract要約: 自律エージェントは、他の非競争的意思決定エージェントと対話する際に、推論可能な振る舞いを持つことが重要である。
繰り返しビマトリクスのStackelbergゲームを用いて、リーダとフォロワーが繰り返し対話する観察結果を用いて、推論可能性の問題をモデル化する。
本研究は, 信頼度低下は, リーダー戦略の相互作用数とセマンティレベルの関数によって上限づけられていることを示す。
- 参考スコア(独自算出の注目度): 30.235796209741647
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When interacting with other non-competitive decision-making agents, it is
critical for an autonomous agent to have inferable behavior: Their actions must
convey their intention and strategy. For example, an autonomous car's strategy
must be inferable by the pedestrians interacting with the car. We model the
inferability problem using a repeated bimatrix Stackelberg game with
observations where a leader and a follower repeatedly interact. During the
interactions, the leader uses a fixed, potentially mixed strategy. The
follower, on the other hand, does not know the leader's strategy and
dynamically reacts based on observations that are the leader's previous
actions. In the setting with observations, the leader may suffer from an
inferability loss, i.e., the performance compared to the setting where the
follower has perfect information of the leader's strategy. We show that the
inferability loss is upper-bounded by a function of the number of interactions
and the stochasticity level of the leader's strategy, encouraging the use of
inferable strategies with lower stochasticity levels. As a converse result, we
also provide a game where the required number of interactions is lower bounded
by a function of the desired inferability loss.
- Abstract(参考訳): 他の非競争的な意思決定エージェントと対話する際には、自律的なエージェントが推論不可能な行動をとることが重要である。
例えば、自動運転車の戦略は、車と相互作用する歩行者によって推測されなければならない。
我々は、リーダーとフォロワが繰り返し相互作用する観察を用いて、繰り返しバイマトリックスのstackelbergゲームを用いて推論可能性問題をモデル化する。
対話の間、リーダーは固定された、潜在的に混合された戦略を使用する。
一方、フォロワーはリーダーの戦略を知らないので、リーダーの以前の行動である観察に基づいて動的に反応します。
観察を伴う設定では、リーダーは推測不能な損失、すなわち、リーダーの戦略に関する完全な情報を持っているという設定と比べて、パフォーマンスに苦しむことがある。
推測可能性の損失は,対話数の関数と指導者の戦略の確率レベルによって上限に達し,より低い確率レベルで推論可能な戦略の使用を促す。
逆に、必要な数の相互作用が、所望の推論可能性損失の関数によって限定されるゲームも提供する。
関連論文リスト
- Neural Operators Can Play Dynamic Stackelberg Games [9.058593115274336]
ダイナミック・スタックバーグゲーム(Dynamic Stackelberg game)は、リーダーが最初に行動する2人プレイのゲームで、フォロワーはリーダーの戦略に対する反応戦略を選択する。
本稿では,textitfollowerのベストレスポンス演算子を,textitattentionに基づくニューラル演算子によって概ね実装できることを示し,この問題に対処する。
追従者が最適応答演算子を使用するスタックルバーグゲームの価値は、元のスタックルバーグゲームの価値を近似することを示す。
論文 参考訳(メタデータ) (2024-11-14T18:12:06Z) - Decentralized Online Learning in General-Sum Stackelberg Games [2.8659922790025463]
プレイヤーが分散的かつ戦略的に行動する一般のStackelbergゲームにおいて,オンライン学習問題を研究する。
我々は、フォロワーにとって、リーダーの行動にミオプティカルに最も反応することが、限られた情報設定にとって最良の戦略であることを示す。
後者の設定では、フォロワーに対する新たな操作戦略を設計し、最良の応答戦略に対して本質的な優位性を示す。
論文 参考訳(メタデータ) (2024-05-06T04:35:01Z) - Regret Minimization in Stackelberg Games with Side Information [44.72865997906019]
両プレイヤーがプレイ前に外部コンテキストを観察するStackelbergゲームの設定を形式化する。
非コンテキストバージョンとは対照的に、リーダーが完全な対向的な設定でノンレグレットを達成することは不可能であることを示す。
この結果から,2つの自然緩和において,非回帰学習が可能であることが示唆された。
論文 参考訳(メタデータ) (2024-02-13T16:24:57Z) - Actions Speak What You Want: Provably Sample-Efficient Reinforcement
Learning of the Quantal Stackelberg Equilibrium from Strategic Feedbacks [94.07688076435818]
本研究では,量子スタックルバーグ平衡(QSE)学習のための強化学習を,リーダ・フォロワー構造を持つエピソディックマルコフゲームで研究する。
このアルゴリズムは, (i) 最大推定による量子応答モデル学習と (ii) リーダーの意思決定問題を解決するためのモデルフリーまたはモデルベースRLに基づく。
論文 参考訳(メタデータ) (2023-07-26T10:24:17Z) - Online Learning in Stackelberg Games with an Omniscient Follower [83.42564921330896]
オンライン学習の課題を2人のプレイヤーによる分散協調型Stackelbergゲームで検討する。
各ラウンドで、まずリーダーが行動を起こし、次にリーダーの動きを観察した後に行動を起こすフォロワーが続く。
報酬構造によっては、全能なフォロワーの存在が、サンプルの複雑さを大きく変える可能性があることを示す。
論文 参考訳(メタデータ) (2023-01-27T03:35:10Z) - Learning in Stackelberg Games with Non-myopic Agents [60.927889817803745]
そこで本研究では,主役が非筋力的な長寿命エージェントと繰り返し対話するスタックルバーグゲームについて,エージェントの支払関数を知らずに検討する。
我々は、非ミオピックエージェントの存在下での学習を、ミオピックエージェントの存在下で堅牢な帯域最適化に還元する一般的なフレームワークを提供する。
論文 参考訳(メタデータ) (2022-08-19T15:49:30Z) - No-Regret Learning in Dynamic Stackelberg Games [31.001205916012307]
Stackelbergゲームでは、リーダーがランダム化された戦略にコミットし、フォロワーがレスポンスでベスト戦略を選択する。
このゲームは、リーダーの報酬や利用可能な戦略に影響を与える基礎となる状態空間を持ち、リーダーとフォロワーの選択した戦略に依存するマルコフ的な方法で進化する。
論文 参考訳(メタデータ) (2022-02-10T01:07:57Z) - Who Leads and Who Follows in Strategic Classification? [82.44386576129295]
戦略分類における役割の順序は、決定者とエージェントが互いの行動に適応する相対周波数によって決定される。
更新頻度を自由に選択できる意思決定者は,いずれの順番でスタックルバーグ均衡に収束する学習力学を誘導できることを示す。
論文 参考訳(メタデータ) (2021-06-23T16:48:46Z) - Adversarial Training as Stackelberg Game: An Unrolled Optimization
Approach [91.74682538906691]
逆行訓練はディープラーニングモデルの一般化性能を向上させることが示されている。
Stackelbergゲームとして, 対人トレーニングを定式化するStackelberg Adversarial Training (SALT)を提案する。
論文 参考訳(メタデータ) (2021-04-11T00:44:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。