論文の概要: Encouraging Inferable Behavior for Autonomy: Repeated Bimatrix
Stackelberg Games with Observations
- arxiv url: http://arxiv.org/abs/2310.00468v1
- Date: Sat, 30 Sep 2023 19:08:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 04:12:33.850885
- Title: Encouraging Inferable Behavior for Autonomy: Repeated Bimatrix
Stackelberg Games with Observations
- Title(参考訳): 自律性のための推論不可能な行動の促進:観察を伴う繰り返しビマトリクス・スタックルバーグゲーム
- Authors: Mustafa O. Karabag, Sophia Smith, David Fridovich-Keil, Ufuk Topcu
- Abstract要約: 自律エージェントは、他の非競争的意思決定エージェントと対話する際に、推論可能な振る舞いを持つことが重要である。
繰り返しビマトリクスのStackelbergゲームを用いて、リーダとフォロワーが繰り返し対話する観察結果を用いて、推論可能性の問題をモデル化する。
本研究は, 信頼度低下は, リーダー戦略の相互作用数とセマンティレベルの関数によって上限づけられていることを示す。
- 参考スコア(独自算出の注目度): 30.235796209741647
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When interacting with other non-competitive decision-making agents, it is
critical for an autonomous agent to have inferable behavior: Their actions must
convey their intention and strategy. For example, an autonomous car's strategy
must be inferable by the pedestrians interacting with the car. We model the
inferability problem using a repeated bimatrix Stackelberg game with
observations where a leader and a follower repeatedly interact. During the
interactions, the leader uses a fixed, potentially mixed strategy. The
follower, on the other hand, does not know the leader's strategy and
dynamically reacts based on observations that are the leader's previous
actions. In the setting with observations, the leader may suffer from an
inferability loss, i.e., the performance compared to the setting where the
follower has perfect information of the leader's strategy. We show that the
inferability loss is upper-bounded by a function of the number of interactions
and the stochasticity level of the leader's strategy, encouraging the use of
inferable strategies with lower stochasticity levels. As a converse result, we
also provide a game where the required number of interactions is lower bounded
by a function of the desired inferability loss.
- Abstract(参考訳): 他の非競争的な意思決定エージェントと対話する際には、自律的なエージェントが推論不可能な行動をとることが重要である。
例えば、自動運転車の戦略は、車と相互作用する歩行者によって推測されなければならない。
我々は、リーダーとフォロワが繰り返し相互作用する観察を用いて、繰り返しバイマトリックスのstackelbergゲームを用いて推論可能性問題をモデル化する。
対話の間、リーダーは固定された、潜在的に混合された戦略を使用する。
一方、フォロワーはリーダーの戦略を知らないので、リーダーの以前の行動である観察に基づいて動的に反応します。
観察を伴う設定では、リーダーは推測不能な損失、すなわち、リーダーの戦略に関する完全な情報を持っているという設定と比べて、パフォーマンスに苦しむことがある。
推測可能性の損失は,対話数の関数と指導者の戦略の確率レベルによって上限に達し,より低い確率レベルで推論可能な戦略の使用を促す。
逆に、必要な数の相互作用が、所望の推論可能性損失の関数によって限定されるゲームも提供する。
関連論文リスト
- Regret Minimization in Stackelberg Games with Side Information [50.270531339600495]
Stackelbergゲーム (Stackelberg game) は、リーダーが(混合)戦略にコミットし、フォロワーがベスト対応する2人プレイのゲームである。
本研究は, リーダが全敵的設定で優れたパフォーマンス(後悔によって測られる)を達成することは不可能であることを示す。
論文 参考訳(メタデータ) (2024-02-13T16:24:57Z) - Learning Communication Policies for Different Follower Behaviors in a
Collaborative Reference Game [22.28337771947361]
協調参照ゲームにおいて、仮定されたパートナー行動に対するニューラルネットワークエージェントの適応性を評価する。
以上の結果から, この新規成分は, より冗長なコミュニケーション戦略につながることが示唆された。
論文 参考訳(メタデータ) (2024-02-07T13:22:17Z) - Interactive Autonomous Navigation with Internal State Inference and
Interactivity Estimation [58.21683603243387]
本稿では,関係時間的推論を伴う3つの補助的タスクを提案し,それらを標準のディープラーニングフレームワークに統合する。
これらの補助的なタスクは、他の対話的エージェントの行動パターンを推測するための追加の監視信号を提供する。
提案手法は,標準評価指標の観点から,頑健かつ最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-11-27T18:57:42Z) - Actions Speak What You Want: Provably Sample-Efficient Reinforcement
Learning of the Quantal Stackelberg Equilibrium from Strategic Feedbacks [94.07688076435818]
本研究では,量子スタックルバーグ平衡(QSE)学習のための強化学習を,リーダ・フォロワー構造を持つエピソディックマルコフゲームで研究する。
このアルゴリズムは, (i) 最大推定による量子応答モデル学習と (ii) リーダーの意思決定問題を解決するためのモデルフリーまたはモデルベースRLに基づく。
論文 参考訳(メタデータ) (2023-07-26T10:24:17Z) - Follower Agnostic Methods for Stackelberg Games [14.143502615941648]
我々は,複数のフォロワーを対象とするオンラインStackelbergゲームにおいて,フォロワーに依存しない方法で効率よく解決するアルゴリズムを提案する。
私たちのアプローチは、リーダがフォロワーのユーティリティ機能や戦略空間について知識を持っていない場合でも機能します。
論文 参考訳(メタデータ) (2023-02-02T21:21:14Z) - No-Regret Learning in Dynamic Stackelberg Games [31.001205916012307]
Stackelbergゲームでは、リーダーがランダム化された戦略にコミットし、フォロワーがレスポンスでベスト戦略を選択する。
このゲームは、リーダーの報酬や利用可能な戦略に影響を与える基礎となる状態空間を持ち、リーダーとフォロワーの選択した戦略に依存するマルコフ的な方法で進化する。
論文 参考訳(メタデータ) (2022-02-10T01:07:57Z) - SSAGCN: Social Soft Attention Graph Convolution Network for Pedestrian
Trajectory Prediction [59.064925464991056]
ソーシャルソフトアテンショングラフ畳み込みネットワーク(SSAGCN)という新しい予測モデルを提案する。
SSAGCNは、歩行者間の社会的相互作用と歩行者と環境間のシーンインタラクションを同時に扱うことを目的としている。
公開データセットの実験は、SAGCNの有効性を証明し、最先端の結果を得た。
論文 参考訳(メタデータ) (2021-12-05T01:49:18Z) - Who Leads and Who Follows in Strategic Classification? [82.44386576129295]
戦略分類における役割の順序は、決定者とエージェントが互いの行動に適応する相対周波数によって決定される。
更新頻度を自由に選択できる意思決定者は,いずれの順番でスタックルバーグ均衡に収束する学習力学を誘導できることを示す。
論文 参考訳(メタデータ) (2021-06-23T16:48:46Z) - Adversarial Training as Stackelberg Game: An Unrolled Optimization
Approach [91.74682538906691]
逆行訓練はディープラーニングモデルの一般化性能を向上させることが示されている。
Stackelbergゲームとして, 対人トレーニングを定式化するStackelberg Adversarial Training (SALT)を提案する。
論文 参考訳(メタデータ) (2021-04-11T00:44:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。