論文の概要: End-to-End Learning and Intervention in Games
- arxiv url: http://arxiv.org/abs/2010.13834v1
- Date: Mon, 26 Oct 2020 18:39:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 20:16:58.366363
- Title: End-to-End Learning and Intervention in Games
- Title(参考訳): エンド・ツー・エンド学習とゲームへの介入
- Authors: Jiayang Li, Jing Yu, Yu Marco Nie, Zhaoran Wang
- Abstract要約: ゲームにおける学習と介入のための統一的なフレームワークを提供する。
明示的および暗黙的な区別に基づく2つのアプローチを提案する。
分析結果は、実世界のいくつかの問題を用いて検証される。
- 参考スコア(独自算出の注目度): 60.41921763076017
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In a social system, the self-interest of agents can be detrimental to the
collective good, sometimes leading to social dilemmas. To resolve such a
conflict, a central designer may intervene by either redesigning the system or
incentivizing the agents to change their behaviors. To be effective, the
designer must anticipate how the agents react to the intervention, which is
dictated by their often unknown payoff functions. Therefore, learning about the
agents is a prerequisite for intervention. In this paper, we provide a unified
framework for learning and intervention in games. We cast the equilibria of
games as individual layers and integrate them into an end-to-end optimization
framework. To enable the backward propagation through the equilibria of games,
we propose two approaches, respectively based on explicit and implicit
differentiation. Specifically, we cast the equilibria as the solutions to
variational inequalities (VIs). The explicit approach unrolls the projection
method for solving VIs, while the implicit approach exploits the sensitivity of
the solutions to VIs. At the core of both approaches is the differentiation
through a projection operator. Moreover, we establish the correctness of both
approaches and identify the conditions under which one approach is more
desirable than the other. The analytical results are validated using several
real-world problems.
- Abstract(参考訳): 社会システムでは、エージェントの自己利益は集団的善に有害であり、時には社会的ジレンマにつながる。
このような対立を解決するために、中央設計者はシステムを再設計するか、エージェントに行動を変えるインセンティブを与えることで介入することができる。
効果的にするためには、デザイナーはエージェントが介入に対してどのように反応するかを予測しなければならない。
したがって、エージェントについて学ぶことは介入の前提条件である。
本稿では,ゲームにおける学習と介入の統一フレームワークを提案する。
我々はゲームの平衡を個々の層として配置し、それらをエンドツーエンドの最適化フレームワークに統合した。
ゲームの平衡を通した後方伝播を可能にするために,明示的および暗黙的な微分に基づく2つのアプローチを提案する。
具体的には、平衡を変分不等式 (VIs) の解として用いた。
明示的アプローチはVIの解の射影法を解き、暗黙的アプローチはVIの解の感度を利用する。
どちらのアプローチの核心は射影作用素による微分である。
さらに,両アプローチの正しさを確立し,一方のアプローチが他方よりも望ましい条件を特定する。
分析結果はいくつかの実世界の問題を用いて検証される。
関連論文リスト
- Rethinking Invariance Regularization in Adversarial Training to Improve
Robustness-Accuracy Trade-off [9.019708872816508]
非対称表現正規化訓練(AR-AT)
本手法は,識別力を犠牲にすることなく,逆不変表現を学習することにより,ロバスト性・精度のトレードオフを大幅に改善する。
論文 参考訳(メタデータ) (2024-02-22T15:53:46Z) - Optimising Human-AI Collaboration by Learning Convincing Explanations [62.81395661556852]
本研究では,人間による意思決定によって安全を保ちながら協調的なシステムを構築する手法を提案する。
Ardentは、説明のための個人の好みに適応することで、効率的で効果的な意思決定を可能にする。
論文 参考訳(メタデータ) (2023-11-13T16:00:16Z) - Online Decision Mediation [72.80902932543474]
意思決定支援アシスタントを学習し、(好奇心)専門家の行動と(不完全)人間の行動の仲介役として機能することを検討する。
臨床診断では、完全に自律的な機械行動は倫理的余裕を超えることが多い。
論文 参考訳(メタデータ) (2023-10-28T05:59:43Z) - Sequential Principal-Agent Problems with Communication: Efficient
Computation and Learning [27.50523143132825]
両端に不完全な情報を持つ主要因とエージェント間の逐次的意思決定問題について検討する。
このモデルでは、プリンシパルとエージェントは環境の中で相互作用し、それぞれが他で利用できない状態についての観測にプライベートである。
本稿では,アルゴリズムのアルゴリズムを用いて,主成分の最適ポリシを加法近似まで計算する。
論文 参考訳(メタデータ) (2023-06-06T16:20:44Z) - Formalizing the Problem of Side Effect Regularization [81.97441214404247]
本稿では,補助ゲームフレームワークを用いたサイドエフェクト正規化のための公式な基準を提案する。
これらのゲームでは、エージェントは部分的に観測可能なマルコフ決定プロセスを解決する。
このPOMDPは、エージェントが将来的なタスクをこなす能力と、プロキシ報酬を交換することで解決されることを示す。
論文 参考訳(メタデータ) (2022-06-23T16:36:13Z) - Inverse Online Learning: Understanding Non-Stationary and Reactionary
Policies [79.60322329952453]
エージェントが意思決定を行う方法の解釈可能な表現を開発する方法を示す。
一連の軌跡に基づく意思決定プロセスを理解することにより,このオンライン学習問題に対して,政策推論問題を逆問題とみなした。
本稿では、エージェントがそれらを更新するプロセスと並行して、その影響を遡及的に推定する実用的なアルゴリズムを提案する。
UNOSの臓器提供受諾決定の分析に応用することで、我々のアプローチは意思決定プロセスを管理する要因や時間とともにどのように変化するかに、貴重な洞察をもたらすことができることを実証する。
論文 参考訳(メタデータ) (2022-03-14T17:40:42Z) - Distributed Adaptive Learning Under Communication Constraints [54.22472738551687]
本研究では,コミュニケーション制約下での運用を目的とした適応型分散学習戦略について検討する。
我々は,ストリーミングデータの連続的な観察から,オンライン最適化問題を解決しなければならないエージェントのネットワークを考える。
論文 参考訳(メタデータ) (2021-12-03T19:23:48Z) - On the Fundamental Trade-offs in Learning Invariant Representations [7.868449549351487]
データとそれに対応するターゲットとセマンティック属性間の統計的依存関係によって引き起こされるユーティリティとセマンティック依存の2つの基本的なトレードオフを特定し、決定する。
本稿では,代表問題に対するトレードオフを数値的に定量化し,ベースライン表現学習アルゴリズムによる解と比較する。
論文 参考訳(メタデータ) (2021-09-08T01:26:46Z) - Learning in two-player games between transparent opponents [0.0]
2つの強化学習エージェントが互いにマトリックスゲームを繰り返すシナリオを考察する。
エージェントの意思決定は互いに透明であり、各エージェントはそれぞれのエージェントに対してどのように対戦するかを予測することができる。
その結果, 相互透明な意思決定と対人意識学習の組み合わせが, 単発受刑者のジレンマにおける相互協力に強く寄与していることが判明した。
論文 参考訳(メタデータ) (2020-12-04T15:41:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。