論文の概要: End-to-End Learning and Intervention in Games
- arxiv url: http://arxiv.org/abs/2010.13834v1
- Date: Mon, 26 Oct 2020 18:39:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 20:16:58.366363
- Title: End-to-End Learning and Intervention in Games
- Title(参考訳): エンド・ツー・エンド学習とゲームへの介入
- Authors: Jiayang Li, Jing Yu, Yu Marco Nie, Zhaoran Wang
- Abstract要約: ゲームにおける学習と介入のための統一的なフレームワークを提供する。
明示的および暗黙的な区別に基づく2つのアプローチを提案する。
分析結果は、実世界のいくつかの問題を用いて検証される。
- 参考スコア(独自算出の注目度): 60.41921763076017
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In a social system, the self-interest of agents can be detrimental to the
collective good, sometimes leading to social dilemmas. To resolve such a
conflict, a central designer may intervene by either redesigning the system or
incentivizing the agents to change their behaviors. To be effective, the
designer must anticipate how the agents react to the intervention, which is
dictated by their often unknown payoff functions. Therefore, learning about the
agents is a prerequisite for intervention. In this paper, we provide a unified
framework for learning and intervention in games. We cast the equilibria of
games as individual layers and integrate them into an end-to-end optimization
framework. To enable the backward propagation through the equilibria of games,
we propose two approaches, respectively based on explicit and implicit
differentiation. Specifically, we cast the equilibria as the solutions to
variational inequalities (VIs). The explicit approach unrolls the projection
method for solving VIs, while the implicit approach exploits the sensitivity of
the solutions to VIs. At the core of both approaches is the differentiation
through a projection operator. Moreover, we establish the correctness of both
approaches and identify the conditions under which one approach is more
desirable than the other. The analytical results are validated using several
real-world problems.
- Abstract(参考訳): 社会システムでは、エージェントの自己利益は集団的善に有害であり、時には社会的ジレンマにつながる。
このような対立を解決するために、中央設計者はシステムを再設計するか、エージェントに行動を変えるインセンティブを与えることで介入することができる。
効果的にするためには、デザイナーはエージェントが介入に対してどのように反応するかを予測しなければならない。
したがって、エージェントについて学ぶことは介入の前提条件である。
本稿では,ゲームにおける学習と介入の統一フレームワークを提案する。
我々はゲームの平衡を個々の層として配置し、それらをエンドツーエンドの最適化フレームワークに統合した。
ゲームの平衡を通した後方伝播を可能にするために,明示的および暗黙的な微分に基づく2つのアプローチを提案する。
具体的には、平衡を変分不等式 (VIs) の解として用いた。
明示的アプローチはVIの解の射影法を解き、暗黙的アプローチはVIの解の感度を利用する。
どちらのアプローチの核心は射影作用素による微分である。
さらに,両アプローチの正しさを確立し,一方のアプローチが他方よりも望ましい条件を特定する。
分析結果はいくつかの実世界の問題を用いて検証される。
関連論文リスト
- Principal-Agent Reinforcement Learning: Orchestrating AI Agents with Contracts [20.8288955218712]
本稿では,マルコフ決定プロセス(MDP)のエージェントを一連の契約でガイドするフレームワークを提案する。
我々は,主観とエージェントの方針を反復的に最適化するメタアルゴリズムを提示し,分析する。
次に,本アルゴリズムを深層Q-ラーニングで拡張し,近似誤差の存在下での収束度を解析する。
論文 参考訳(メタデータ) (2024-07-25T14:28:58Z) - Quantifying Misalignment Between Agents: Towards a Sociotechnical Understanding of Alignment [2.619545850602691]
最近の社会技術的アプローチは、複数の人間とAIエージェント間の複雑なミスアライメントを理解する必要性を強調している。
我々は、人間の競合の計算社会科学モデルをアライメント問題に適用する。
我々のモデルは、潜在的に矛盾する目標を持つ多種多様なエージェントグループにおけるミスアライメントを定量化する。
論文 参考訳(メタデータ) (2024-06-06T16:31:22Z) - Optimising Human-AI Collaboration by Learning Convincing Explanations [62.81395661556852]
本研究では,人間による意思決定によって安全を保ちながら協調的なシステムを構築する手法を提案する。
Ardentは、説明のための個人の好みに適応することで、効率的で効果的な意思決定を可能にする。
論文 参考訳(メタデータ) (2023-11-13T16:00:16Z) - Online Decision Mediation [72.80902932543474]
意思決定支援アシスタントを学習し、(好奇心)専門家の行動と(不完全)人間の行動の仲介役として機能することを検討する。
臨床診断では、完全に自律的な機械行動は倫理的余裕を超えることが多い。
論文 参考訳(メタデータ) (2023-10-28T05:59:43Z) - Formalizing the Problem of Side Effect Regularization [81.97441214404247]
本稿では,補助ゲームフレームワークを用いたサイドエフェクト正規化のための公式な基準を提案する。
これらのゲームでは、エージェントは部分的に観測可能なマルコフ決定プロセスを解決する。
このPOMDPは、エージェントが将来的なタスクをこなす能力と、プロキシ報酬を交換することで解決されることを示す。
論文 参考訳(メタデータ) (2022-06-23T16:36:13Z) - Inverse Online Learning: Understanding Non-Stationary and Reactionary
Policies [79.60322329952453]
エージェントが意思決定を行う方法の解釈可能な表現を開発する方法を示す。
一連の軌跡に基づく意思決定プロセスを理解することにより,このオンライン学習問題に対して,政策推論問題を逆問題とみなした。
本稿では、エージェントがそれらを更新するプロセスと並行して、その影響を遡及的に推定する実用的なアルゴリズムを提案する。
UNOSの臓器提供受諾決定の分析に応用することで、我々のアプローチは意思決定プロセスを管理する要因や時間とともにどのように変化するかに、貴重な洞察をもたらすことができることを実証する。
論文 参考訳(メタデータ) (2022-03-14T17:40:42Z) - Distributed Adaptive Learning Under Communication Constraints [54.22472738551687]
本研究では,コミュニケーション制約下での運用を目的とした適応型分散学習戦略について検討する。
我々は,ストリーミングデータの連続的な観察から,オンライン最適化問題を解決しなければならないエージェントのネットワークを考える。
論文 参考訳(メタデータ) (2021-12-03T19:23:48Z) - Fair Incentives for Repeated Engagement [0.46040036610482665]
我々は、参加決定が受け取ったインセンティブに依存するエージェントに直面する場合、維持のための最適な金融インセンティブスキームを見つけるという課題について検討する。
明示的な差別がなくても、システムの種類構成を変化させることで、ポリシーが無意識に異なるタイプのエージェントを識別できることが示される。
論文 参考訳(メタデータ) (2021-10-28T04:13:53Z) - On the Fundamental Trade-offs in Learning Invariant Representations [7.868449549351487]
データとそれに対応するターゲットとセマンティック属性間の統計的依存関係によって引き起こされるユーティリティとセマンティック依存の2つの基本的なトレードオフを特定し、決定する。
本稿では,代表問題に対するトレードオフを数値的に定量化し,ベースライン表現学習アルゴリズムによる解と比較する。
論文 参考訳(メタデータ) (2021-09-08T01:26:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。