Fugu-MT 論文翻訳(概要): End-to-End Learning and Intervention in Games

論文の概要: End-to-End Learning and Intervention in Games

arxiv url: http://arxiv.org/abs/2010.13834v1
Date: Mon, 26 Oct 2020 18:39:32 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-02 20:16:58.366363
Title: End-to-End Learning and Intervention in Games
Title（参考訳）: エンド・ツー・エンド学習とゲームへの介入
Authors: Jiayang Li, Jing Yu, Yu Marco Nie, Zhaoran Wang
Abstract要約: ゲームにおける学習と介入のための統一的なフレームワークを提供する。明示的および暗黙的な区別に基づく2つのアプローチを提案する。分析結果は、実世界のいくつかの問題を用いて検証される。
参考スコア（独自算出の注目度）: 60.41921763076017
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In a social system, the self-interest of agents can be detrimental to the collective good, sometimes leading to social dilemmas. To resolve such a conflict, a central designer may intervene by either redesigning the system or incentivizing the agents to change their behaviors. To be effective, the designer must anticipate how the agents react to the intervention, which is dictated by their often unknown payoff functions. Therefore, learning about the agents is a prerequisite for intervention. In this paper, we provide a unified framework for learning and intervention in games. We cast the equilibria of games as individual layers and integrate them into an end-to-end optimization framework. To enable the backward propagation through the equilibria of games, we propose two approaches, respectively based on explicit and implicit differentiation. Specifically, we cast the equilibria as the solutions to variational inequalities (VIs). The explicit approach unrolls the projection method for solving VIs, while the implicit approach exploits the sensitivity of the solutions to VIs. At the core of both approaches is the differentiation through a projection operator. Moreover, we establish the correctness of both approaches and identify the conditions under which one approach is more desirable than the other. The analytical results are validated using several real-world problems.
Abstract（参考訳）: 社会システムでは、エージェントの自己利益は集団的善に有害であり、時には社会的ジレンマにつながる。このような対立を解決するために、中央設計者はシステムを再設計するか、エージェントに行動を変えるインセンティブを与えることで介入することができる。効果的にするためには、デザイナーはエージェントが介入に対してどのように反応するかを予測しなければならない。したがって、エージェントについて学ぶことは介入の前提条件である。本稿では,ゲームにおける学習と介入の統一フレームワークを提案する。我々はゲームの平衡を個々の層として配置し、それらをエンドツーエンドの最適化フレームワークに統合した。ゲームの平衡を通した後方伝播を可能にするために,明示的および暗黙的な微分に基づく2つのアプローチを提案する。具体的には、平衡を変分不等式 (VIs) の解として用いた。明示的アプローチはVIの解の射影法を解き、暗黙的アプローチはVIの解の感度を利用する。どちらのアプローチの核心は射影作用素による微分である。さらに,両アプローチの正しさを確立し,一方のアプローチが他方よりも望ましい条件を特定する。分析結果はいくつかの実世界の問題を用いて検証される。

関連論文リスト

Finite-Time Guarantees for Multi-Agent Combinatorial Bandits with Nonstationary Rewards [0.8166364251367625]
意思決定者が各期間にエージェントのサブセットを選択して、個々のレベルの影響を事前に知ることなく、全体の結果を最大化する、逐次的なリソース割り当て問題について検討する。当社の枠組みは、地域保健介入、ターゲットデジタル広告、労働維持プログラムなどの設定に適用される。
論文参考訳（メタデータ） (2025-08-28T15:51:57Z)
Towards Principled Unsupervised Multi-Agent Reinforcement Learning [49.533774397707056]
実践的な設定でこの問題に対処するために,スケーラブルで分散化された信頼領域ポリシー探索アルゴリズムを提案する。本研究では,特定の目的,すなわち混合エントロピーの最適化が,トラクタビリティと性能のトレードオフに優れたものであることを示す。
論文参考訳（メタデータ） (2025-02-12T12:51:36Z)
Deceptive Sequential Decision-Making via Regularized Policy Optimization [54.38738815697299]
システムの基本的報酬に対する敵意を積極的に欺く政策合成問題に対する2つの正則化戦略を提示する。政策最適化問題において,各形態の騙しをいかに実装できるかを示す。ディバータリーの詐欺は、最も重要なエージェントが最重要であると敵に信じさせ、同時に、その最適で非知覚的な価値の980.83%の合計的な報酬を得ることを示せる。
論文参考訳（メタデータ） (2025-01-30T23:41:40Z)
Factorised Active Inference for Strategic Multi-Agent Interactions [1.9389881806157316]
この目的に2つの補完的アプローチを組み込むことができる。アクティブ推論フレームワーク(AIF)は、エージェントが環境内の信念や行動に適応するために生成モデルをどのように利用するかを記述する。ゲーム理論は、潜在的に競合する目的を持つエージェント間の戦略的相互作用を定式化する。本稿では,各エージェントが他のエージェントの内部状態に対する明示的かつ個別的な信念を維持し,それらを共同で戦略的計画に利用する生成モデルの因子化を提案する。
論文参考訳（メタデータ） (2024-11-11T21:04:43Z)
Principal-Agent Reinforcement Learning: Orchestrating AI Agents with Contracts [20.8288955218712]
本稿では,マルコフ決定プロセス(MDP)のエージェントを一連の契約でガイドするフレームワークを提案する。我々は,主観とエージェントの方針を反復的に最適化するメタアルゴリズムを提示し,分析する。次に,本アルゴリズムを深層Q-ラーニングで拡張し,近似誤差の存在下での収束度を解析する。
論文参考訳（メタデータ） (2024-07-25T14:28:58Z)
Quantifying Misalignment Between Agents: Towards a Sociotechnical Understanding of Alignment [2.619545850602691]
最近の社会技術的アプローチは、複数の人間とAIエージェント間の複雑なミスアライメントを理解する必要性を強調している。我々は、人間の競合の計算社会科学モデルをアライメント問題に適用する。我々のモデルは、潜在的に矛盾する目標を持つ多種多様なエージェントグループにおけるミスアライメントを定量化する。
論文参考訳（メタデータ） (2024-06-06T16:31:22Z)
Optimising Human-AI Collaboration by Learning Convincing Explanations [62.81395661556852]
本研究では,人間による意思決定によって安全を保ちながら協調的なシステムを構築する手法を提案する。 Ardentは、説明のための個人の好みに適応することで、効率的で効果的な意思決定を可能にする。
論文参考訳（メタデータ） (2023-11-13T16:00:16Z)
Online Decision Mediation [72.80902932543474]
意思決定支援アシスタントを学習し、(好奇心)専門家の行動と(不完全)人間の行動の仲介役として機能することを検討する。臨床診断では、完全に自律的な機械行動は倫理的余裕を超えることが多い。
論文参考訳（メタデータ） (2023-10-28T05:59:43Z)
Formalizing the Problem of Side Effect Regularization [81.97441214404247]
本稿では,補助ゲームフレームワークを用いたサイドエフェクト正規化のための公式な基準を提案する。これらのゲームでは、エージェントは部分的に観測可能なマルコフ決定プロセスを解決する。このPOMDPは、エージェントが将来的なタスクをこなす能力と、プロキシ報酬を交換することで解決されることを示す。
論文参考訳（メタデータ） (2022-06-23T16:36:13Z)
Inverse Online Learning: Understanding Non-Stationary and Reactionary Policies [79.60322329952453]
エージェントが意思決定を行う方法の解釈可能な表現を開発する方法を示す。一連の軌跡に基づく意思決定プロセスを理解することにより,このオンライン学習問題に対して,政策推論問題を逆問題とみなした。本稿では、エージェントがそれらを更新するプロセスと並行して、その影響を遡及的に推定する実用的なアルゴリズムを提案する。 UNOSの臓器提供受諾決定の分析に応用することで、我々のアプローチは意思決定プロセスを管理する要因や時間とともにどのように変化するかに、貴重な洞察をもたらすことができることを実証する。
論文参考訳（メタデータ） (2022-03-14T17:40:42Z)
Distributed Adaptive Learning Under Communication Constraints [54.22472738551687]
本研究では,コミュニケーション制約下での運用を目的とした適応型分散学習戦略について検討する。我々は,ストリーミングデータの連続的な観察から,オンライン最適化問題を解決しなければならないエージェントのネットワークを考える。
論文参考訳（メタデータ） (2021-12-03T19:23:48Z)
Fair Incentives for Repeated Engagement [0.46040036610482665]
我々は、参加決定が受け取ったインセンティブに依存するエージェントに直面する場合、維持のための最適な金融インセンティブスキームを見つけるという課題について検討する。明示的な差別がなくても、システムの種類構成を変化させることで、ポリシーが無意識に異なるタイプのエージェントを識別できることが示される。
論文参考訳（メタデータ） (2021-10-28T04:13:53Z)
On the Fundamental Trade-offs in Learning Invariant Representations [7.868449549351487]
データとそれに対応するターゲットとセマンティック属性間の統計的依存関係によって引き起こされるユーティリティとセマンティック依存の2つの基本的なトレードオフを特定し、決定する。本稿では,代表問題に対するトレードオフを数値的に定量化し,ベースライン表現学習アルゴリズムによる解と比較する。
論文参考訳（メタデータ） (2021-09-08T01:26:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。