論文の概要: Multi-Principal Assistance Games: Definition and Collegial Mechanisms
- arxiv url: http://arxiv.org/abs/2012.14536v1
- Date: Tue, 29 Dec 2020 00:06:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-18 20:32:55.839070
- Title: Multi-Principal Assistance Games: Definition and Collegial Mechanisms
- Title(参考訳): multi-principal assistance games: definition and collegial mechanism
- Authors: Arnaud Fickinger, Simon Zhuang, Andrew Critch, Dylan Hadfield-Menell,
Stuart Russell
- Abstract要約: マルチプリンシパルアシスタンスゲーム(MPAG)の概念を紹介します。
MPAGでは、1つのエージェントが、広く異なる嗜好を持つ可能性のあるN人のヒトのプリンシパルを支援する。
特に見習い学習の一般化について分析し,人間は実用性を得るために最初にいくつかの作業を行い,その嗜好を実証する。
- 参考スコア(独自算出の注目度): 16.491889275389457
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce the concept of a multi-principal assistance game (MPAG), and
circumvent an obstacle in social choice theory, Gibbard's theorem, by using a
sufficiently collegial preference inference mechanism. In an MPAG, a single
agent assists N human principals who may have widely different preferences.
MPAGs generalize assistance games, also known as cooperative inverse
reinforcement learning games. We analyze in particular a generalization of
apprenticeship learning in which the humans first perform some work to obtain
utility and demonstrate their preferences, and then the robot acts to further
maximize the sum of human payoffs. We show in this setting that if the game is
sufficiently collegial, i.e. if the humans are responsible for obtaining a
sufficient fraction of the rewards through their own actions, then their
preferences are straightforwardly revealed through their work. This revelation
mechanism is non-dictatorial, does not limit the possible outcomes to two
alternatives, and is dominant-strategy incentive-compatible.
- Abstract(参考訳): 本稿では,マルチプリンシパル・アシスト・ゲーム(MPAG)の概念を導入し,社会的選択論,ギバードの定理の障害を回避するために,十分な合理的選好推論機構を用いた。
MPAGでは、1つのエージェントが、広く異なる嗜好を持つ可能性のあるN人のヒトのプリンシパルを支援する。
mpagsは、協調逆強化学習ゲームとしても知られる援助ゲーム全般を一般化する。
本研究では,特に,人間による授業学習の一般化について分析し,まず,有効性を得るための作業を行い,好みを示すとともに,ロボットが人間の給与の合計をさらに最大化するために行動する。
この設定で、ゲームが十分に合理であれば、すなわち、そのゲームが十分に合理であることを示す。
人間が自分の行動を通じて 報酬の十分な部分を得る責任があるなら 彼らの好みは 彼らの仕事を通して 明らかになる
この啓示機構は非独裁的であり、可能な結果を2つの選択肢に制限しない。
関連論文リスト
- Learning to Assist Humans without Inferring Rewards [65.28156318196397]
我々は、エンパワーメントのレンズを通して支援を研究する先行研究に基づいて構築する。
補助剤は、人間の行動の影響を最大化することを目的としている。
これらの表現は、先行研究と類似したエンパワーメントの概念を推定する。
論文 参考訳(メタデータ) (2024-11-04T21:31:04Z) - Incentivized Learning in Principal-Agent Bandit Games [62.41639598376539]
この作品では、主役がエージェントを通してしか環境と対話できないような、主役と主役のバンディットゲームが繰り返されている。
校長は、報酬を補うインセンティブを提供することで、エージェントの判断に影響を与えることができる。
我々は,マルチアームと線形コンテキスト設定の両方において,プリンシパルの後悔に対して,ほぼ最適な学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-06T16:00:46Z) - Cooperation and Control in Delegation Games [1.3518297878940662]
マルチプリンシパル・マルチエージェントシナリオをデリゲートゲームとして研究する。
このようなゲームでは、制御の問題と協調の問題の2つの重要な障害モードがある。
理論上、実証的に、これらの措置が校長の福祉をどのように決定するかを示します。
論文 参考訳(メタデータ) (2024-02-24T14:17:41Z) - Optimal coordination in Minority Game: A solution from reinforcement
learning [6.0413802011767705]
マイノリティゲームはおそらく、資源利用を最大化するための人間のコーディネート方法に関する洞察を提供する最も単純なモデルである。
ここでは、過去の経験と将来的な報酬の両方を評価することによって、個人の戦略が進化している強化学習のパラダイムに目を向ける。
我々は、個人が過去の経験と将来的な報酬の両方を享受するときに、人口が最適なアロケーションに達することを明らかにした。
論文 参考訳(メタデータ) (2023-12-20T00:47:45Z) - Cooperation Dynamics in Multi-Agent Systems: Exploring Game-Theoretic Scenarios with Mean-Field Equilibria [0.0]
本稿では,ゲーム理論のシナリオ,すなわちIterated Prisoner's Dilemmaにおける協調を呼び起こす戦略について検討する。
既存の協調戦略は、繰り返しゲームにおけるグループ指向行動を促進する効果について分析する。
この研究は、指数関数的に増加するエージェント集団のシナリオにまで及んでいる。
論文 参考訳(メタデータ) (2023-09-28T08:57:01Z) - Generating Personas for Games with Multimodal Adversarial Imitation
Learning [47.70823327747952]
強化学習は、人間のレベルでゲームをすることができるエージェントを生産する上で、広く成功している。
強化学習を超えて進むことは、幅広い人間のプレイスタイルをモデル化するために必要である。
本稿では,プレイテストのための複数のペルソナポリシーを生成するための,新しい模倣学習手法を提案する。
論文 参考訳(メタデータ) (2023-08-15T06:58:19Z) - End-to-End Learning and Intervention in Games [60.41921763076017]
ゲームにおける学習と介入のための統一的なフレームワークを提供する。
明示的および暗黙的な区別に基づく2つのアプローチを提案する。
分析結果は、実世界のいくつかの問題を用いて検証される。
論文 参考訳(メタデータ) (2020-10-26T18:39:32Z) - Multi-Principal Assistance Games [11.85513759444069]
社会的選択論や投票理論における不合理性定理はそのようなゲームに適用できる。
我々は特に、人間がまず腕の好みを示すために行動するバンディットの見習いゲームを分析する。
本稿では,選好推論と社会福祉最適化を組み合わせるために,システムの共有制御を用いた社会的選択手法を提案する。
論文 参考訳(メタデータ) (2020-07-19T00:23:25Z) - Learning to Incentivize Other Learning Agents [73.03133692589532]
我々は、学習インセンティブ関数を用いて、RLエージェントに他のエージェントに直接報酬を与える能力を持たせる方法を示す。
このようなエージェントは、一般的なマルコフゲームにおいて、標準のRLと対戦型エージェントを著しく上回っている。
私たちの仕事は、マルチエージェントの未来において共通の善を確実にする道のりに沿って、より多くの機会と課題を指しています。
論文 参考訳(メタデータ) (2020-06-10T20:12:38Z) - Intrinsic Motivation for Encouraging Synergistic Behavior [55.10275467562764]
スパース・リワード・シナジスティック・タスクにおける強化学習の探索バイアスとしての本質的モチベーションの役割について検討した。
私たちのキーとなる考え方は、シナジスティックなタスクにおける本質的なモチベーションのための優れた指針は、エージェントが自分自身で行動している場合、達成できない方法で世界に影響を与える行動を取ることである。
論文 参考訳(メタデータ) (2020-02-12T19:34:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。