論文の概要: Improving Social Welfare While Preserving Autonomy via a Pareto Mediator
- arxiv url: http://arxiv.org/abs/2106.03927v1
- Date: Mon, 7 Jun 2021 19:34:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-10 11:45:42.782154
- Title: Improving Social Welfare While Preserving Autonomy via a Pareto Mediator
- Title(参考訳): パレート・メディエーターによる自律保存型社会福祉の改善
- Authors: Stephen McAleer, John Lanier, Michael Dennis, Pierre Baldi, Roy Fox
- Abstract要約: エージェントが自身のアクションを選択したり、中央のメディエーターにアクションを委譲したりできるドメインでは、オープンな質問は、エージェントを委譲する代わりに仲介者がどのようにアクションをとるべきかである。
既存のアプローチでは、デリゲートエージェントを使用して非デリゲートエージェントを罰し、すべてのエージェントを委譲しようとする。
エージェントを悪化させることなく、エージェントの委譲結果を改善することを目的としたPareto Mediatorを導入する。
- 参考スコア(独自算出の注目度): 15.10019081251098
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning algorithms often make decisions on behalf of agents with
varied and sometimes conflicting interests. In domains where agents can choose
to take their own action or delegate their action to a central mediator, an
open question is how mediators should take actions on behalf of delegating
agents. The main existing approach uses delegating agents to punish
non-delegating agents in an attempt to get all agents to delegate, which tends
to be costly for all. We introduce a Pareto Mediator which aims to improve
outcomes for delegating agents without making any of them worse off. Our
experiments in random normal form games, a restaurant recommendation game, and
a reinforcement learning sequential social dilemma show that the Pareto
Mediator greatly increases social welfare. Also, even when the Pareto Mediator
is based on an incorrect model of agent utility, performance gracefully
degrades to the pre-intervention level, due to the individual autonomy
preserved by the voluntary mediator.
- Abstract(参考訳): 機械学習アルゴリズムは、しばしば異なる、時には相反する利害関係を持つエージェントのために決定を下す。
エージェントが自身のアクションを選択したり、中央のメディエーターにアクションを委譲できるドメインでは、オープンな質問は、エージェントを委譲する代わりに仲介者がどのようにアクションをとるべきかである。
既存のアプローチでは、非委任エージェントを罰するために委任エージェントを使用し、すべてのエージェントを委譲しようとする。
我々は,降格エージェントの成果を悪化させることなく改善することを目的としたparetoメディエータを導入する。
ランダムなノーマルフォームゲーム,レストランレコメンデーションゲーム,強化学習型ソーシャルジレンマによる実験の結果,Pareto Mediatorは社会福祉を大幅に向上させることが示された。
また、パレート・メディエーターが不正なエージェントユーティリティのモデルに基づいている場合でも、自発的なメディエーターによって保存される個人の自律性のため、パフォーマンスは介入前のレベルに優雅に低下する。
関連論文リスト
- Online Decision Mediation [72.80902932543474]
意思決定支援アシスタントを学習し、(好奇心)専門家の行動と(不完全)人間の行動の仲介役として機能することを検討する。
臨床診断では、完全に自律的な機械行動は倫理的余裕を超えることが多い。
論文 参考訳(メタデータ) (2023-10-28T05:59:43Z) - Byzantine-Resilient Decentralized Multi-Armed Bandits [25.499420566469098]
エージェント間の情報混合ステップを不整合および極端な値の切り離しで融合するアルゴリズムを開発する。
このフレームワークは、コンピュータネットワークの攻撃者をモデル化したり、攻撃的なコンテンツをレコメンデーターシステムに攻撃したり、金融市場のマニピュレータとして利用することができる。
論文 参考訳(メタデータ) (2023-10-11T09:09:50Z) - Optimizing delegation between human and AI collaborative agents [1.6114012813668932]
私たちは、潜在的なパフォーマンス上の欠陥に関してデリゲート決定を行うために、デリゲートマネージャエージェントを訓練します。
我々のフレームワークは、エージェントをマッチングのダイナミクスに制限することなく、チームパフォーマンスの観察を通して学習する。
この結果から,環境の異なる表現の下で運用するエージェントチームによる委譲決定の実施をマネージャが学べることが判明した。
論文 参考訳(メタデータ) (2023-09-26T07:23:26Z) - Pure Exploration under Mediators' Feedback [63.56002444692792]
マルチアームバンディット(Multi-armed bandits)は、各インタラクションステップにおいて、学習者が腕を選択し、報酬を観察する、シーケンシャルな意思決定フレームワークである。
本稿では,学習者が仲介者の集合にアクセスできるシナリオについて考察する。
本稿では,学習者には仲介者の方針が知られていると仮定して,最適な腕を発見するための逐次的意思決定戦略を提案する。
論文 参考訳(メタデータ) (2023-08-29T18:18:21Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - Mediated Multi-Agent Reinforcement Learning [3.8581550679584473]
社会福祉を最大化するために、政策グラデーションを持つエージェントとともに仲介者を訓練する方法を示す。
行列ゲームと反復ゲームにおける実験は,マルチエージェント強化学習におけるメディエータの適用の可能性を強調した。
論文 参考訳(メタデータ) (2023-06-14T10:31:37Z) - Decentralized scheduling through an adaptive, trading-based multi-agent
system [1.7403133838762448]
多エージェント強化学習システムでは、あるエージェントの動作が他のエージェントの報酬に悪影響を及ぼす可能性がある。
この作業は、エージェントが入ってくるジョブをコアに割り当てる責任を負うシミュレーションスケジューリング環境に、トレーディングアプローチを適用します。
エージェントは計算コアの使用権を交換して、低優先度で低報酬のジョブよりも高速に、高利益のジョブを処理できる。
論文 参考訳(メタデータ) (2022-07-05T13:50:18Z) - Zero-Shot Assistance in Novel Decision Problems [14.376001248562797]
我々は、エージェント(しばしば人間)が新しいシーケンシャルな意思決定問題を解決するのに役立つアシスタントを作成するという問題を考察する。
エージェントを現在のアプローチとして自動化し、代行する代わりに、アシスタントにアドバイザリの役割を与え、エージェントを主要な意思決定者としてループに留める。
論文 参考訳(メタデータ) (2022-02-15T12:45:42Z) - Explaining Reinforcement Learning Policies through Counterfactual
Trajectories [147.7246109100945]
人間の開発者は、RLエージェントがテスト時にうまく機能することを検証しなければならない。
本手法では, エージェントの挙動をより広い軌道分布で示すことにより, エージェントの挙動を分布変化下で表現する。
本研究では,2つのエージェント検証タスクのうちの1つに対して,ベースライン法よりも優れたスコアを得られることを示す。
論文 参考訳(メタデータ) (2022-01-29T00:52:37Z) - Learning Latent Representations to Influence Multi-Agent Interaction [65.44092264843538]
エージェントのポリシーの潜在表現を学習するための強化学習に基づくフレームワークを提案する。
提案手法は代替手段よりも優れており,他のエージェントに影響を与えることを学習している。
論文 参考訳(メタデータ) (2020-11-12T19:04:26Z) - Learning to Incentivize Other Learning Agents [73.03133692589532]
我々は、学習インセンティブ関数を用いて、RLエージェントに他のエージェントに直接報酬を与える能力を持たせる方法を示す。
このようなエージェントは、一般的なマルコフゲームにおいて、標準のRLと対戦型エージェントを著しく上回っている。
私たちの仕事は、マルチエージェントの未来において共通の善を確実にする道のりに沿って、より多くの機会と課題を指しています。
論文 参考訳(メタデータ) (2020-06-10T20:12:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。