論文の概要: Accumulating Risk Capital Through Investing in Cooperation
- arxiv url: http://arxiv.org/abs/2101.10305v1
- Date: Mon, 25 Jan 2021 18:41:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-14 19:01:51.971097
- Title: Accumulating Risk Capital Through Investing in Cooperation
- Title(参考訳): 協力投資によるリスク資本の蓄積
- Authors: Charlotte Roman, Michael Dennis, Andrew Critch, Stuart Russell
- Abstract要約: 安全と協力のトレードオフは厳しいものではなく、少ないリスクから協力することで指数関数的に大きな利益を得ることができることを示す。
協力投資によるリスク資本の蓄積(ARCTIC)を目標とした教育方針の策定方法を提案する。
- 参考スコア(独自算出の注目度): 12.053132866404972
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work on promoting cooperation in multi-agent learning has resulted in
many methods which successfully promote cooperation at the cost of becoming
more vulnerable to exploitation by malicious actors. We show that this is an
unavoidable trade-off and propose an objective which balances these concerns,
promoting both safety and long-term cooperation. Moreover, the trade-off
between safety and cooperation is not severe, and you can receive exponentially
large returns through cooperation from a small amount of risk. We study both an
exact solution method and propose a method for training policies that targets
this objective, Accumulating Risk Capital Through Investing in Cooperation
(ARCTIC), and evaluate them in iterated Prisoner's Dilemma and Stag Hunt.
- Abstract(参考訳): マルチエージェント学習における協力を促進する最近の取り組みは、悪意のあるアクターによる搾取に対してより脆弱になるコストで協力を促進する多くの方法をもたらしました。
これは避けられないトレードオフであり、これらの懸念をバランスさせ、安全と長期協力の両立を促進する目標を提案する。
さらに、安全と協力のトレードオフは深刻ではなく、少量のリスクから協力することで指数関数的に大きな利益を得ることができる。
本研究は,厳密な解決方法と,この目標を目標とする政策の訓練方法,Arccumulating Risk Capital Through Investing in Cooperation (ARCTIC) について検討し,これらを反復した囚人のジレンマとスタッグハントで評価する。
関連論文リスト
- Adaptive Value Decomposition with Greedy Marginal Contribution
Computation for Cooperative Multi-Agent Reinforcement Learning [48.41925886860991]
現実世界の協力はしばしばエージェント間の集中的な調整を必要とする。
単調なユーティリティの単調混合として値関数を学習する従来の方法は、非単調なリターンでタスクを解くことはできない。
非単調な問題に対処するための新しい明示的な信用割当手法を提案する。
論文 参考訳(メタデータ) (2023-02-14T07:23:59Z) - Attacking Cooperative Multi-Agent Reinforcement Learning by Adversarial
Minority Influence [62.65441186478842]
協調型マルチエージェント強化学習(c-MARL)は、エージェント群が共通の目標を達成するための一般的なパラダイムを提供する。
敵攻撃は、強靭性を評価し、c-MARLアルゴリズムの盲点を見つける上でも重要な役割を果たす。
本稿では,敵対的マイノリティ・インフルエンス (AMI) を提案する。
論文 参考訳(メタデータ) (2023-02-07T08:54:37Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Learning Collective Action under Risk Diversity [68.88688248278102]
集団的リスクジレンマを演じることを学ぶエージェントのグループにおけるリスク多様性の結果について検討する。
リスクの多様性は、全体的な協力を著しく減らし、全体的な目標達成を妨げることを示す。
この結果から,エージェント間のリスク認識の整合性や新たな学習技術開発の必要性が浮き彫りになった。
論文 参考訳(メタデータ) (2022-01-30T18:21:21Z) - Softmax with Regularization: Better Value Estimation in Multi-Agent
Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。
ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。
本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-22T14:18:39Z) - Modeling the Interaction between Agents in Cooperative Multi-Agent
Reinforcement Learning [2.9360071145551068]
対話型アクター・クリティック(IAC)と呼ばれる新しい協調型MARLアルゴリズムを提案する。
IACは政策と価値関数の観点からエージェントの相互作用をモデル化する。
連続制御タスクに値分解手法を拡張し、古典的な制御やマルチエージェント粒子環境を含むベンチマークタスク上でIACを評価する。
論文 参考訳(メタデータ) (2021-02-10T01:58:28Z) - UneVEn: Universal Value Exploration for Multi-Agent Reinforcement
Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。
UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。
一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文 参考訳(メタデータ) (2020-10-06T19:08:47Z) - Developing cooperative policies for multi-stage tasks [0.0]
本稿では,協調型ソフトアクター批判(CSAC)手法を提案する。
CSACは非協調的な政策よりも少なくとも20%高い成功率を達成し、単一エージェントの少なくとも4倍の速さで解に収束した。
論文 参考訳(メタデータ) (2020-07-01T03:32:14Z) - Human and Multi-Agent collaboration in a human-MARL teaming framework [0.0]
強化学習は、観察、報酬の受け取り、エージェント間の内部相互作用から学ぶエージェントの効果的な結果を提供する。
本研究では,学習の源泉として人間とエージェントの相互作用を効率的に活用するオープンソースMARLフレームワークであるCOGMENTを提案する。
論文 参考訳(メタデータ) (2020-06-12T16:32:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。