論文の概要: Improved Cooperation by Exploiting a Common Signal
- arxiv url: http://arxiv.org/abs/2102.02304v1
- Date: Wed, 3 Feb 2021 21:27:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-05 16:17:38.610663
- Title: Improved Cooperation by Exploiting a Common Signal
- Title(参考訳): 共通信号の爆発による協調改善
- Authors: Panayiotis Danassis, Zeki Doruk Erden, Boi Faltings
- Abstract要約: 本稿では,共通プール資源に着目し,学習のダイナミクスと時間的慣行の出現について考察する。
我々は、時間的慣行が出現し、エージェントが持続可能な収穫戦略に到達できることを示します。
- 参考スコア(独自算出の注目度): 24.52552750240412
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Can artificial agents benefit from human conventions? Human societies manage
to successfully self-organize and resolve the tragedy of the commons in
common-pool resources, in spite of the bleak prediction of non-cooperative game
theory. On top of that, real-world problems are inherently large-scale and of
low observability. One key concept that facilitates human coordination in such
settings is the use of conventions. Inspired by human behavior, we investigate
the learning dynamics and emergence of temporal conventions, focusing on
common-pool resources. Extra emphasis was given in designing a realistic
evaluation setting: (a) environment dynamics are modeled on real-world
fisheries, (b) we assume decentralized learning, where agents can observe only
their own history, and (c) we run large-scale simulations (up to 64 agents).
Uncoupled policies and low observability make cooperation hard to achieve; as
the number of agents grow, the probability of taking a correct gradient
direction decreases exponentially. By introducing an arbitrary common signal
(e.g., date, time, or any periodic set of numbers) as a means to couple the
learning process, we show that temporal conventions can emerge and agents reach
sustainable harvesting strategies. The introduction of the signal consistently
improves the social welfare (by 258% on average, up to 3306%), the range of
environmental parameters where sustainability can be achieved (by 46% on
average, up to 300%), and the convergence speed in low abundance settings (by
13% on average, up to 53%).
- Abstract(参考訳): 人工エージェントは人間の慣習から利益を得られるか?
人間社会は、非協調ゲーム理論の暗黙の予測にもかかわらず、共通プール資源におけるコモンズの悲劇を自己組織し解決することに成功している。
その上、現実世界の問題は本質的に大規模なもので、可観測性が低い。
このような設定での人間の協調を促進する重要な概念の1つは、規約の使用である。
人間の行動にインスパイアされた我々は,共通プール資源に着目し,時間的慣行の学習力学と出現を考察した。
a)環境ダイナミクスは実世界の漁業に基づいてモデル化され、(b)エージェントは自分の歴史だけを観察できる分散型学習を想定し、(c)大規模シミュレーション(最大64エージェント)を実行する。
非結合ポリシーと低可観測性は協力を困難にし、エージェントの数が増えるにつれて、正しい勾配方向を取る確率は指数関数的に減少する。
学習過程を結合する手段として任意の共通信号(例えば、日付、時間、周期的な数集合)を導入することにより、時間的慣行が出現し、持続的な収穫戦略に到達することを示す。
この信号の導入により、社会福祉(平均258%、最大3306%)、持続可能性を達成することができる環境パラメータの範囲(平均46%、平均300%)、低存在量設定での収束速度(平均13%、最大53%)が一貫して改善される。
関連論文リスト
- Decentralized Adversarial Training over Graphs [55.28669771020857]
機械学習モデルの敵攻撃に対する脆弱性は、近年、かなりの注目を集めている。
この研究は、個々のエージェントが様々な強度摂動空間に従属するグラフ上の敵の訓練を研究する。
論文 参考訳(メタデータ) (2023-03-23T15:05:16Z) - Efficient Deep Reinforcement Learning with Predictive Processing
Proximal Policy Optimization [3.8570045844185237]
センサ状態を予測するリカレントニューラルネットワークは,サプライズを最小化するために有効であることを示す。
本稿では,P4O(Predictive Processing Proximal Policy Optimization)エージェントを提案する。
これは、世界モデルを隠れた状態に統合することで、PPOアルゴリズムの繰り返し変種に予測処理を適用する。
論文 参考訳(メタデータ) (2022-11-11T14:30:59Z) - The Boltzmann Policy Distribution: Accounting for Systematic
Suboptimality in Human Models [5.736353542430439]
本稿では,Boltzmann Policy Distribution(BPD)を紹介する。
BPDはベイズ推論を介して適応し、1回のエピソードで人間の行動を観察することで系統的な偏差を捉える。
我々は,BPDが人間行動の予測と人間-AI協調を可能にすると同時に,模倣学習に基づく人間モデルも可能であることを示す。
論文 参考訳(メタデータ) (2022-04-22T15:26:25Z) - Zipfian environments for Reinforcement Learning [19.309119596790563]
シュキュード体験からしっかり学習することは、シミュレーションや研究室を超えてDeep RL手法を適用する上で重要な課題であることを示す。
エージェントの経験がZipfian(離散電力法則)分布によって異なる3つの相補的なRL環境を開発する。
この結果から, シュキュード・エクスペリエンスからの学習が, シミュレーションや実験室を超えて深部RL法を適用する上で重要な課題であることが示唆された。
論文 参考訳(メタデータ) (2022-03-15T19:59:10Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - Modeling Bounded Rationality in Multi-Agent Simulations Using Rationally
Inattentive Reinforcement Learning [85.86440477005523]
我々は、人間不合理性の確立されたモデルであるRational Inattention(RI)モデルを含む、より人間的なRLエージェントについて検討する。
RIRLは、相互情報を用いた認知情報処理のコストをモデル化する。
我々は、RIRLを用いることで、合理的な仮定の下で発見されたものと異なる、新しい平衡挙動の豊富なスペクトルが得られることを示す。
論文 参考訳(メタデータ) (2022-01-18T20:54:00Z) - Locality Matters: A Scalable Value Decomposition Approach for
Cooperative Multi-Agent Reinforcement Learning [52.7873574425376]
協調型マルチエージェント強化学習(MARL)は,エージェント数で指数関数的に大きい状態空間と動作空間により,スケーラビリティの問題に直面する。
本稿では,学習分散実行パラダイムに局所報酬を組み込んだ,新しい価値に基づくマルチエージェントアルゴリズム LOMAQ を提案する。
論文 参考訳(メタデータ) (2021-09-22T10:08:15Z) - When Is Generalizable Reinforcement Learning Tractable? [74.87383727210705]
複数の環境に一般化可能なRLエージェントの訓練に必要なクエリ複雑性について検討する。
異なる環境の相対的近接性を正確に特徴付ける構造条件である強近接を導入する。
この条件の自然な弱化の下では、rlは水平方向に指数関数的であるクエリの複雑さを必要とする。
論文 参考訳(メタデータ) (2021-01-01T19:08:24Z) - Coordinated Online Learning for Multi-Agent Systems with Coupled
Constraints and Perturbed Utility Observations [91.02019381927236]
本研究では, 資源制約を満たすため, エージェントを安定な集団状態へ誘導する新しい手法を提案する。
提案手法は,ゲームラグランジアンの拡張によるリソース負荷に基づく分散リソース価格設定手法である。
論文 参考訳(メタデータ) (2020-10-21T10:11:17Z) - Data-Efficient Reinforcement Learning with Self-Predictive
Representations [21.223069189953037]
我々はエージェントに、未来への複数のステップを予測させるように訓練する。
この将来の予測目標は, 試料効率の高い深部RLの先行手法よりも優れている。
今後の予測とデータ拡張を組み合わせた完全な自己監督目標が,アタリにおける人間正規化スコアの0.415を達成している。
論文 参考訳(メタデータ) (2020-07-12T07:38:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。