論文の概要: Improved Cooperation by Exploiting a Common Signal
- arxiv url: http://arxiv.org/abs/2102.02304v1
- Date: Wed, 3 Feb 2021 21:27:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-05 16:17:38.610663
- Title: Improved Cooperation by Exploiting a Common Signal
- Title(参考訳): 共通信号の爆発による協調改善
- Authors: Panayiotis Danassis, Zeki Doruk Erden, Boi Faltings
- Abstract要約: 本稿では,共通プール資源に着目し,学習のダイナミクスと時間的慣行の出現について考察する。
我々は、時間的慣行が出現し、エージェントが持続可能な収穫戦略に到達できることを示します。
- 参考スコア(独自算出の注目度): 24.52552750240412
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Can artificial agents benefit from human conventions? Human societies manage
to successfully self-organize and resolve the tragedy of the commons in
common-pool resources, in spite of the bleak prediction of non-cooperative game
theory. On top of that, real-world problems are inherently large-scale and of
low observability. One key concept that facilitates human coordination in such
settings is the use of conventions. Inspired by human behavior, we investigate
the learning dynamics and emergence of temporal conventions, focusing on
common-pool resources. Extra emphasis was given in designing a realistic
evaluation setting: (a) environment dynamics are modeled on real-world
fisheries, (b) we assume decentralized learning, where agents can observe only
their own history, and (c) we run large-scale simulations (up to 64 agents).
Uncoupled policies and low observability make cooperation hard to achieve; as
the number of agents grow, the probability of taking a correct gradient
direction decreases exponentially. By introducing an arbitrary common signal
(e.g., date, time, or any periodic set of numbers) as a means to couple the
learning process, we show that temporal conventions can emerge and agents reach
sustainable harvesting strategies. The introduction of the signal consistently
improves the social welfare (by 258% on average, up to 3306%), the range of
environmental parameters where sustainability can be achieved (by 46% on
average, up to 300%), and the convergence speed in low abundance settings (by
13% on average, up to 53%).
- Abstract(参考訳): 人工エージェントは人間の慣習から利益を得られるか?
人間社会は、非協調ゲーム理論の暗黙の予測にもかかわらず、共通プール資源におけるコモンズの悲劇を自己組織し解決することに成功している。
その上、現実世界の問題は本質的に大規模なもので、可観測性が低い。
このような設定での人間の協調を促進する重要な概念の1つは、規約の使用である。
人間の行動にインスパイアされた我々は,共通プール資源に着目し,時間的慣行の学習力学と出現を考察した。
a)環境ダイナミクスは実世界の漁業に基づいてモデル化され、(b)エージェントは自分の歴史だけを観察できる分散型学習を想定し、(c)大規模シミュレーション(最大64エージェント)を実行する。
非結合ポリシーと低可観測性は協力を困難にし、エージェントの数が増えるにつれて、正しい勾配方向を取る確率は指数関数的に減少する。
学習過程を結合する手段として任意の共通信号(例えば、日付、時間、周期的な数集合)を導入することにより、時間的慣行が出現し、持続的な収穫戦略に到達することを示す。
この信号の導入により、社会福祉(平均258%、最大3306%)、持続可能性を達成することができる環境パラメータの範囲(平均46%、平均300%)、低存在量設定での収束速度(平均13%、最大53%)が一貫して改善される。
関連論文リスト
- General Geospatial Inference with a Population Dynamics Foundation Model [17.696501367579014]
Population Dynamics Foundation Model (PDFM)は、多様なデータモダリティ間の関係を捉えることを目的としている。
まず、アメリカ合衆国全土の郵便番号と郡のための地理インデックス付きデータセットを構築した。
次に、グラフニューラルネットワークを用いて、このデータと位置間の複雑な関係をモデル化する。
我々は、PDFMと最先端の予測基盤モデルであるTimesFMを組み合わせることで、失業と貧困を予測する。
論文 参考訳(メタデータ) (2024-11-11T18:32:44Z) - Networked Communication for Mean-Field Games with Function Approximation and Empirical Mean-Field Estimation [59.01527054553122]
分散エージェントは、経験的システムの単一かつ非エポゾディックな実行から平均フィールドゲームにおける平衡を学ぶことができる。
既存の設定に関数近似を導入し,Munchausen Online Mirror Descent 方式で描画する。
また, エージェントが局所的な周辺地域に基づいて, グローバルな経験分布を推定できる新しいアルゴリズムも提供する。
論文 参考訳(メタデータ) (2024-08-21T13:32:46Z) - Ego-Foresight: Agent Visuomotor Prediction as Regularization for RL [34.6883445484835]
エゴフォレスト(Ego-Foresight)は、エージェントと環境を移動と予測に基づいて切り離す自己管理手法である。
本稿では,エージェントのビジュモータ予測がRLアルゴリズムの正規化に役立ち,動作が予測可能な範囲内に留まるよう促すことを示す。
Ego-ForesightとモデルフリーなRLアルゴリズムを統合し、ロボット操作のシミュレーションを解くことで、効率が23%向上し、性能が8%向上した。
論文 参考訳(メタデータ) (2024-05-27T13:32:43Z) - Multi-Agent Dynamic Relational Reasoning for Social Robot Navigation [50.01551945190676]
社会ロボットナビゲーションは、日常生活の様々な状況において有用であるが、安全な人間とロボットの相互作用と効率的な軌道計画が必要である。
本稿では, 動的に進化する関係構造を明示的に推論した系統的関係推論手法を提案する。
マルチエージェント軌道予測とソーシャルロボットナビゲーションの有効性を実証する。
論文 参考訳(メタデータ) (2024-01-22T18:58:22Z) - Optimal coordination in Minority Game: A solution from reinforcement
learning [6.0413802011767705]
マイノリティゲームはおそらく、資源利用を最大化するための人間のコーディネート方法に関する洞察を提供する最も単純なモデルである。
ここでは、過去の経験と将来的な報酬の両方を評価することによって、個人の戦略が進化している強化学習のパラダイムに目を向ける。
我々は、個人が過去の経験と将来的な報酬の両方を享受するときに、人口が最適なアロケーションに達することを明らかにした。
論文 参考訳(メタデータ) (2023-12-20T00:47:45Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - Modeling Bounded Rationality in Multi-Agent Simulations Using Rationally
Inattentive Reinforcement Learning [85.86440477005523]
我々は、人間不合理性の確立されたモデルであるRational Inattention(RI)モデルを含む、より人間的なRLエージェントについて検討する。
RIRLは、相互情報を用いた認知情報処理のコストをモデル化する。
我々は、RIRLを用いることで、合理的な仮定の下で発見されたものと異なる、新しい平衡挙動の豊富なスペクトルが得られることを示す。
論文 参考訳(メタデータ) (2022-01-18T20:54:00Z) - Locality Matters: A Scalable Value Decomposition Approach for
Cooperative Multi-Agent Reinforcement Learning [52.7873574425376]
協調型マルチエージェント強化学習(MARL)は,エージェント数で指数関数的に大きい状態空間と動作空間により,スケーラビリティの問題に直面する。
本稿では,学習分散実行パラダイムに局所報酬を組み込んだ,新しい価値に基づくマルチエージェントアルゴリズム LOMAQ を提案する。
論文 参考訳(メタデータ) (2021-09-22T10:08:15Z) - When Is Generalizable Reinforcement Learning Tractable? [74.87383727210705]
複数の環境に一般化可能なRLエージェントの訓練に必要なクエリ複雑性について検討する。
異なる環境の相対的近接性を正確に特徴付ける構造条件である強近接を導入する。
この条件の自然な弱化の下では、rlは水平方向に指数関数的であるクエリの複雑さを必要とする。
論文 参考訳(メタデータ) (2021-01-01T19:08:24Z) - Data-Efficient Reinforcement Learning with Self-Predictive
Representations [21.223069189953037]
我々はエージェントに、未来への複数のステップを予測させるように訓練する。
この将来の予測目標は, 試料効率の高い深部RLの先行手法よりも優れている。
今後の予測とデータ拡張を組み合わせた完全な自己監督目標が,アタリにおける人間正規化スコアの0.415を達成している。
論文 参考訳(メタデータ) (2020-07-12T07:38:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。