論文の概要: Emergent Dominance Hierarchies in Reinforcement Learning Agents
- arxiv url: http://arxiv.org/abs/2401.12258v6
- Date: Tue, 23 Apr 2024 15:08:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 19:25:53.126587
- Title: Emergent Dominance Hierarchies in Reinforcement Learning Agents
- Title(参考訳): 強化学習エージェントにおける創発的支配階層
- Authors: Ram Rachum, Yonatan Nakar, Bill Tomlinson, Nitay Alon, Reuth Mirsky,
- Abstract要約: 現代の強化学習(RL)アルゴリズムは、様々なタスクにおいて人間より優れている。
我々は、RLエージェントの集団が、新しい集団に支配階層を発明し、学習し、強制し、伝達できることを示します。
支配的な階層構造は、鶏、マウス、魚、その他の種で研究されるものと類似した構造を持つ。
- 参考スコア(独自算出の注目度): 5.451419559128312
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern Reinforcement Learning (RL) algorithms are able to outperform humans in a wide variety of tasks. Multi-agent reinforcement learning (MARL) settings present additional challenges, and successful cooperation in mixed-motive groups of agents depends on a delicate balancing act between individual and group objectives. Social conventions and norms, often inspired by human institutions, are used as tools for striking this balance. In this paper, we examine a fundamental, well-studied social convention that underlies cooperation in both animal and human societies: dominance hierarchies. We adapt the ethological theory of dominance hierarchies to artificial agents, borrowing the established terminology and definitions with as few amendments as possible. We demonstrate that populations of RL agents, operating without explicit programming or intrinsic rewards, can invent, learn, enforce, and transmit a dominance hierarchy to new populations. The dominance hierarchies that emerge have a similar structure to those studied in chickens, mice, fish, and other species.
- Abstract(参考訳): 現代の強化学習(RL)アルゴリズムは、様々なタスクにおいて人間より優れている。
マルチエージェント強化学習(MARL)の設定には新たな課題があり、エージェントの混合モチベーションにおける協調の成功は、個人とグループ間の微妙なバランスをとる行為に依存する。
社会慣習や規範は、しばしば人間の制度にインスパイアされ、このバランスを打つための道具として使用される。
本稿では,動物社会と人間社会の連携の基盤となる,基礎的でよく研究された社会慣行,支配階層について考察する。
我々は、支配階層の倫理理論を人工エージェントに適用し、確立された用語と定義を可能な限り少ない修正で借用する。
明示的なプログラミングや本質的な報酬なしに活動するRLエージェントの集団は、新しい集団に支配階層を発明し、学習し、強制し、伝達することができることを実証する。
支配的な階層構造は、鶏、マウス、魚、その他の種で研究されるものと類似した構造を持つ。
関連論文リスト
- Static network structure cannot stabilize cooperation among Large Language Model agents [6.868298200380496]
大規模言語モデル(LLM)は、人間の社会的行動のモデル化にますます利用されている。
本研究の目的は,LLMとヒトの協調行動における並列性を明らかにすることである。
論文 参考訳(メタデータ) (2024-11-15T15:52:15Z) - SocialGFs: Learning Social Gradient Fields for Multi-Agent Reinforcement Learning [58.84311336011451]
マルチエージェント強化学習のための新しい勾配に基づく状態表現を提案する。
オフラインサンプルからソーシャルグラデーションフィールド(SocialGF)を学習するために,デノジングスコアマッチングを採用している。
実際に、SocialGFをMAPPOなど、広く使われているマルチエージェント強化学習アルゴリズムに統合する。
論文 参考訳(メタデータ) (2024-05-03T04:12:19Z) - Mathematics of multi-agent learning systems at the interface of game
theory and artificial intelligence [0.8049333067399385]
進化ゲーム理論と人工知能は、一見すると異なるように見える2つの分野であるが、それらは顕著なつながりと交差を持っている。
前者は集団における行動(または戦略)の進化に焦点を当て、個人が他人と対話し、模倣(または社会学習)に基づいて戦略を更新する。
一方後者は、機械学習アルゴリズムと(ディープ)ニューラルネットワークに重点を置いている。
論文 参考訳(メタデータ) (2024-03-09T17:36:54Z) - Innate-Values-driven Reinforcement Learning for Cooperative Multi-Agent
Systems [1.8220718426493654]
本来の価値はエージェントの本質的なモチベーションを表しており、それはエージェントの本来の関心や目標を追求する好みを反映している。
強化学習(RL)の本質は、報酬駆動(ユーティリティなど)の振る舞いに基づく相互作用から学ぶことである。
本稿では,多エージェント相互作用の複雑な振る舞いを記述するために,階層型複合値強化学習モデル(本質的強化学習)を提案する。
論文 参考訳(メタデータ) (2024-01-10T22:51:10Z) - Agent Alignment in Evolving Social Norms [65.45423591744434]
本稿では,エージェント進化とアライメントのための進化的フレームワークであるEvolutionaryAgentを提案する。
社会規範が継続的に進化する環境では、エージェントは現在の社会規範に適応し、生存と増殖の確率が高くなる。
進化的エージェントは、一般的なタスクにおいてその能力を維持しながら、進化する社会規範と徐々に整合できることを示す。
論文 参考訳(メタデータ) (2024-01-09T15:44:44Z) - LDSA: Learning Dynamic Subtask Assignment in Cooperative Multi-Agent
Reinforcement Learning [122.47938710284784]
協調型MARLにおける動的サブタスク代入(LDSA)を学習するための新しいフレームワークを提案する。
エージェントを異なるサブタスクに合理的に割り当てるために,能力に基づくサブタスク選択戦略を提案する。
LDSAは、より優れたコラボレーションのために、合理的で効果的なサブタスクの割り当てを学習していることを示す。
論文 参考訳(メタデータ) (2022-05-05T10:46:16Z) - Generalization in Cooperative Multi-Agent Systems [49.16349318581611]
協調型マルチエージェントシステムのための組合せ一般化(CG)の理論的基盤について検討する。
CGは、幅広いアプリケーションにまたがる実用性とデプロイ性を向上させることができるため、自律システムにとって非常に望ましい特徴である。
論文 参考訳(メタデータ) (2022-01-31T21:39:56Z) - Autonomous Reinforcement Learning: Formalism and Benchmarking [106.25788536376007]
人間や動物が行うような現実世界の具体的学習は、連続的で非エポゾディックな世界にある。
RLの一般的なベンチマークタスクはエピソジックであり、試行錯誤によってエージェントに複数の試行を行う環境がリセットされる。
この相違は、擬似環境向けに開発されたRLアルゴリズムを現実世界のプラットフォーム上で実行しようとする場合、大きな課題となる。
論文 参考訳(メタデータ) (2021-12-17T16:28:06Z) - Improved cooperation by balancing exploration and exploitation in
intertemporal social dilemma tasks [2.541277269153809]
本研究では,探索と搾取のバランスをとることができる学習率を組み込むことで協調を達成するための新たな学習戦略を提案する。
簡単な戦略を駆使したエージェントは、時間的社会的ジレンマと呼ばれる意思決定タスクにおいて、相対的に集団的リターンを改善する。
また、学習率の多様性が強化学習エージェントの人口に与える影響についても検討し、異種集団で訓練されたエージェントが特に協調した政策を発達させることを示す。
論文 参考訳(メタデータ) (2021-10-19T08:40:56Z) - Provable Hierarchy-Based Meta-Reinforcement Learning [50.17896588738377]
HRLをメタRL設定で解析し、下流タスクで使用するメタトレーニング中に学習者が潜在階層構造を学習する。
我々は、この自然階層の標本効率の回復を保証し、抽出可能な楽観主義に基づくアルゴリズムとともに「多様性条件」を提供する。
我々の境界は、時間的・状態的・行動的抽象化などのHRL文献に共通する概念を取り入れており、我々の設定と分析が実際にHRLの重要な特徴を捉えていることを示唆している。
論文 参考訳(メタデータ) (2021-10-18T17:56:02Z) - Affinity-Based Hierarchical Learning of Dependent Concepts for Human
Activity Recognition [6.187780920448871]
重なり合うクラスを階層化することで、分類性能が大幅に向上することを示す。
これは、SHLデータセットに特徴付けられるアクティビティ認識タスクの場合、特に当てはまります。
学習プロセスの最適階層を決定するために,クラス間の移動親和性に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-04-11T01:08:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。