論文の概要: Emergent Social Learning via Multi-agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2010.00581v3
- Date: Tue, 22 Jun 2021 21:18:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 06:58:23.312867
- Title: Emergent Social Learning via Multi-agent Reinforcement Learning
- Title(参考訳): マルチエージェント強化学習による創発的社会学習
- Authors: Kamal Ndousse, Douglas Eck, Sergey Levine, Natasha Jaques
- Abstract要約: 社会学習は、人間と動物の知性の重要な構成要素である。
本稿では,独立系強化学習エージェントが,社会的学習を用いてパフォーマンスを向上させることを学べるかどうかを検討する。
- 参考スコア(独自算出の注目度): 91.57176641192771
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Social learning is a key component of human and animal intelligence. By
taking cues from the behavior of experts in their environment, social learners
can acquire sophisticated behavior and rapidly adapt to new circumstances. This
paper investigates whether independent reinforcement learning (RL) agents in a
multi-agent environment can learn to use social learning to improve their
performance. We find that in most circumstances, vanilla model-free RL agents
do not use social learning. We analyze the reasons for this deficiency, and
show that by imposing constraints on the training environment and introducing a
model-based auxiliary loss we are able to obtain generalized social learning
policies which enable agents to: i) discover complex skills that are not
learned from single-agent training, and ii) adapt online to novel environments
by taking cues from experts present in the new environment. In contrast, agents
trained with model-free RL or imitation learning generalize poorly and do not
succeed in the transfer tasks. By mixing multi-agent and solo training, we can
obtain agents that use social learning to gain skills that they can deploy when
alone, even out-performing agents trained alone from the start.
- Abstract(参考訳): 社会学習は人間と動物の知能の重要な要素である。
社会学習者は、環境の専門家の行動からヒントを得て、洗練された行動を取得し、新しい状況に迅速に適応することができる。
本稿では,マルチエージェント環境における独立強化学習(rl)エージェントが,ソーシャルラーニングによるパフォーマンス向上を学習できるかどうかについて検討する。
ほとんどの場合、バニラモデルフリーのRLエージェントは社会学習を使用しない。
この不足の原因を分析し、トレーニング環境に制約を課し、モデルに基づく補助的損失を導入することで、エージェントの対応を可能にする汎用的な社会学習方針を得ることができることを示す。
一 シングルエージェントの訓練から学ばない複雑な技能を発見すること。
二 新しい環境に存在する専門家からヒントを得て、新しい環境にオンラインで適応すること。
対照的に、モデルフリーのrlまたは模倣学習で訓練されたエージェントは一般化が悪く、転送タスクに成功しない。
マルチエージェントとソロトレーニングを混合することで、ソーシャルラーニングを使用して、単独で展開できるスキルを得るエージェントを得ることができます。
関連論文リスト
- SocialGFs: Learning Social Gradient Fields for Multi-Agent Reinforcement Learning [58.84311336011451]
マルチエージェント強化学習のための新しい勾配に基づく状態表現を提案する。
オフラインサンプルからソーシャルグラデーションフィールド(SocialGF)を学習するために,デノジングスコアマッチングを採用している。
実際に、SocialGFをMAPPOなど、広く使われているマルチエージェント強化学習アルゴリズムに統合する。
論文 参考訳(メタデータ) (2024-05-03T04:12:19Z) - SOTOPIA-$π$: Interactive Learning of Socially Intelligent Language Agents [73.35393511272791]
本稿では,対話型学習手法であるSOTOPIA-$pi$を提案する。
この手法は,大規模言語モデル(LLM)の評価に基づいて,フィルタリングされた社会的相互作用データに対する行動クローニングと自己強化トレーニングを活用する。
論文 参考訳(メタデータ) (2024-03-13T17:17:48Z) - Empowering Large Language Model Agents through Action Learning [85.39581419680755]
大規模言語モデル(LLM)エージェントは最近ますます関心を集めているが、試行錯誤から学ぶ能力は限られている。
我々は、経験から新しい行動を学ぶ能力は、LLMエージェントの学習の進歩に欠かせないものであると論じる。
我々はPython関数の形式でアクションを作成し改善するための反復学習戦略を備えたフレームワークLearningActを紹介した。
論文 参考訳(メタデータ) (2024-02-24T13:13:04Z) - Social learning spontaneously emerges by searching optimal heuristics
with deep reinforcement learning [0.0]
多次元ランドスケープにおける協調ゲームにおけるエージェントの社会的学習戦略を最適化するために、深層強化学習モデルを用いる。
エージェントは、コピー、頻繁で良好な隣人への焦点、自己比較、個人と社会学習のバランスの重要性など、社会的学習の様々な概念を自発的に学習する。
本研究では,時間的に変化する環境や実際のソーシャルネットワークなど,各種環境における強化学習エージェントの優れた性能を示す。
論文 参考訳(メタデータ) (2022-04-26T15:10:27Z) - Help Me Explore: Minimal Social Interventions for Graph-Based Autotelic
Agents [7.644107117422287]
本稿では,双方の視点が,自己複製エージェントの学習に組み合わされ,スキル獲得が促進されることを論じる。
1) HME(Help Me Explore)と呼ばれる新しいソーシャルインタラクションプロトコルでは,個人と社会的に指導された探索の双方から,自律的なエージェントが恩恵を受けることができる。
GANGSTRは、HME内での学習において、最も複雑な構成を習得することで、個々の学習限界を克服する。
論文 参考訳(メタデータ) (2022-02-10T16:34:28Z) - Modeling Bounded Rationality in Multi-Agent Simulations Using Rationally
Inattentive Reinforcement Learning [85.86440477005523]
我々は、人間不合理性の確立されたモデルであるRational Inattention(RI)モデルを含む、より人間的なRLエージェントについて検討する。
RIRLは、相互情報を用いた認知情報処理のコストをモデル化する。
我々は、RIRLを用いることで、合理的な仮定の下で発見されたものと異なる、新しい平衡挙動の豊富なスペクトルが得られることを示す。
論文 参考訳(メタデータ) (2022-01-18T20:54:00Z) - Autonomous Reinforcement Learning: Formalism and Benchmarking [106.25788536376007]
人間や動物が行うような現実世界の具体的学習は、連続的で非エポゾディックな世界にある。
RLの一般的なベンチマークタスクはエピソジックであり、試行錯誤によってエージェントに複数の試行を行う環境がリセットされる。
この相違は、擬似環境向けに開発されたRLアルゴリズムを現実世界のプラットフォーム上で実行しようとする場合、大きな課題となる。
論文 参考訳(メタデータ) (2021-12-17T16:28:06Z) - Emergent Reciprocity and Team Formation from Randomized Uncertain Social
Preferences [8.10414043447031]
我々は,不確実な社会的嗜好(RUSP)をランダム化した訓練エージェントの創発的相互性,間接的相互性,評価,チーム形成の証拠を示す。
RUSPは汎用的でスケーラブルであり、元のゲームダイナミクスや目的を変更することなく、任意のマルチエージェント環境に適用することができる。
特に、RUSPではこれらの行動が出現し、より複雑な時間的環境において、Iterated Prisoner's Dilemmaのような古典的な抽象的社会ジレンマの社会福祉均衡をもたらすことが示される。
論文 参考訳(メタデータ) (2020-11-10T20:06:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。