論文の概要: Collaborative Training of Heterogeneous Reinforcement Learning Agents in
Environments with Sparse Rewards: What and When to Share?
- arxiv url: http://arxiv.org/abs/2202.12174v1
- Date: Thu, 24 Feb 2022 16:15:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-25 16:20:15.305839
- Title: Collaborative Training of Heterogeneous Reinforcement Learning Agents in
Environments with Sparse Rewards: What and When to Share?
- Title(参考訳): スパース報酬環境における異種強化学習エージェントの協調学習:共有すべき時とは何だろうか?
- Authors: Alain Andres, Esther Villar-Rodriguez and Javier Del Ser
- Abstract要約: 本研究は,本質的なモチベーションを通じて得られた情報と,より効率的な探索と学習の高速化を目的とした情報を組み合わせることに焦点を当てる。
計算コストの少ない協調的なフレームワークが知識を共有することなく独立した学習プロセスより優れていることを示す。
- 参考スコア(独自算出の注目度): 7.489793155793319
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the early stages of human life, babies develop their skills by exploring
different scenarios motivated by their inherent satisfaction rather than by
extrinsic rewards from the environment. This behavior, referred to as intrinsic
motivation, has emerged as one solution to address the exploration challenge
derived from reinforcement learning environments with sparse rewards. Diverse
exploration approaches have been proposed to accelerate the learning process
over single- and multi-agent problems with homogeneous agents. However, scarce
studies have elaborated on collaborative learning frameworks between
heterogeneous agents deployed into the same environment, but interacting with
different instances of the latter without any prior knowledge. Beyond the
heterogeneity, each agent's characteristics grant access only to a subset of
the full state space, which may hide different exploration strategies and
optimal solutions. In this work we combine ideas from intrinsic motivation and
transfer learning. Specifically, we focus on sharing parameters in actor-critic
model architectures and on combining information obtained through intrinsic
motivation with the aim of having a more efficient exploration and faster
learning. We test our strategies through experiments performed over a modified
ViZDooM's My Way Home scenario, which is more challenging than its original
version and allows evaluating the heterogeneity between agents. Our results
reveal different ways in which a collaborative framework with little additional
computational cost can outperform an independent learning process without
knowledge sharing. Additionally, we depict the need for modulating correctly
the importance between the extrinsic and intrinsic rewards to avoid undesired
agent behaviors.
- Abstract(参考訳): 人間の人生の初期段階では、赤ちゃんは、環境からの過度の報酬ではなく、固有の満足度によって動機づけられた異なるシナリオを探求することで、スキルを発達させる。
この行動は本質的動機と呼ばれ、少ない報酬で強化学習環境に由来する探索課題に対処する一つの解決策として浮上した。
均質なエージェントを用いた単一および複数エージェント問題に対する学習プロセスを加速するための多様な探索手法が提案されている。
しかし、同じ環境にデプロイされた異種エージェント間の協調学習フレームワークに関する研究は少ないが、事前の知識なしに後者の異なるインスタンスと相互作用している。
異質性以外にも、各エージェントの特徴は全状態空間のサブセットにのみアクセスを許し、異なる探索戦略や最適解を隠蔽する可能性がある。
この作業では、本質的な動機づけと転校学習のアイデアを組み合わせる。
具体的には,アクタークリティカルモデルアーキテクチャにおけるパラメータの共有と,本質的なモチベーションを通じて得られた情報と,より効率的な探索と学習の高速化を両立することに焦点を当てる。
我々は、VizDooMのMy Way Homeシナリオを改良して実施した実験を通じて、我々の戦略をテストする。
その結果,計算コストの少ない協調フレームワークが,知識共有を伴わない独立した学習プロセスに勝る方法が明らかとなった。
さらに,意図しないエージェントの行動を避けるために,内在的な報酬と内在的な報酬の関係を正しく調整する必要があることを述べる。
関連論文リスト
- Reciprocal Reward Influence Encourages Cooperation From Self-Interested Agents [2.1301560294088318]
自己関心の個人間の協力は、自然界で広く見られる現象であるが、人工的な知的エージェント間の相互作用においては、いまだ解明されていない。
そこで,本研究では,リターンに対する相手の行動の影響を再現するために,本質的に動機づけられた強化学習エージェントであるReciprocatorを紹介する。
本研究では,同時学習において,時間的に拡張された社会的ジレンマにおける協調を促進するために,共用者が利用できることを示す。
論文 参考訳(メタデータ) (2024-06-03T06:07:27Z) - Joint Intrinsic Motivation for Coordinated Exploration in Multi-Agent
Deep Reinforcement Learning [0.0]
本稿では,エージェントが一括して斬新な行動を示すような報奨戦略を提案する。
ジムは連続した環境で機能するように設計されたノベルティの集中的な尺度に基づいて共同軌道に報いる。
その結果、最適戦略が高レベルの調整を必要とするタスクの解決には、共同探索が不可欠であることが示唆された。
論文 参考訳(メタデータ) (2024-02-06T13:02:00Z) - Multi-Agent Interplay in a Competitive Survival Environment [0.0]
この論文は、2022年、ローマ・サピエンザ大学の人工知能とロボティクスの修士号に対する著者の論文"Multi-Agent Interplay in a Competitive Survival Environment"の一部である。
論文 参考訳(メタデータ) (2023-01-19T12:04:03Z) - Towards Improving Exploration in Self-Imitation Learning using Intrinsic
Motivation [7.489793155793319]
強化学習(Reinforcement Learning)は、最適化タスクを効率的に解くための強力な代替手段として登場した。
これらのアルゴリズムの使用は、学習したエージェントが行う決定がどれほど良い(または悪い)かを知らせる環境の提供するフィードバック信号に大きく依存する。
この研究では、本質的な動機付けは、エージェントが好奇心に基づいて環境を探索することを奨励するのに対して、模倣学習は学習プロセスを加速するために最も有望な経験を繰り返すことができる。
論文 参考訳(メタデータ) (2022-11-30T09:18:59Z) - Autonomous Reinforcement Learning: Formalism and Benchmarking [106.25788536376007]
人間や動物が行うような現実世界の具体的学習は、連続的で非エポゾディックな世界にある。
RLの一般的なベンチマークタスクはエピソジックであり、試行錯誤によってエージェントに複数の試行を行う環境がリセットされる。
この相違は、擬似環境向けに開発されたRLアルゴリズムを現実世界のプラットフォーム上で実行しようとする場合、大きな課題となる。
論文 参考訳(メタデータ) (2021-12-17T16:28:06Z) - Seeing Differently, Acting Similarly: Imitation Learning with
Heterogeneous Observations [126.78199124026398]
多くの実世界の模倣学習タスクでは、デモレーターと学習者は異なるが完全な観察空間で行動しなければならない。
本研究では、上記の学習問題を異種観察学習(HOIL)としてモデル化する。
本稿では,重要度重み付け,拒否学習,アクティブクエリに基づくIWREアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-17T05:44:04Z) - Importance Weighted Policy Learning and Adaptation [89.46467771037054]
政治外学習の最近の進歩の上に構築された,概念的にシンプルで,汎用的で,モジュール的な補完的アプローチについて検討する。
このフレームワークは確率論的推論文学のアイデアにインスパイアされ、堅牢な非政治学習と事前の行動を組み合わせる。
提案手法は,メタ強化学習ベースラインと比較して,ホールドアウトタスクにおける競合適応性能を実現し,複雑なスパース・リワードシナリオにスケールすることができる。
論文 参考訳(メタデータ) (2020-09-10T14:16:58Z) - Bridging the Imitation Gap by Adaptive Insubordination [88.35564081175642]
教官が特権情報にアクセスして意思決定を行う場合、この情報は模倣学習中に疎外されることを示す。
本稿では,このギャップに対処するため,適応的不規則化(ADVISOR)を提案する。
ADVISORは、トレーニング中の模倣と報酬に基づく強化学習損失を動的に重み付け、模倣と探索をオンザフライで切り替えることを可能にする。
論文 参考訳(メタデータ) (2020-07-23T17:59:57Z) - Ecological Reinforcement Learning [76.9893572776141]
このような条件下での学習を容易にする環境特性について検討する。
環境の特性が強化学習エージェントのパフォーマンスにどのように影響するかを理解することは、学習を魅力的にする方法でタスクを構造化するのに役立ちます。
論文 参考訳(メタデータ) (2020-06-22T17:55:03Z) - Human AI interaction loop training: New approach for interactive
reinforcement learning [0.0]
機械学習の様々な意思決定タスクにおける強化学習(RL)は、スタンドアロンの報酬関数から学習するエージェントによる効果的な結果を提供する。
RLは、多くの環境状態と行動空間、および報酬の決定に固有の課題を提示する。
イミテーションラーニング(IL)は、教師を使った課題に対して有望な解決策を提供する。
論文 参考訳(メタデータ) (2020-03-09T15:27:48Z) - Intrinsic Motivation for Encouraging Synergistic Behavior [55.10275467562764]
スパース・リワード・シナジスティック・タスクにおける強化学習の探索バイアスとしての本質的モチベーションの役割について検討した。
私たちのキーとなる考え方は、シナジスティックなタスクにおける本質的なモチベーションのための優れた指針は、エージェントが自分自身で行動している場合、達成できない方法で世界に影響を与える行動を取ることである。
論文 参考訳(メタデータ) (2020-02-12T19:34:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。