論文の概要: AutoDIME: Automatic Design of Interesting Multi-Agent Environments
- arxiv url: http://arxiv.org/abs/2203.02481v1
- Date: Fri, 4 Mar 2022 18:25:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-07 14:15:25.529576
- Title: AutoDIME: Automatic Design of Interesting Multi-Agent Environments
- Title(参考訳): AutoDIME:興味深いマルチエージェント環境の自動設計
- Authors: Ingmar Kanitscheider and Harri Edwards
- Abstract要約: マルチエージェント設定に適用可能な予測問題から得られた本質的な教師報酬のセットについて検討する。
本質的に見なされた報酬のうち、価値の相違はタスク間で最も一貫性があることがわかった。
この結果から,教師の報酬,特に価値の相違は,単一環境とマルチエージェント環境の両方を自動生成する上で有望なアプローチであることが示唆された。
- 参考スコア(独自算出の注目度): 3.1546318469750205
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Designing a distribution of environments in which RL agents can learn
interesting and useful skills is a challenging and poorly understood task, for
multi-agent environments the difficulties are only exacerbated. One approach is
to train a second RL agent, called a teacher, who samples environments that are
conducive for the learning of student agents. However, most previous proposals
for teacher rewards do not generalize straightforwardly to the multi-agent
setting. We examine a set of intrinsic teacher rewards derived from prediction
problems that can be applied in multi-agent settings and evaluate them in
Mujoco tasks such as multi-agent Hide and Seek as well as a diagnostic
single-agent maze task. Of the intrinsic rewards considered we found value
disagreement to be most consistent across tasks, leading to faster and more
reliable emergence of advanced skills in Hide and Seek and the maze task.
Another candidate intrinsic reward considered, value prediction error, also
worked well in Hide and Seek but was susceptible to noisy-TV style distractions
in stochastic environments. Policy disagreement performed well in the maze task
but did not speed up learning in Hide and Seek. Our results suggest that
intrinsic teacher rewards, and in particular value disagreement, are a
promising approach for automating both single and multi-agent environment
design.
- Abstract(参考訳): RLエージェントが興味深く有用なスキルを習得できる環境の分布を設計することは困難であり、マルチエージェント環境では困難が悪化するのみである。
一つのアプローチは、教師と呼ばれる第二のRLエージェントを訓練することであり、学生エージェントの学習に役立つ環境をサンプリングする。
しかし、教師報酬に関する以前の提案のほとんどは、直接的にマルチエージェント設定に一般化していない。
本研究では,マルチエージェント設定で適用可能な予測問題から派生した本質的な教師報酬のセットについて検討し,マルチエージェントHideやSeekなどのMujocoタスクや診断シングルエージェント迷路タスクで評価する。
考慮された内在的な報酬のうち、価値の不一致はタスク間で最も一貫性があり、隠れて探究する高度なスキルと迷路タスクのより速く、より信頼性の高い出現をもたらしました。
価値予測エラー(value prediction error)は隠れて探すのもうまくいったが、確率的な環境ではノイズの多いテレビスタイルの注意をそらす傾向があった。
政策の不一致は迷路タスクでうまくいったが、隠れて探す学習をスピードアップさせることはできなかった。
この結果から,教師の報酬,特に価値の相違は,単一環境とマルチエージェント環境の両方を自動生成する上で有望なアプローチであることが示唆された。
関連論文リスト
- No Regrets: Investigating and Improving Regret Approximations for Curriculum Discovery [53.08822154199948]
非教師なし環境設計(UED)手法は、エージェントがイン・オブ・アウト・ディストリビューションタスクに対して堅牢になることを約束する適応的カリキュラムとして近年注目を集めている。
本研究は,既存のUEDメソッドがいかにトレーニング環境を選択するかを検討する。
本研究では,学習性の高いシナリオを直接訓練する手法を開発した。
論文 参考訳(メタデータ) (2024-08-27T14:31:54Z) - Caution for the Environment: Multimodal Agents are Susceptible to Environmental Distractions [68.92637077909693]
本稿では,グラフィカルユーザインタフェース(GUI)環境におけるマルチモーダル大規模言語モデル(MLLM)エージェントの忠実さについて検討する。
ユーザとエージェントの両方が良性であり、環境は悪質ではないが、無関係なコンテンツを含む、一般的な設定が提案されている。
実験結果から、ジェネラリストエージェントや専門的なGUIエージェントなど、最も強力なモデルでさえ、気晴らしの影響を受けやすいことが明らかとなった。
論文 参考訳(メタデータ) (2024-08-05T15:16:22Z) - Self-supervised network distillation: an effective approach to exploration in sparse reward environments [0.0]
強化学習は、事前に設計された報酬関数に従って、エージェントが環境の中で振る舞うように訓練することができる。
そのような問題の解決策は、エージェントに情報的な探索を提供する本質的な動機を与えることであるかもしれない。
本稿では, 蒸留誤差に基づく本質的な動機づけアルゴリズムである自己教師ネットワーク蒸留(SND)を新規性指標として提示する。
論文 参考訳(メタデータ) (2023-02-22T18:58:09Z) - The StarCraft Multi-Agent Challenges+ : Learning of Multi-Stage Tasks
and Environmental Factors without Precise Reward Functions [14.399479538886064]
本稿では,StarCraft Multi-Agent Challenges+という新しいベンチマークを提案する。
この課題は、マイクロコントロールだけでなく、暗黙のマルチステージタスクや環境要因を効率的に学習するMARLアルゴリズムの探索能力に関心がある。
SMAC+ の MARL アルゴリズムについて検討し,近年の手法は従来の課題とよく似ているが,攻撃的シナリオでは誤動作する。
論文 参考訳(メタデータ) (2022-07-05T12:43:54Z) - Open-Ended Learning Leads to Generally Capable Agents [12.079718607356178]
環境領域内のタスクの宇宙を定義し、この広大な空間をまたいだエージェントを訓練する能力を示す。
結果として生じる空間は、エージェントがもたらす課題に関して非常に多様であり、エージェントの学習の進捗を測定することさえも、オープンな研究課題である。
オープンエンド学習プロセスの構築により,エージェントが学習を止めないようなトレーニングタスク分布や訓練目標を動的に変化させることで,新しい行動の一貫性のある学習が可能になることを示す。
論文 参考訳(メタデータ) (2021-07-27T13:30:07Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Discovery of Options via Meta-Learned Subgoals [59.2160583043938]
オプションの形での時間的抽象化は、強化学習(RL)エージェントの学習の高速化に役立つことが示されている。
マルチタスクRL環境で有用なオプションを発見するための新しいメタグラデーションアプローチを紹介します。
論文 参考訳(メタデータ) (2021-02-12T19:50:40Z) - Learning to Incentivize Other Learning Agents [73.03133692589532]
我々は、学習インセンティブ関数を用いて、RLエージェントに他のエージェントに直接報酬を与える能力を持たせる方法を示す。
このようなエージェントは、一般的なマルコフゲームにおいて、標準のRLと対戦型エージェントを著しく上回っている。
私たちの仕事は、マルチエージェントの未来において共通の善を確実にする道のりに沿って、より多くの機会と課題を指しています。
論文 参考訳(メタデータ) (2020-06-10T20:12:38Z) - RIDE: Rewarding Impact-Driven Exploration for Procedurally-Generated
Environments [15.736899098702972]
本稿では,エージェントが学習状態の表現に大きな変化をもたらす行動を起こすことを奨励する,新しいタイプの固有報酬を提案する。
提案手法は,MiniGridにおける複数の手続き的タスクに対して評価する。
論文 参考訳(メタデータ) (2020-02-27T18:03:16Z) - Meta Reinforcement Learning with Autonomous Inference of Subtask
Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。
メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。
実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文 参考訳(メタデータ) (2020-01-01T17:34:00Z) - Individual specialization in multi-task environments with multiagent
reinforcement learners [0.0]
汎用知的エージェント構築の第一歩として,マルチエージェント強化学習(MARL)への関心が高まっている。
以前の結果は、調整、効率/公平性、共有プールリソース共有の条件の増大を示唆している。
マルチタスク環境において、複数の報奨タスクを実行できるため、エージェントは必ずしも全てのタスクでうまく機能する必要はないが、特定の条件下では特殊化される可能性がある。
論文 参考訳(メタデータ) (2019-12-29T15:20:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。