Fugu-MT 論文翻訳(概要): Emergent Complexity and Zero-shot Transfer via Unsupervised Environment Design

論文の概要: Emergent Complexity and Zero-shot Transfer via Unsupervised Environment Design

arxiv url: http://arxiv.org/abs/2012.02096v2
Date: Thu, 4 Feb 2021 03:01:31 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-23 15:04:24.078810
Title: Emergent Complexity and Zero-shot Transfer via Unsupervised Environment Design
Title（参考訳）: 教師なし環境設計による創発的複雑度とゼロショット転送
Authors: Michael Dennis, Natasha Jaques, Eugene Vinitsky, Alexandre Bayen, Stuart Russell, Andrew Critch, Sergey Levine
Abstract要約: 本研究では,未知のパラメータを持つ環境を提供するUnsupervised Environment Design (UED)を提案する。プロタゴニスト・アンタゴニストによるレグレト環境デザイン(PAIRED)と呼ぶ。実験により, PAIREDは複雑な環境の自然なカリキュラムを生産し, PAIREDエージェントは, 高度に新規な環境での試験において, 高いゼロショット転送性能が得られることを示した。
参考スコア（独自算出の注目度）: 121.73425076217471
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: A wide range of reinforcement learning (RL) problems - including robustness, transfer learning, unsupervised RL, and emergent complexity - require specifying a distribution of tasks or environments in which a policy will be trained. However, creating a useful distribution of environments is error prone, and takes a significant amount of developer time and effort. We propose Unsupervised Environment Design (UED) as an alternative paradigm, where developers provide environments with unknown parameters, and these parameters are used to automatically produce a distribution over valid, solvable environments. Existing approaches to automatically generating environments suffer from common failure modes: domain randomization cannot generate structure or adapt the difficulty of the environment to the agent's learning progress, and minimax adversarial training leads to worst-case environments that are often unsolvable. To generate structured, solvable environments for our protagonist agent, we introduce a second, antagonist agent that is allied with the environment-generating adversary. The adversary is motivated to generate environments which maximize regret, defined as the difference between the protagonist and antagonist agent's return. We call our technique Protagonist Antagonist Induced Regret Environment Design (PAIRED). Our experiments demonstrate that PAIRED produces a natural curriculum of increasingly complex environments, and PAIRED agents achieve higher zero-shot transfer performance when tested in highly novel environments.
Abstract（参考訳）: 堅牢性、伝達学習、教師なしのRL、創発的複雑性など、幅広い強化学習(RL)の問題は、政策を訓練するタスクや環境の分布を特定する必要がある。しかし、環境の有用なディストリビューションを作成するのはエラーを起こしやすいため、かなりの開発時間と労力を要する。本研究では,未知のパラメータを持つ環境を開発者が提供するための代替パラダイムとして,教師なし環境設計(UED)を提案する。ドメインのランダム化は、エージェントの学習進捗に環境の構造や難易度を生成することができず、最小限の対人訓練は、しばしば解決不可能な最悪の環境をもたらす。プロタゴニストエージェントの構造的, 溶解性のある環境を生成するために, 環境生成敵と結びついた第2のアンタゴニストエージェントを導入する。敵は、主人公と敵エージェントの帰還の差として定義された後悔を最大化する環境を生成する。われわれはこの手法をPAIRED(Protagonist Antagonist induced Regret Environment Design)と呼ぶ。実験により, PAIREDは複雑な環境の自然なカリキュラムを生産し, PAIREDエージェントは高度に新規な環境で試験した場合に高いゼロショット転送性能が得られることが示された。

関連論文リスト

Adversarial Environment Design via Regret-Guided Diffusion Models [13.651184780336623]
環境変化に対して堅牢な訓練エージェントは、深い強化学習において重要な課題である。非教師なし環境設計(UED)は、エージェントの能力に合わせた一連のトレーニング環境を生成することで、この問題に対処するために最近登場した。後悔誘導拡散モデル(ADD)を用いた新しいUEDアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-10-25T17:35:03Z)
No Regrets: Investigating and Improving Regret Approximations for Curriculum Discovery [53.08822154199948]
非教師なし環境設計(UED)手法は、エージェントがイン・オブ・アウト・ディストリビューションタスクに対して堅牢になることを約束する適応的カリキュラムとして近年注目を集めている。本研究は,既存のUEDメソッドがいかにトレーニング環境を選択するかを検討する。本研究では,学習性の高いシナリオを直接訓練する手法を開発した。
論文参考訳（メタデータ） (2024-08-27T14:31:54Z)
Caution for the Environment: Multimodal Agents are Susceptible to Environmental Distractions [68.92637077909693]
本稿では,グラフィカルユーザインタフェース(GUI)環境におけるマルチモーダル大規模言語モデル(MLLM)エージェントの忠実さについて検討する。ユーザとエージェントの両方が良性であり、環境は悪質ではないが、無関係なコンテンツを含む、一般的な設定が提案されている。実験結果から、ジェネラリストエージェントや専門的なGUIエージェントなど、最も強力なモデルでさえ、気晴らしの影響を受けやすいことが明らかとなった。
論文参考訳（メタデータ） (2024-08-05T15:16:22Z)
HAZARD Challenge: Embodied Decision Making in Dynamically Changing Environments [93.94020724735199]
HAZARDは、火災、洪水、風などの3つの予期せぬ災害シナリオで構成されている。このベンチマークにより、さまざまなパイプラインで自律エージェントの意思決定能力を評価することができる。
論文参考訳（メタデータ） (2024-01-23T18:59:43Z)
Enhancing the Hierarchical Environment Design via Generative Trajectory Modeling [8.256433006393243]
本稿では,資源制約下での環境設計のための階層型MDPフレームワークを提案する。低レベルの学生エージェントに適した訓練環境を生成する上位レベルのRL教師エージェントで構成されている。提案手法は,エージェントと環境間の資源集約的な相互作用を著しく低減する。
論文参考訳（メタデータ） (2023-09-30T08:21:32Z)
Reward-Free Curricula for Training Robust World Models [37.13175950264479]
報酬のない探索から世界モデルを学ぶことは有望なアプローチであり、新しいタスクのために想像された経験を使ってポリシーをトレーニングすることができる。我々は、ロバストな世界モデルをトレーニングするための報酬のない設定でカリキュラムを生成するという新しい問題に対処する。環境インスタンス全体にわたる世界モデルにおける最大誤差を最小限に抑えるために,ミニマックス後悔が結びつくことを示す。この結果は,ロバストネスのための環境横断的な知識の重み付け獲得というアルゴリズム,WAKER: Weighted Acquisition of Knowledges for Environmentsに伝達される。
論文参考訳（メタデータ） (2023-06-15T15:40:04Z)
Improving adaptability to new environments and removing catastrophic forgetting in Reinforcement Learning by using an eco-system of agents [3.5786621294068373]
強化学習(RL)エージェントを目に見えない環境に適応させることは、トレーニング環境に典型的な過度な適合のために難しい課題である。破滅的な忘れ込みの危険性があり、これまで見られた環境のパフォーマンスが著しく妨げられている。本稿では,エージェントのエコシステムを利用して双方の懸念に対処する新しいアプローチを提案する。
論文参考訳（メタデータ） (2022-04-13T17:52:54Z)
Heterogeneous Multi-Agent Reinforcement Learning for Unknown Environment Mapping [0.0]
異種エージェントのチームが未知の環境をカバーするための分散制御ポリシーを学習できるようにするアクター批判アルゴリズムを提案する。このタスクは、無人航空機のチームを配置することで危険地域における状況認識を高めたい国家の安全と緊急対応組織に関心を寄せている。
論文参考訳（メタデータ） (2020-10-06T12:23:05Z)
Environment Shaping in Reinforcement Learning using State Abstraction [63.444831173608605]
状態抽象化を用いた環境形成の新しい枠組みを提案する。私たちのキーとなるアイデアは、ノイズの多い信号で環境の大きな状態空間を抽象空間に圧縮することです。エージェントの方針は, 形状の環境において学習し, 元の環境において, ほぼ最適動作を保っていることを示す。
論文参考訳（メタデータ） (2020-06-23T17:00:22Z)
Ecological Reinforcement Learning [76.9893572776141]
このような条件下での学習を容易にする環境特性について検討する。環境の特性が強化学習エージェントのパフォーマンスにどのように影響するかを理解することは、学習を魅力的にする方法でタスクを構造化するのに役立ちます。
論文参考訳（メタデータ） (2020-06-22T17:55:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。