論文の概要: Open-World Multi-Task Control Through Goal-Aware Representation Learning
and Adaptive Horizon Prediction
- arxiv url: http://arxiv.org/abs/2301.10034v1
- Date: Sat, 21 Jan 2023 08:15:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-25 13:24:26.732889
- Title: Open-World Multi-Task Control Through Goal-Aware Representation Learning
and Adaptive Horizon Prediction
- Title(参考訳): ゴール認識表現学習と適応水平予測によるオープンワールドマルチタスク制御
- Authors: Shaofei Cai, Zihao Wang, Xiaojian Ma, Anji Liu, Yitao Liang
- Abstract要約: 本研究では,マインクラフトにおける目標条件付き政策の学習問題について考察する。
まず,このような政策を学習する上での課題として,1)大きなシーンの多様性によるタスクの分散性,2)部分観測性に起因する環境力学の非定常性,の2つを挙げる。
本稿では,目標関連視覚状態表現の出現を促す政策として,目標感性バックボーン(GSB)を提案する。
- 参考スコア(独自算出の注目度): 14.228723084543605
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We study the problem of learning goal-conditioned policies in Minecraft, a
popular, widely accessible yet challenging open-ended environment for
developing human-level multi-task agents. We first identify two main challenges
of learning such policies: 1) the indistinguishability of tasks from the state
distribution, due to the vast scene diversity, and 2) the non-stationary nature
of environment dynamics caused by partial observability. To tackle the first
challenge, we propose Goal-Sensitive Backbone (GSB) for the policy to encourage
the emergence of goal-relevant visual state representations. To tackle the
second challenge, the policy is further fueled by an adaptive horizon
prediction module that helps alleviate the learning uncertainty brought by the
non-stationary dynamics. Experiments on 20 Minecraft tasks show that our method
significantly outperforms the best baseline so far; in many of them, we double
the performance. Our ablation and exploratory studies then explain how our
approach beat the counterparts and also unveil the surprising bonus of
zero-shot generalization to new scenes (biomes). We hope our agent could help
shed some light on learning goal-conditioned, multi-task agents in challenging,
open-ended environments like Minecraft.
- Abstract(参考訳): 我々は、人間レベルのマルチタスクエージェントを開発するために、普及し、広くアクセスしやすく、挑戦的なオープンエンド環境であるMinecraftの目標条件ポリシーを学習する問題について研究する。
まず、このような政策を学ぶ上での2つの主な課題を特定します。
1)広い場面の多様性により、国家分布からタスクが区別できないこと、及び
2)部分的可観測性に起因する環境力学の非定常性。
最初の課題に取り組むために,目標関連視覚状態表現の出現を促す政策として,目標感性バックボーン(GSB)を提案する。
第2の課題に取り組むために、このポリシーは非定常力学による学習の不確実性を緩和する適応的な水平予測モジュールによってさらに加速される。
20のMinecraftタスクの実験では、我々のメソッドが今までで最高のベースラインを大幅に上回っていることが示されています。
我々のアブレーションと探索研究は、我々のアプローチがどのように相手を圧倒するかを説明し、新しいシーン(バイオーム)にゼロショットの一般化の驚くべきボーナスを明らかにします。
当社のエージェントが,minecraftのようなオープンな環境において,目標条件とマルチタスクエージェントの学習に光を当ててくれることを願っています。
関連論文リスト
- Learning the Generalizable Manipulation Skills on Soft-body Tasks via Guided Self-attention Behavior Cloning Policy [9.345203561496552]
GP2E行動クローニングポリシーは、ソフトボディタスクから汎用的な操作スキルを学ぶためのエージェントを誘導することができる。
本研究は,Embodied AIモデルの一般化能力を向上する手法の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2024-10-08T07:31:10Z) - MENTOR: Guiding Hierarchical Reinforcement Learning with Human Feedback
and Dynamic Distance Constraint [40.3872201560003]
階層的強化学習(HRL)は、タスクをサブゴールに分割し、それらを順次完了させる階層的枠組みを使用する。
現在の手法は、安定した学習プロセスを保証するための適切なサブゴールを見つけるのに苦労している。
本稿では,人間のフィードバックとダイナミック距離制約を取り入れた汎用階層型強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T03:11:09Z) - HAZARD Challenge: Embodied Decision Making in Dynamically Changing
Environments [93.94020724735199]
HAZARDは、火災、洪水、風などの3つの予期せぬ災害シナリオで構成されている。
このベンチマークにより、さまざまなパイプラインで自律エージェントの意思決定能力を評価することができる。
論文 参考訳(メタデータ) (2024-01-23T18:59:43Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - Unsupervised Reinforcement Learning in Multiple Environments [37.5349071806395]
複数の環境のクラスにおける教師なし強化学習の課題に対処する。
本稿では,クラス間のインタラクションを通じて導入対象を最適化するために,ポリシー勾配アルゴリズムである$alpha$MEPOLを提案する。
事前学習した探索戦略から,強化学習が大きなメリットがあることが示唆された。
論文 参考訳(メタデータ) (2021-12-16T09:54:37Z) - Direct then Diffuse: Incremental Unsupervised Skill Discovery for State
Covering and Goal Reaching [98.25207998996066]
我々は、スキル発見のための相互情報フレームワークを構築し、カバレッジ指向のトレードオフに対応するためにUPSIDEを導入します。
いくつかのナビゲーションおよび制御環境において、UPSIDEが学んだスキルが、既存のベースラインよりもスパース・リワードな下流タスクをどのように解決するかを説明する。
論文 参考訳(メタデータ) (2021-10-27T14:22:19Z) - Understanding Adversarial Attacks on Observations in Deep Reinforcement
Learning [32.12283927682007]
深層強化学習モデルは、観測を操作することで被害者の総報酬を減少させる敵攻撃に対して脆弱である。
関数空間における逆攻撃の問題を修正し、以前の勾配に基づく攻撃をいくつかの部分空間に分割する。
第一段階では、環境をハックして偽装ポリシーを訓練し、最下位の報酬にルーティングするトラジェクトリのセットを発見する。
本手法は,攻撃エージェントの性能に対して,既存の手法よりも厳密な理論上界を提供する。
論文 参考訳(メタデータ) (2021-06-30T07:41:51Z) - Learning with AMIGo: Adversarially Motivated Intrinsic Goals [63.680207855344875]
AMIGoは、Adversarially Motivated Intrinsic Goalsを提案するゴール生成教師である。
提案手法は, 提案する目標の自然なカリキュラムを生成し, エージェントが究極的には, 手続き的に生成する課題を解くことができることを示す。
論文 参考訳(メタデータ) (2020-06-22T10:22:08Z) - Planning to Explore via Self-Supervised World Models [120.31359262226758]
Plan2Exploreは自己監督型強化学習エージェントである。
我々は、自己監督型探索と、新しいタスクへの迅速な適応に対する新しいアプローチを提案する。
Plan2Exploreは、訓練の監督やタスク固有の相互作用がなければ、自己監督型の探査方法よりも優れている。
論文 参考訳(メタデータ) (2020-05-12T17:59:45Z) - Learning to Generalize Across Long-Horizon Tasks from Human
Demonstrations [52.696205074092006]
Generalization Through Imitation (GTI) は、2段階のオフライン模倣学習アルゴリズムである。
GTIは、状態空間の共通領域で異なるタスクの軌道を示す構造を利用する。
GTIの第1段階では,異なる実演軌跡から行動を構成する能力を持つために交差点を利用する政策を訓練する。
GTIの第2段階では、ゴール指向エージェントをトレーニングして、新しいスタートとゴールの設定を一般化する。
論文 参考訳(メタデータ) (2020-03-13T02:25:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。