論文の概要: Combining Learning from Human Feedback and Knowledge Engineering to
Solve Hierarchical Tasks in Minecraft
- arxiv url: http://arxiv.org/abs/2112.03482v1
- Date: Tue, 7 Dec 2021 04:12:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-08 14:30:44.705936
- Title: Combining Learning from Human Feedback and Knowledge Engineering to
Solve Hierarchical Tasks in Minecraft
- Title(参考訳): ヒューマンフィードバックと知識工学の融合によるMinecraftの階層的課題の解決
- Authors: Vinicius G. Goecks, Nicholas Waytowich, David Watkins, Bharat Prakash
- Abstract要約: 我々は2021年のNeurIPS Competition MineRL BASALT Challenge: Learning from Human Feedback in Minecraftで優勝し、最も人間らしいエージェントを受賞したソリューションを提示する。
我々のアプローチは、利用可能な人間の実演データを用いて、ナビゲーションのための模倣学習ポリシーを訓練する。
我々は、このハイブリッドインテリジェンスアプローチを、エンドツーエンドの機械学習と純粋にエンジニアリングされたソリューションの両方と比較し、人間の評価者によって判断される。
- 参考スコア(独自算出の注目度): 1.858151490268935
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-world tasks of interest are generally poorly defined by human-readable
descriptions and have no pre-defined reward signals unless it is defined by a
human designer. Conversely, data-driven algorithms are often designed to solve
a specific, narrowly defined, task with performance metrics that drives the
agent's learning. In this work, we present the solution that won first place
and was awarded the most human-like agent in the 2021 NeurIPS Competition
MineRL BASALT Challenge: Learning from Human Feedback in Minecraft, which
challenged participants to use human data to solve four tasks defined only by a
natural language description and no reward function. Our approach uses the
available human demonstration data to train an imitation learning policy for
navigation and additional human feedback to train an image classifier. These
modules, together with an estimated odometry map, are then combined into a
state-machine designed based on human knowledge of the tasks that breaks them
down in a natural hierarchy and controls which macro behavior the learning
agent should follow at any instant. We compare this hybrid intelligence
approach to both end-to-end machine learning and pure engineered solutions,
which are then judged by human evaluators. Codebase is available at
https://github.com/viniciusguigo/kairos_minerl_basalt.
- Abstract(参考訳): 実世界の課題は一般に人間の読みやすい記述によって定義され、人間のデザイナーによって定義されない限り、事前に定義された報酬信号を持たない。
逆に、データ駆動アルゴリズムは、エージェントの学習を駆動するパフォーマンスメトリクスで特定の狭義に定義されたタスクを解決するために設計されることが多い。
本研究では,2021年のNeurIPS Competition MineRL BASALT Challenge: Learning from Human Feedback in Minecraftにおいて,自然言語記述と報酬関数のみで定義された4つのタスクを解決するために,参加者に人間のデータを使用することを課題とした。
本手法は,利用可能な人間デモデータを用いてナビゲーションのための模倣学習ポリシーを学習し,画像分類器を訓練するための人間フィードバックを付加する。
これらのモジュールは、推定されたオドメトリマップとともに、自然の階層でそれらを分解するタスクの人間の知識に基づいて設計された状態マシンに結合され、学習エージェントがいつでも従うべきマクロな振る舞いを制御する。
このハイブリッドインテリジェンスアプローチを、エンドツーエンドの機械学習と純粋にエンジニアリングされたソリューションの両方と比較します。
Codebaseはhttps://github.com/viniciusguigo/kairos_minerl_basalt.comで入手できる。
関連論文リスト
- Offline Imitation Learning Through Graph Search and Retrieval [57.57306578140857]
模倣学習は、ロボットが操作スキルを取得するための強力な機械学習アルゴリズムである。
本稿では,グラフ検索と検索により,最適下実験から学習する,シンプルで効果的なアルゴリズムGSRを提案する。
GSRは、ベースラインに比べて10%から30%高い成功率、30%以上の熟練を達成できる。
論文 参考訳(メタデータ) (2024-07-22T06:12:21Z) - Few-Shot Preference Learning for Human-in-the-Loop RL [13.773589150740898]
メタラーニングの成功に触発された我々は、先行タスクデータに対する嗜好モデルを事前訓練し、少数のクエリだけで新しいタスクに迅速に適応する。
メタワールドにおける操作ポリシーのトレーニングに必要なオンラインフィードバックの量を20$times$に削減し,実際のフランカ・パンダロボット上での手法の有効性を実証する。
論文 参考訳(メタデータ) (2022-12-06T23:12:26Z) - Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。
学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文 参考訳(メタデータ) (2022-11-16T16:26:48Z) - Learning from humans: combining imitation and deep reinforcement
learning to accomplish human-level performance on a virtual foraging task [6.263481844384228]
本研究では,ヒトデータを用いたバイオインスパイアされた採餌政策の学習方法を開発した。
オープンフィールドの養殖環境に人間が仮想的に没入し、最高の報酬を集めるために訓練される実験を行う。
論文 参考訳(メタデータ) (2022-03-11T20:52:30Z) - HAKE: A Knowledge Engine Foundation for Human Activity Understanding [65.24064718649046]
人間の活動理解は人工知能に広く興味を持ち、医療や行動分析といった多様な応用にまたがっている。
本稿では,この課題を2段階にまとめた新しいパラダイムを提案する。まず,原子活動プリミティブを対象とする中間空間に画素をマッピングし,解釈可能な論理規則で検出されたプリミティブをプログラムして意味論を推論する。
我々のフレームワークであるHAKE(Human Activity Knowledge Engine)は、挑戦的なベンチマークよりも優れた一般化能力と性能を示す。
論文 参考訳(メタデータ) (2022-02-14T16:38:31Z) - Skill Preferences: Learning to Extract and Execute Robotic Skills from
Human Feedback [82.96694147237113]
Skill Preferencesは、人間の好みよりもモデルを学習し、オフラインデータから人間に沿ったスキルを抽出するアルゴリズムである。
SkiPは複雑なマルチステップ操作タスクをシミュレートしたキッチンロボットで実現できることを示す。
論文 参考訳(メタデータ) (2021-08-11T18:04:08Z) - The MineRL BASALT Competition on Learning from Human Feedback [58.17897225617566]
MineRL BASALTコンペティションは、この重要な種類の技術の研究を促進することを目的としている。
Minecraftでは、ハードコードされた報酬関数を書くのが難しいと期待する4つのタスクのスイートを設計しています。
これら4つのタスクのそれぞれについて、人間のデモのデータセットを提供するとともに、模擬学習ベースラインを提供する。
論文 参考訳(メタデータ) (2021-07-05T12:18:17Z) - Learning What To Do by Simulating the Past [76.86449554580291]
学習した特徴エンコーダと学習した逆モデルを組み合わせることで、エージェントが人間の行動を後方にシミュレートして、彼らがすべきことを推測できることを示す。
得られたアルゴリズムは、そのスキルに最適なポリシーから抽出された単一の状態を与えられたMuJoCo環境で特定のスキルを再現することができる。
論文 参考訳(メタデータ) (2021-04-08T17:43:29Z) - Learning Human Rewards by Inferring Their Latent Intelligence Levels in
Multi-Agent Games: A Theory-of-Mind Approach with Application to Driving Data [18.750834997334664]
我々は、人間は有理論的であり、他人の意思決定過程を推論する際に異なる知能レベルを持っていると論じる。
学習中の人間の潜在知能レベルを推論する,新しいマルチエージェント逆強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-07T07:48:31Z) - Human Instruction-Following with Deep Reinforcement Learning via
Transfer-Learning from Text [12.88819706338837]
近年の研究では、ニューラルネットワークベースのエージェントが強化学習によって訓練され、シミュレートされた世界で言語のようなコマンドを実行することが説明されている。
本稿では,人間の指示に頑健な深層RLを用いた指示追従エージェントの訓練方法を提案する。
論文 参考訳(メタデータ) (2020-05-19T12:16:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。