論文の概要: The MineRL BASALT Competition on Learning from Human Feedback
- arxiv url: http://arxiv.org/abs/2107.01969v1
- Date: Mon, 5 Jul 2021 12:18:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-06 15:16:48.710700
- Title: The MineRL BASALT Competition on Learning from Human Feedback
- Title(参考訳): フィードバックの学習に関するMineRL BASALTコンペティション
- Authors: Rohin Shah, Cody Wild, Steven H. Wang, Neel Alex, Brandon Houghton,
William Guss, Sharada Mohanty, Anssi Kanervisto, Stephanie Milani, Nicholay
Topin, Pieter Abbeel, Stuart Russell, Anca Dragan
- Abstract要約: MineRL BASALTコンペティションは、この重要な種類の技術の研究を促進することを目的としている。
Minecraftでは、ハードコードされた報酬関数を書くのが難しいと期待する4つのタスクのスイートを設計しています。
これら4つのタスクのそれぞれについて、人間のデモのデータセットを提供するとともに、模擬学習ベースラインを提供する。
- 参考スコア(独自算出の注目度): 58.17897225617566
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The last decade has seen a significant increase of interest in deep learning
research, with many public successes that have demonstrated its potential. As
such, these systems are now being incorporated into commercial products. With
this comes an additional challenge: how can we build AI systems that solve
tasks where there is not a crisp, well-defined specification? While multiple
solutions have been proposed, in this competition we focus on one in
particular: learning from human feedback. Rather than training AI systems using
a predefined reward function or using a labeled dataset with a predefined set
of categories, we instead train the AI system using a learning signal derived
from some form of human feedback, which can evolve over time as the
understanding of the task changes, or as the capabilities of the AI system
improve.
The MineRL BASALT competition aims to spur forward research on this important
class of techniques. We design a suite of four tasks in Minecraft for which we
expect it will be hard to write down hardcoded reward functions. These tasks
are defined by a paragraph of natural language: for example, "create a
waterfall and take a scenic picture of it", with additional clarifying details.
Participants must train a separate agent for each task, using any method they
want. Agents are then evaluated by humans who have read the task description.
To help participants get started, we provide a dataset of human demonstrations
on each of the four tasks, as well as an imitation learning baseline that
leverages these demonstrations.
Our hope is that this competition will improve our ability to build AI
systems that do what their designers intend them to do, even when the intent
cannot be easily formalized. Besides allowing AI to solve more tasks, this can
also enable more effective regulation of AI systems, as well as making progress
on the value alignment problem.
- Abstract(参考訳): 過去10年間、ディープラーニング研究への関心は大幅に高まり、その可能性を実証した多くの成功例がある。
そのため、現在、これらのシステムは商用製品に組み込まれている。
鮮明で明確に定義された仕様が存在しないタスクを解決するAIシステムをどのように構築すればよいのか?
複数のソリューションが提案されているが、このコンペでは特に、人間のフィードバックから学ぶことに焦点を当てている。
事前に定義された報酬関数を使用したAIシステムのトレーニングや、事前に定義されたカテゴリセットのラベル付きデータセットを使用する代わりに、タスク変更の理解やAIシステムの能力向上のために時間をかけて進化する、ある種の人間のフィードバックから派生した学習信号を使用して、AIシステムをトレーニングする。
MineRL BASALTコンペティションは、この重要な種類の技術の研究を促進することを目的としている。
Minecraftでは、ハードコードされた報酬関数を書くのが難しいと期待する4つのタスクのスイートを設計しています。
これらのタスクは、自然言語の段落によって定義されている。例えば、「滝を創造し、その風光明快な写真を撮る」など。
参加者は、必要なメソッドを使用して、各タスクに対して別々のエージェントをトレーニングしなければならない。
エージェントはタスク記述を読んだ人間によって評価される。
参加者が始めるのを助けるために、私たちは4つのタスクのそれぞれに人間のデモのデータセットと、これらのデモを活用する模倣学習ベースラインを提供します。
この競争によって、意図を容易に形式化できない場合でも、デザイナが意図したようにAIシステムを構築する能力が向上することを期待しています。
AIがより多くのタスクを解決できるだけでなく、AIシステムのより効果的な規制を可能にし、バリューアライメントの問題を前進させることもできる。
関連論文リスト
- Not Just Novelty: A Longitudinal Study on Utility and Customization of an AI Workflow [18.15979295351043]
ジェネレーティブAIは、日々のタスクで人々を助ける、斬新で印象的な能力を提供します。
新規性が低下した後、生成AIがどれほど有用かは定かではない。
我々は,科学コミュニケーションのための生成AIツールの慣れ親しみとカスタマイズを理解するために,12人のユーザを対象に3週間の縦断的研究を行った。
論文 参考訳(メタデータ) (2024-02-15T11:39:11Z) - Exploration with Principles for Diverse AI Supervision [88.61687950039662]
次世代の予測を用いた大規模トランスフォーマーのトレーニングは、AIの画期的な進歩を生み出した。
この生成AIアプローチは印象的な結果をもたらしたが、人間の監督に大きく依存している。
この人間の監視への強い依存は、AIイノベーションの進歩に重大なハードルをもたらす。
本稿では,高品質なトレーニングデータを自律的に生成することを目的とした,探索型AI(EAI)という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-13T07:03:39Z) - Stabilizing Contrastive RL: Techniques for Robotic Goal Reaching from
Offline Data [101.43350024175157]
自己指導型学習は、制御戦略を学ぶのに必要な人間のアノテーションとエンジニアリングの労力を減らす可能性がある。
我々の研究は、強化学習(RL)自体が自己監督的な問題であることを示す先行研究に基づいている。
コントラスト学習に基づく自己教師付きRLアルゴリズムは,実世界の画像に基づくロボット操作タスクを解くことができることを示す。
論文 参考訳(メタデータ) (2023-06-06T01:36:56Z) - Human Decision Makings on Curriculum Reinforcement Learning with
Difficulty Adjustment [52.07473934146584]
我々は,カリキュラム強化学習結果を,人的意思決定プロセスから学ぶことで,難しすぎず,難しすぎるような望ましいパフォーマンスレベルに導く。
本システムは非常に並列化可能であり,大規模強化学習アプリケーションの訓練が可能となる。
強化学習性能は、人間の所望の難易度と同期してうまく調整できることが示される。
論文 参考訳(メタデータ) (2022-08-04T23:53:51Z) - Building Human-like Communicative Intelligence: A Grounded Perspective [1.0152838128195465]
言語学習における驚くべき進歩の後、AIシステムは人間のコミュニケーション能力の重要な側面を反映しない天井に近づいたようだ。
本稿は、ナチビストと象徴的パラダイムに基づく認知にインスパイアされたAIの方向性には、現代AIの進歩を導くために必要なサブストラテジと具体性がないことを示唆する。
本稿では,「地下」言語知能構築のための具体的かつ実装可能なコンポーネントのリストを提案する。
論文 参考訳(メタデータ) (2022-01-02T01:43:24Z) - Combining Learning from Human Feedback and Knowledge Engineering to
Solve Hierarchical Tasks in Minecraft [1.858151490268935]
我々は2021年のNeurIPS Competition MineRL BASALT Challenge: Learning from Human Feedback in Minecraftで優勝し、最も人間らしいエージェントを受賞したソリューションを提示する。
我々のアプローチは、利用可能な人間の実演データを用いて、ナビゲーションのための模倣学習ポリシーを訓練する。
我々は、このハイブリッドインテリジェンスアプローチを、エンドツーエンドの機械学習と純粋にエンジニアリングされたソリューションの両方と比較し、人間の評価者によって判断される。
論文 参考訳(メタデータ) (2021-12-07T04:12:23Z) - Actionable Models: Unsupervised Offline Reinforcement Learning of
Robotic Skills [93.12417203541948]
与えられたデータセットの任意の目標状態に到達するために学習することによって、環境の機能的な理解を学ぶ目的を提案する。
提案手法は,高次元カメラ画像上で動作し,これまで見つからなかったシーンやオブジェクトに一般化した実ロボットの様々なスキルを学習することができる。
論文 参考訳(メタデータ) (2021-04-15T20:10:11Z) - Empowering Things with Intelligence: A Survey of the Progress,
Challenges, and Opportunities in Artificial Intelligence of Things [98.10037444792444]
AIがIoTをより速く、より賢く、よりグリーンで、より安全にするための力を与える方法を示します。
まず、認識、学習、推論、行動の4つの視点から、IoTのためのAI研究の進歩を示す。
最後に、私たちの世界を深く再形成する可能性が高いAIoTの有望な応用をいくつかまとめる。
論文 参考訳(メタデータ) (2020-11-17T13:14:28Z) - Explainability via Responsibility [0.9645196221785693]
本稿では,特定のトレーニングインスタンスをユーザに提供する,説明可能な人工知能へのアプローチを提案する。
我々は、AIエージェントの動作の説明を人間のユーザに提供する能力を近似することで、このアプローチを評価する。
論文 参考訳(メタデータ) (2020-10-04T20:41:03Z) - AI from concrete to abstract: demystifying artificial intelligence to
the general public [0.0]
本稿では,コンクリートから抽象的(AIcon2abs)への新たな方法論,AIについて述べる。
主な戦略は、人工知能のデミスティフィケーションを促進することである。
WiSARDの軽量化により、トレーニングタスクと分類タスクの視覚化と理解が容易になる。
論文 参考訳(メタデータ) (2020-06-07T01:14:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。