論文の概要: Recent Advances in Leveraging Human Guidance for Sequential
Decision-Making Tasks
- arxiv url: http://arxiv.org/abs/2107.05825v1
- Date: Tue, 13 Jul 2021 03:11:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-14 14:54:57.779344
- Title: Recent Advances in Leveraging Human Guidance for Sequential
Decision-Making Tasks
- Title(参考訳): 逐次的意思決定タスクにおけるヒューマンガイダンス活用の最近の進歩
- Authors: Ruohan Zhang, Faraz Torabi, Garrett Warnell, Peter Stone
- Abstract要約: 人工知能の長年の目標は、シーケンシャルな意思決定を必要とするタスクを実行することを学ぶことができる人工知能を作ることである。
学習し行動する人工エージェントであるが、実行すべき特定のタスクを特定するのは人間次第である。
この調査は、主に人間のガイダンスに依存する5つの最近の機械学習フレームワークのハイレベルな概要を提供する。
- 参考スコア(独自算出の注目度): 60.380501589764144
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A longstanding goal of artificial intelligence is to create artificial agents
capable of learning to perform tasks that require sequential decision making.
Importantly, while it is the artificial agent that learns and acts, it is still
up to humans to specify the particular task to be performed. Classical
task-specification approaches typically involve humans providing stationary
reward functions or explicit demonstrations of the desired tasks. However,
there has recently been a great deal of research energy invested in exploring
alternative ways in which humans may guide learning agents that may, e.g., be
more suitable for certain tasks or require less human effort. This survey
provides a high-level overview of five recent machine learning frameworks that
primarily rely on human guidance apart from pre-specified reward functions or
conventional, step-by-step action demonstrations. We review the motivation,
assumptions, and implementation of each framework, and we discuss possible
future research directions.
- Abstract(参考訳): 人工知能の長年の目標は、連続的な意思決定を必要とするタスクを実行するために学習できるエージェントを作ることである。
重要なのは、学習し行動する人工エージェントであるが、実行すべき特定のタスクを特定するのは人間次第である。
古典的なタスク特定アプローチは、通常、人間が望ましいタスクの固定的な報酬機能や明示的なデモンストレーションを提供する。
しかし、最近は、人間が学習エージェントを指導したり、例えば特定のタスクに適したり、人間の努力を減らしたりといった方法を模索するために多くの研究エネルギーが投資されている。
この調査は、事前に指定された報酬関数や従来のステップバイステップのアクションデモとは別に、主に人間のガイダンスに依存する、最近の5つの機械学習フレームワークのハイレベルな概要を提供する。
我々は,各フレームワークの動機,前提,実装について検討し,今後の方向性について考察する。
関連論文リスト
- Learning to Assist Humans without Inferring Rewards [65.28156318196397]
我々は、エンパワーメントのレンズを通して支援を研究する先行研究に基づいて構築する。
補助剤は、人間の行動の影響を最大化することを目的としている。
これらの表現は、先行研究と類似したエンパワーメントの概念を推定する。
論文 参考訳(メタデータ) (2024-11-04T21:31:04Z) - Can Foundation Models Watch, Talk and Guide You Step by Step to Make a
Cake? [62.59699229202307]
AIの進歩にもかかわらず、インタラクティブなタスクガイダンスシステムの開発は依然として大きな課題である。
我々は、人間のユーザと人間のインストラクターとの自然なインタラクションに基づいて、新しいマルチモーダルベンチマークデータセット、ウォッチ、トーク、ガイド(WTaG)を作成しました。
いくつかの基礎モデルを活用して、これらのモデルが認識可能なタスクガイダンスに迅速に適応できるかを調査した。
論文 参考訳(メタデータ) (2023-11-01T15:13:49Z) - Generalizing to New Tasks via One-Shot Compositional Subgoals [23.15624959305799]
以前は見つからなかったタスクをほとんど、あるいはまったく監督せずに一般化する能力は、現代の機械学習研究において重要な課題である。
適応型「近未来」サブゴールを用いて、模倣学習エージェントを訓練することにより、これらの問題に対処しようとするCASEを導入する。
実験の結果,提案手法は従来よりも30%向上していることがわかった。
論文 参考訳(メタデータ) (2022-05-16T14:30:11Z) - Behavior Self-Organization Supports Task Inference for Continual Robot
Learning [18.071689266826212]
本稿では,ロボット制御タスクの連続学習に対する新しいアプローチを提案する。
本手法は, 漸進的に自己組織化された行動によって, 行動埋め込みの教師なし学習を行う。
従来の手法とは異なり,本手法ではタスク分布の仮定は行わず,タスクを推論するタスク探索も必要としない。
論文 参考訳(メタデータ) (2021-07-09T16:37:27Z) - LEMMA: A Multi-view Dataset for Learning Multi-agent Multi-task
Activities [119.88381048477854]
LEMMAデータセットを導入し、細心の注意深い設定で、行方不明な次元に対処するための単一の家を提供する。
我々は、人間と物体の相互作用による原子間相互作用を密に注釈し、日常の活動の構成性、スケジューリング、割り当ての土台として提供する。
この取り組みにより、マシンビジョンコミュニティは、目標指向の人間活動を調べ、現実世界におけるタスクのスケジューリングと割り当てをさらに研究できることを期待します。
論文 参考訳(メタデータ) (2020-07-31T00:13:54Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z) - Planning to Explore via Self-Supervised World Models [120.31359262226758]
Plan2Exploreは自己監督型強化学習エージェントである。
我々は、自己監督型探索と、新しいタスクへの迅速な適応に対する新しいアプローチを提案する。
Plan2Exploreは、訓練の監督やタスク固有の相互作用がなければ、自己監督型の探査方法よりも優れている。
論文 参考訳(メタデータ) (2020-05-12T17:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。