論文の概要: Human Decision Makings on Curriculum Reinforcement Learning with
Difficulty Adjustment
- arxiv url: http://arxiv.org/abs/2208.02932v1
- Date: Thu, 4 Aug 2022 23:53:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-08 12:24:23.250787
- Title: Human Decision Makings on Curriculum Reinforcement Learning with
Difficulty Adjustment
- Title(参考訳): 難易度調整によるカリキュラム強化学習の人間的意思決定
- Authors: Yilei Zeng, Jiali Duan, Yang Li, Emilio Ferrara, Lerrel Pinto, C.-C.
Jay Kuo, Stefanos Nikolaidis
- Abstract要約: 我々は,カリキュラム強化学習結果を,人的意思決定プロセスから学ぶことで,難しすぎず,難しすぎるような望ましいパフォーマンスレベルに導く。
本システムは非常に並列化可能であり,大規模強化学習アプリケーションの訓練が可能となる。
強化学習性能は、人間の所望の難易度と同期してうまく調整できることが示される。
- 参考スコア(独自算出の注目度): 52.07473934146584
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human-centered AI considers human experiences with AI performance. While
abundant research has been helping AI achieve superhuman performance either by
fully automatic or weak supervision learning, fewer endeavors are experimenting
with how AI can tailor to humans' preferred skill level given fine-grained
input. In this work, we guide the curriculum reinforcement learning results
towards a preferred performance level that is neither too hard nor too easy via
learning from the human decision process. To achieve this, we developed a
portable, interactive platform that enables the user to interact with agents
online via manipulating the task difficulty, observing performance, and
providing curriculum feedback. Our system is highly parallelizable, making it
possible for a human to train large-scale reinforcement learning applications
that require millions of samples without a server. The result demonstrates the
effectiveness of an interactive curriculum for reinforcement learning involving
human-in-the-loop. It shows reinforcement learning performance can successfully
adjust in sync with the human desired difficulty level. We believe this
research will open new doors for achieving flow and personalized adaptive
difficulties.
- Abstract(参考訳): 人間中心AIは、AIのパフォーマンスに関する人間の経験を考察する。
完全な自動または弱い監督学習によって、AIが超人的なパフォーマンスを達成するのに十分な研究がなされている一方で、より詳細な入力によって、AIが人間の好みのスキルレベルに合わせる方法の実験は少ない。
本研究では,カリキュラム強化学習結果を,人的意思決定プロセスから学習することで,難しすぎず,難しすぎず,難しすぎるパフォーマンスレベルに導出する。
そこで我々は,タスクの難しさの操作,パフォーマンスの観察,カリキュラムのフィードバックなどを通じて,オンラインでエージェントと対話できるポータブルな対話型プラットフォームを開発した。
私たちのシステムは高度に並列化可能で、サーバなしで何百万ものサンプルを必要とする大規模な強化学習アプリケーションをトレーニングできます。
その結果,人間による強化学習における対話型カリキュラムの有効性が示された。
強化学習性能は、人間の所望の難易度と同期してうまく調整できることを示す。
この研究は、フローとパーソナライズされた適応困難を達成するための新しい扉を開くだろう。
関連論文リスト
- SPIRE: Synergistic Planning, Imitation, and Reinforcement Learning for Long-Horizon Manipulation [58.14969377419633]
タスクをより小さな学習サブプロブレムに分解し、第2に模倣と強化学習を組み合わせてその強みを最大化するシステムであるspireを提案する。
我々は、模倣学習、強化学習、計画を統合する従来の手法よりも平均タスク性能が35%から50%向上していることを発見した。
論文 参考訳(メタデータ) (2024-10-23T17:42:07Z) - VITAL: Visual Teleoperation to Enhance Robot Learning through Human-in-the-Loop Corrections [10.49712834719005]
本稿では,VITAL と呼ばれる双方向操作作業のための低コストな視覚遠隔操作システムを提案する。
われわれのアプローチは、安価なハードウェアとビジュアル処理技術を利用してデモを収集する。
実環境と模擬環境の両方を活用することにより,学習方針の一般化性と堅牢性を高める。
論文 参考訳(メタデータ) (2024-07-30T23:29:47Z) - Offline Imitation Learning Through Graph Search and Retrieval [57.57306578140857]
模倣学習は、ロボットが操作スキルを取得するための強力な機械学習アルゴリズムである。
本稿では,グラフ検索と検索により,最適下実験から学習する,シンプルで効果的なアルゴリズムGSRを提案する。
GSRは、ベースラインに比べて10%から30%高い成功率、30%以上の熟練を達成できる。
論文 参考訳(メタデータ) (2024-07-22T06:12:21Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - A data-driven approach for learning to control computers [8.131261634438912]
本稿では,キーボードとマウスを用いたコンピュータ制御の設定について,自然言語による目標設定について検討する。
MiniWob++ベンチマークのすべてのタスクにおいて、最先端および人間レベルの平均パフォーマンスを実現しています。
これらの結果から,コンピュータを訓練する際の統合ヒューマンエージェントインタフェースの有用性が示された。
論文 参考訳(メタデータ) (2022-02-16T15:23:46Z) - What Matters in Learning from Offline Human Demonstrations for Robot
Manipulation [64.43440450794495]
ロボット操作のための6つのオフライン学習アルゴリズムについて広範な研究を行う。
我々の研究は、オフラインの人間のデータから学習する際の最も重要な課題を分析します。
人間のデータセットから学ぶ機会を強調します。
論文 参考訳(メタデータ) (2021-08-06T20:48:30Z) - Active Hierarchical Imitation and Reinforcement Learning [0.0]
本研究では,我々が開発した階層的模倣強化学習フレームワークを用いて,様々な模倣学習アルゴリズムを探索し,アクティブ学習アルゴリズムを設計した。
実験の結果,daggerと報酬ベースのアクティブラーニング手法は,トレーニング過程において身体的および精神的により多くの努力を省きながら,よりよいパフォーマンスを達成できることがわかった。
論文 参考訳(メタデータ) (2020-12-14T08:27:27Z) - Human-guided Robot Behavior Learning: A GAN-assisted Preference-based
Reinforcement Learning Approach [2.9764834057085716]
本稿では,新しいGAN支援人間嗜好に基づく強化学習手法を提案する。
GAN(Generative Adversarial Network)を使用して、人間の嗜好を積極的に学習し、選好を割り当てる際の人間の役割を置き換える。
本手法は, 性能犠牲を伴わずに, 約99.8%の人的時間を短縮することができる。
論文 参考訳(メタデータ) (2020-10-15T01:44:06Z) - Deep Reinforcement Learning with Interactive Feedback in a Human-Robot
Environment [1.2998475032187096]
対話型フィードバックを用いた深層強化学習手法を提案し,人間ロボットのシナリオで家庭内課題を学習する。
シミュレーションロボットアームを用いた3つの学習手法を比較し,異なる物体を整理する作業について検討した。
その結果、学習エージェントは、エージェントIDeepRLまたはヒューマンIDeepRLを使用して、与えられたタスクを早期に完了し、自律的なDeepRLアプローチと比較して誤りが少ないことがわかった。
論文 参考訳(メタデータ) (2020-07-07T11:55:27Z) - Learning to Complement Humans [67.38348247794949]
オープンワールドにおけるAIに対するビジョンの高まりは、知覚、診断、推論タスクのために人間を補完できるシステムの開発に焦点を当てている。
我々は,人間-機械チームの複合的なパフォーマンスを最適化するために,エンド・ツー・エンドの学習戦略をどのように活用できるかを実証する。
論文 参考訳(メタデータ) (2020-05-01T20:00:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。