論文の概要: Human AI interaction loop training: New approach for interactive
reinforcement learning
- arxiv url: http://arxiv.org/abs/2003.04203v1
- Date: Mon, 9 Mar 2020 15:27:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-25 07:39:45.339876
- Title: Human AI interaction loop training: New approach for interactive
reinforcement learning
- Title(参考訳): human ai interaction loop training: インタラクティブ強化学習のための新しいアプローチ
- Authors: Neda Navidi
- Abstract要約: 機械学習の様々な意思決定タスクにおける強化学習(RL)は、スタンドアロンの報酬関数から学習するエージェントによる効果的な結果を提供する。
RLは、多くの環境状態と行動空間、および報酬の決定に固有の課題を提示する。
イミテーションラーニング(IL)は、教師を使った課題に対して有望な解決策を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning (RL) in various decision-making tasks of machine
learning provides effective results with an agent learning from a stand-alone
reward function. However, it presents unique challenges with large amounts of
environment states and action spaces, as well as in the determination of
rewards. This complexity, coming from high dimensionality and continuousness of
the environments considered herein, calls for a large number of learning trials
to learn about the environment through Reinforcement Learning. Imitation
Learning (IL) offers a promising solution for those challenges using a teacher.
In IL, the learning process can take advantage of human-sourced assistance
and/or control over the agent and environment. A human teacher and an agent
learner are considered in this study. The teacher takes part in the agent
training towards dealing with the environment, tackling a specific objective,
and achieving a predefined goal. Within that paradigm, however, existing IL
approaches have the drawback of expecting extensive demonstration information
in long-horizon problems. This paper proposes a novel approach combining IL
with different types of RL methods, namely state action reward state action
(SARSA) and asynchronous advantage actor-critic (A3C) agents, to overcome the
problems of both stand-alone systems. It is addressed how to effectively
leverage the teacher feedback, be it direct binary or indirect detailed for the
agent learner to learn sequential decision-making policies. The results of this
study on various OpenAI Gym environments show that this algorithmic method can
be incorporated with different combinations, significantly decreases both human
endeavor and tedious exploration process.
- Abstract(参考訳): 機械学習の様々な意思決定タスクにおける強化学習(rl)は、スタンドアローン報酬関数から学習するエージェントに効果的な結果を提供する。
しかし、これは多くの環境状態や行動空間とともに、報酬の決定にもユニークな課題をもたらす。
この複雑さは、ここで考慮された環境の高次元性と連続性から生まれ、強化学習を通じて環境について学ぶための多くの学習試行を要求する。
模倣学習(il)は教師を使った課題に対して有望な解決策を提供する。
ILでは、学習プロセスは、エージェントと環境に対する人為的な援助と/または制御を利用することができる。
本研究では,人間教師とエージェント学習者について考察する。
教師は、環境に対処するためのエージェントトレーニングに参加し、特定の目標に取り組み、事前定義された目標を達成する。
しかしながら、このパラダイム内では、既存のilアプローチは、長いホライゾン問題における広範なデモンストレーション情報を期待する欠点がある。
本稿では,ILと異なるタイプのRL手法,すなわち状態アクション報酬状態アクション(SARSA)と非同期アドバンテージアクタ批判エージェント(A3C)を組み合わせることで,スタンドアローンシステムの問題を克服する手法を提案する。
教師のフィードバックを効果的に活用するには,エージェント学習者が逐次的な意思決定方針を学べるように,直接的あるいは間接的に詳細な方法が必要となる。
本研究は,様々なOpenAI Gym環境において,このアルゴリズムを異なる組み合わせで組み込むことができ,人間の努力と退屈な探索プロセスの両方を著しく減少させることを示した。
関連論文リスト
- RILe: Reinforced Imitation Learning [60.63173816209543]
RILeは、学生のパフォーマンスと専門家によるデモンストレーションとの整合性に基づいて、動的報酬関数を学習する新しいトレーナー学生システムである。
RILeは、従来のメソッドがフェールする複雑な環境でのより良いパフォーマンスを実現し、複雑なシミュレートされたロボット移動タスクにおいて、既存のメソッドを2倍の性能で上回る。
論文 参考訳(メタデータ) (2024-06-12T17:56:31Z) - Social Interpretable Reinforcement Learning [4.242435932138821]
SIRL(Social Interpretable RL)は、学習効率を向上させるための社会学習原則に着想を得たものである。
6つのよく知られたベンチマークの結果から、SIRLは最先端の性能に達することが示された。
論文 参考訳(メタデータ) (2024-01-27T19:05:21Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Demonstration-free Autonomous Reinforcement Learning via Implicit and
Bidirectional Curriculum [22.32327908453603]
Indicit and Bi-directional Curriculum (IBC) を用いた実証自由強化学習アルゴリズムを提案する。
学習の進捗に応じて条件付きで活性化される補助エージェントと、最適輸送に基づく双方向ゴールカリキュラムにより、本手法は従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-05-17T04:31:36Z) - Reinforcement Learning in Education: A Multi-Armed Bandit Approach [12.358921226358133]
強化傾きは、エージェントが状態-作用-逆ループを通過し、エージェントに対する全体的な報酬を最大化する、教師なしの問題を解決する。
本研究の目的は,教育場面における介入勧告問題に対する環境内の累積報酬の文脈化とシミュレートである。
論文 参考訳(メタデータ) (2022-11-01T22:47:17Z) - Collaborative Training of Heterogeneous Reinforcement Learning Agents in
Environments with Sparse Rewards: What and When to Share? [7.489793155793319]
本研究は,本質的なモチベーションを通じて得られた情報と,より効率的な探索と学習の高速化を目的とした情報を組み合わせることに焦点を当てる。
計算コストの少ない協調的なフレームワークが知識を共有することなく独立した学習プロセスより優れていることを示す。
論文 参考訳(メタデータ) (2022-02-24T16:15:51Z) - Rethinking Learning Dynamics in RL using Adversarial Networks [79.56118674435844]
本稿では,スキル埋め込み空間を通じてパラメータ化された,密接に関連するスキルの強化学習のための学習機構を提案する。
本研究の主な貢献は、エントロピー規則化政策勾配定式化の助けを借りて、強化学習のための敵の訓練体制を定式化することである。
論文 参考訳(メタデータ) (2022-01-27T19:51:09Z) - Autonomous Reinforcement Learning: Formalism and Benchmarking [106.25788536376007]
人間や動物が行うような現実世界の具体的学習は、連続的で非エポゾディックな世界にある。
RLの一般的なベンチマークタスクはエピソジックであり、試行錯誤によってエージェントに複数の試行を行う環境がリセットされる。
この相違は、擬似環境向けに開発されたRLアルゴリズムを現実世界のプラットフォーム上で実行しようとする場合、大きな課題となる。
論文 参考訳(メタデータ) (2021-12-17T16:28:06Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Forgetful Experience Replay in Hierarchical Reinforcement Learning from
Demonstrations [55.41644538483948]
本稿では,複雑な視覚環境において,エージェントが低品質な実演を行えるようにするためのアプローチの組み合わせを提案する。
提案した目標指向のリプレイバッファ構築により,エージェントはデモにおいて複雑な階層的タスクを解くためのサブゴールを自動的に強調することができる。
私たちのアルゴリズムに基づくこのソリューションは、有名なMineRLコンペティションのすべてのソリューションを破り、エージェントがMinecraft環境でダイヤモンドをマイニングすることを可能にする。
論文 参考訳(メタデータ) (2020-06-17T15:38:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。