論文の概要: Accelerating Reinforcement Learning Agent with EEG-based Implicit Human
Feedback
- arxiv url: http://arxiv.org/abs/2006.16498v3
- Date: Wed, 14 Oct 2020 17:35:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 04:36:21.754909
- Title: Accelerating Reinforcement Learning Agent with EEG-based Implicit Human
Feedback
- Title(参考訳): 脳波に基づく暗黙的人間フィードバックによる強化学習エージェントの高速化
- Authors: Duo Xu, Mohit Agarwal, Ekansh Gupta, Faramarz Fekri, Raghupathy
Sivakumar
- Abstract要約: 人間のフィードバックによる強化学習(RL)エージェントは、学習のさまざまな側面を劇的に改善することができる。
従来の方法では、人間の観察者が明示的に入力をし、RLエージェントの学習プロセスのループで人間を負担する必要があった。
脳波による人間の内因性反応を、エラー関連電位(ErrP)の形で暗黙の(そして自然な)フィードバックとして捉えることを検討する。
- 参考スコア(独自算出の注目度): 10.138798960466222
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Providing Reinforcement Learning (RL) agents with human feedback can
dramatically improve various aspects of learning. However, previous methods
require human observer to give inputs explicitly (e.g., press buttons, voice
interface), burdening the human in the loop of RL agent's learning process.
Further, it is sometimes difficult or impossible to obtain the explicit human
advise (feedback), e.g., autonomous driving, disabled rehabilitation, etc. In
this work, we investigate capturing human's intrinsic reactions as implicit
(and natural) feedback through EEG in the form of error-related potentials
(ErrP), providing a natural and direct way for humans to improve the RL agent
learning. As such, the human intelligence can be integrated via implicit
feedback with RL algorithms to accelerate the learning of RL agent. We develop
three reasonably complex 2D discrete navigational games to experimentally
evaluate the overall performance of the proposed work. Major contributions of
our work are as follows,
(i) we propose and experimentally validate the zero-shot learning of ErrPs,
where the ErrPs can be learned for one game, and transferred to other unseen
games, (ii) we propose a novel RL framework for integrating implicit human
feedbacks via ErrPs with RL agent, improving the label efficiency and
robustness to human mistakes, and (iii) compared to prior works, we scale the
application of ErrPs to reasonably complex environments, and demonstrate the
significance of our approach for accelerated learning through real user
experiments.
- Abstract(参考訳): 人間のフィードバックによる強化学習(RL)エージェントの提供は、学習のさまざまな側面を劇的に改善することができる。
しかし、従来の手法では、人間の観察者が入力を明示的に(例えば、ボタンや音声インタフェースなど)与え、RLエージェントの学習プロセスのループで人間を負担する必要があった。
さらに、例えば、自動運転や障害リハビリテーションなど、明示的な人間のアドバイス(フィードバック)を得ることは、しばしば困難または不可能である。
本研究では,人間の内因性反応を脳波による暗黙の(そして自然な)フィードバックとして,エラー関連電位(ErrP)の形で捉え,RLエージェント学習を改善する自然的かつ直接的な方法を提供する。
そのため、人間の知能はRLアルゴリズムに暗黙のフィードバックを通して統合することができ、RLエージェントの学習を加速することができる。
提案する作業全体の性能を実験的に評価するために,3つの合理的に複雑な2次元離散ナビゲーションゲームを開発した。
私たちの仕事の主な貢献は次のとおりです。
(i)ErrPのゼロショット学習を提案し,実験により検証し,ErrPを1つのゲームで学習し,他のゲームに転送する。
(II)ErrPsを介して暗黙のフィードバックをRLエージェントと統合し、ラベルの効率と人的ミスに対する堅牢性を向上する新しいRLフレームワークを提案する。
(iii) 従来の研究と比較して,ErrPの応用を合理的に複雑な環境に拡張し,実際のユーザ実験を通じて学習を加速するアプローチの重要性を実証する。
関連論文リスト
- Ego-Foresight: Agent Visuomotor Prediction as Regularization for RL [34.6883445484835]
エゴフォレスト(Ego-Foresight)は、エージェントと環境を移動と予測に基づいて切り離す自己管理手法である。
本稿では,エージェントのビジュモータ予測がRLアルゴリズムの正規化に役立ち,動作が予測可能な範囲内に留まるよう促すことを示す。
Ego-ForesightとモデルフリーなRLアルゴリズムを統合し、ロボット操作のシミュレーションを解くことで、効率が23%向上し、性能が8%向上した。
論文 参考訳(メタデータ) (2024-05-27T13:32:43Z) - HAIM-DRL: Enhanced Human-in-the-loop Reinforcement Learning for Safe and Efficient Autonomous Driving [2.807187711407621]
本稿では,AIメンターをベースとした深層強化学習(HAIM-DRL)フレームワークとして,Human-in-the-loop強化学習法を提案する。
私たちはまず、AIメンター(HAIM)と呼ばれる人間の知性をAIに効果的に注入する革新的な学習パラダイムを紹介します。
このパラダイムでは、人間の専門家がAIエージェントのメンターとして機能し、エージェントはトラフィックフローの障害を最小限に抑えるためにガイドされる。
論文 参考訳(メタデータ) (2024-01-06T08:30:14Z) - REBOOT: Reuse Data for Bootstrapping Efficient Real-World Dexterous
Manipulation [61.7171775202833]
本稿では,強化学習による巧妙な操作スキルの学習を効率化するシステムを提案する。
我々のアプローチの主な考え方は、サンプル効率のRLとリプレイバッファブートストラップの最近の進歩の統合である。
本システムでは,実世界の学習サイクルを,模倣に基づくピックアップポリシを通じて学習されたリセットを組み込むことで完遂する。
論文 参考訳(メタデータ) (2023-09-06T19:05:31Z) - Primitive Skill-based Robot Learning from Human Evaluative Feedback [28.046559859978597]
強化学習アルゴリズムは、現実世界環境における長期ロボット操作タスクを扱う際に、課題に直面している。
本稿では,人間フィードバックからの強化学習(RLHF)と原始的スキルベース強化学習の2つのアプローチを活用する新しいフレームワークSEEDを提案する。
以上の結果から,SEEDはサンプル効率と安全性において最先端のRLアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2023-07-28T20:48:30Z) - Improving Multimodal Interactive Agents with Reinforcement Learning from
Human Feedback [16.268581985382433]
人工知能の重要な目標は、人間と自然に対話し、フィードバックから学ぶことができるエージェントを作ることである。
ここでは、人間のフィードバックから強化学習を用いて、シミュレーションされたエンボディエージェントを改善する方法を紹介する。
論文 参考訳(メタデータ) (2022-11-21T16:00:31Z) - Flexible Attention-Based Multi-Policy Fusion for Efficient Deep
Reinforcement Learning [78.31888150539258]
強化学習(RL)エージェントは、長い間、人間の学習の効率にアプローチしようとしてきた。
RLにおける以前の研究は、エージェントがサンプル効率を改善するために外部知識ポリシーを取り入れていた。
我々は,複数の知識ポリシーを融合させたRLパラダイムであるKGRL(Knowledge-Grounded RL)について述べる。
論文 参考訳(メタデータ) (2022-10-07T17:56:57Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。
検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。
検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文 参考訳(メタデータ) (2022-02-17T02:44:05Z) - Autonomous Reinforcement Learning: Formalism and Benchmarking [106.25788536376007]
人間や動物が行うような現実世界の具体的学習は、連続的で非エポゾディックな世界にある。
RLの一般的なベンチマークタスクはエピソジックであり、試行錯誤によってエージェントに複数の試行を行う環境がリセットされる。
この相違は、擬似環境向けに開発されたRLアルゴリズムを現実世界のプラットフォーム上で実行しようとする場合、大きな課題となる。
論文 参考訳(メタデータ) (2021-12-17T16:28:06Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。