論文の概要: Human Engagement Providing Evaluative and Informative Advice for
Interactive Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2009.09575v2
- Date: Thu, 7 Jul 2022 07:14:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-16 05:34:43.799656
- Title: Human Engagement Providing Evaluative and Informative Advice for
Interactive Reinforcement Learning
- Title(参考訳): 対話型強化学習のための評価的および情報的アドバイスを提供する人間参加
- Authors: Adam Bignold, Francisco Cruz, Richard Dazeley, Peter Vamplew, Cameron
Foale
- Abstract要約: この研究は、評価的または情報的という2つのアプローチのどちらが人間にとって好ましい指導的アプローチであるかを答えることに焦点を当てている。
結果は、ユーザーにより正確なアドバイスを提供し、学習者エージェントを長く支援し、エピソード毎により多くのアドバイスを提供することを示す。
- 参考スコア(独自算出の注目度): 2.5799044614524664
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Interactive reinforcement learning proposes the use of externally-sourced
information in order to speed up the learning process. When interacting with a
learner agent, humans may provide either evaluative or informative advice.
Prior research has focused on the effect of human-sourced advice by including
real-time feedback on the interactive reinforcement learning process,
specifically aiming to improve the learning speed of the agent, while
minimising the time demands on the human. This work focuses on answering which
of two approaches, evaluative or informative, is the preferred instructional
approach for humans. Moreover, this work presents an experimental setup for a
human-trial designed to compare the methods people use to deliver advice in
terms of human engagement. The results obtained show that users giving
informative advice to the learner agents provide more accurate advice, are
willing to assist the learner agent for a longer time, and provide more advice
per episode. Additionally, self-evaluation from participants using the
informative approach has indicated that the agent's ability to follow the
advice is higher, and therefore, they feel their own advice to be of higher
accuracy when compared to people providing evaluative advice.
- Abstract(参考訳): 対話型強化学習では,学習プロセスの高速化のために外部ソース情報の利用を提案する。
学習者エージェントと対話する場合、人間は評価的または情報的アドバイスを与えることができる。
従来の研究では、対話型強化学習プロセスへのリアルタイムフィードバックを含め、エージェントの学習速度の向上を目標とし、人間に対する時間的要求を最小化することで、人間によるアドバイスの効果に焦点を当ててきた。
本研究は,2つのアプローチ(評価的アプローチと情報的アプローチ)のどちらが人間にとって望ましい指導的アプローチかを問うものである。
さらに,本研究は,ヒトのエンゲージメントの観点からアドバイスの提供に使用する方法を比較するために,人間裁判のための実験的なセットアップを提案する。
その結果、学習者エージェントに情報的アドバイスを与えるユーザは、より正確なアドバイスを提供し、学習者エージェントを長期間支援し、エピソードごとにより多くのアドバイスを提供する。
さらに、情報的アプローチを用いた参加者の自己評価は、エージェントがアドバイスに従う能力が高いことを示しており、評価的アドバイスを提供する人に比べて、より正確であると感じている。
関連論文リスト
- Multi-Modal Self-Supervised Learning for Surgical Feedback Effectiveness Assessment [66.6041949490137]
そこで本研究では,音声による音声入力とそれに対応する手術映像からの情報を統合して,フィードバックの有効性を予測する手法を提案する。
以上の結果から,手書きフィードバックと手術映像の両方が,訓練者の行動変化を個別に予測できることがわかった。
本研究は,手術フィードバックの自動評価を推進するためのマルチモーダル学習の可能性を示すものである。
論文 参考訳(メタデータ) (2024-11-17T00:13:00Z) - Broad-persistent Advice for Interactive Reinforcement Learning Scenarios [2.0549239024359762]
本稿では,提供される知識の保持・再利用方法を提案する。
その結果,広義のアドバイスを用いることで,エージェントの性能が著しく向上することが示唆された。
論文 参考訳(メタデータ) (2022-10-11T06:46:27Z) - Learning When to Advise Human Decision Makers [12.47847261193524]
本稿では,アルゴリズムがユーザと双方向に対話するAIシステムの設計を提案する。
大規模な実験の結果,私たちのアドバイスアプローチは,必要な時にアドバイスを提供することができることがわかった。
論文 参考訳(メタデータ) (2022-09-27T17:52:13Z) - Teachable Reinforcement Learning via Advice Distillation [161.43457947665073]
外部教師が提供した構造化アドバイスから学習する「教育可能な」意思決定システムに基づく対話型学習のための新しい指導パラダイムを提案する。
我々は、アドバイスから学ぶエージェントが、標準的な強化学習アルゴリズムよりも人的監督力の少ない新しいスキルを習得できることを示す。
論文 参考訳(メタデータ) (2022-03-19T03:22:57Z) - A Broad-persistent Advising Approach for Deep Interactive Reinforcement
Learning in Robotic Environments [0.3683202928838613]
Deep Interactive Reinforcement Learning (DeepIRL)には、外部トレーナーやエキスパートからのインタラクティブなフィードバックが含まれており、学習プロセスのスピードアップのために、学習者がアクションを選択するのを支援する。
本稿では,BPA(Broad-peristent Advising)を提案する。
トレーナーは、現在の状態だけでなく、同様の状態に関するより一般的なアドバイスを与えるだけでなく、エージェントが学習プロセスのスピードアップを可能にする。
論文 参考訳(メタデータ) (2021-10-15T10:56:00Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Persistent Rule-based Interactive Reinforcement Learning [0.5999777817331317]
現在の対話型強化学習研究は、現在の状態にのみ関連するアドバイスを提供する相互作用に限られている。
本稿では,ルールに基づく対話型強化学習手法,すなわち,提供された知識の保持と再利用のための手法を提案する。
実験の結果,持続的アドバイスはエージェントの性能を著しく向上させるとともに,トレーナーに必要なインタラクションの数を減らすことができることがわかった。
論文 参考訳(メタデータ) (2021-02-04T06:48:57Z) - Generative Inverse Deep Reinforcement Learning for Online Recommendation [62.09946317831129]
オンラインレコメンデーションのための新しい逆強化学習手法InvRecを提案する。
InvRecは、オンラインレコメンデーションのために、ユーザの行動から報酬関数を自動的に抽出する。
論文 参考訳(メタデータ) (2020-11-04T12:12:25Z) - Knowledge-guided Deep Reinforcement Learning for Interactive
Recommendation [49.32287384774351]
インタラクティブレコメンデーションは、アイテムとユーザ間の動的インタラクションから学び、応答性と精度を達成することを目的としている。
本稿では,知識指導型深層強化学習を提案する。
論文 参考訳(メタデータ) (2020-04-17T05:26:47Z) - Facial Feedback for Reinforcement Learning: A Case Study and Offline
Analysis Using the TAMER Framework [51.237191651923666]
訓練者の表情からエージェント学習の可能性について,評価フィードバックとして解釈することで検討した。
設計したCNN-RNNモデルを用いて,学習者に対して表情とコンペティションの使用を指示することで,肯定的および否定的なフィードバックを推定する精度を向上させることができることを示す。
シミュレーション実験の結果,表情に基づく予測フィードバックのみから学習できることが示唆された。
論文 参考訳(メタデータ) (2020-01-23T17:50:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。