論文の概要: Facial Feedback for Reinforcement Learning: A Case Study and Offline
Analysis Using the TAMER Framework
- arxiv url: http://arxiv.org/abs/2001.08703v1
- Date: Thu, 23 Jan 2020 17:50:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-07 13:32:22.741104
- Title: Facial Feedback for Reinforcement Learning: A Case Study and Offline
Analysis Using the TAMER Framework
- Title(参考訳): 強化学習のための顔フィードバック:TAMERフレームワークを用いた事例研究とオフライン分析
- Authors: Guangliang Li, Hamdi Dibeklio\u{g}lu, Shimon Whiteson and Hayley Hung
- Abstract要約: 訓練者の表情からエージェント学習の可能性について,評価フィードバックとして解釈することで検討した。
設計したCNN-RNNモデルを用いて,学習者に対して表情とコンペティションの使用を指示することで,肯定的および否定的なフィードバックを推定する精度を向上させることができることを示す。
シミュレーション実験の結果,表情に基づく予測フィードバックのみから学習できることが示唆された。
- 参考スコア(独自算出の注目度): 51.237191651923666
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Interactive reinforcement learning provides a way for agents to learn to
solve tasks from evaluative feedback provided by a human user. Previous
research showed that humans give copious feedback early in training but very
sparsely thereafter. In this article, we investigate the potential of agent
learning from trainers' facial expressions via interpreting them as evaluative
feedback. To do so, we implemented TAMER which is a popular interactive
reinforcement learning method in a reinforcement-learning benchmark problem ---
Infinite Mario, and conducted the first large-scale study of TAMER involving
561 participants. With designed CNN-RNN model, our analysis shows that telling
trainers to use facial expressions and competition can improve the accuracies
for estimating positive and negative feedback using facial expressions. In
addition, our results with a simulation experiment show that learning solely
from predicted feedback based on facial expressions is possible and using
strong/effective prediction models or a regression method, facial responses
would significantly improve the performance of agents. Furthermore, our
experiment supports previous studies demonstrating the importance of
bi-directional feedback and competitive elements in the training interface.
- Abstract(参考訳): 対話型強化学習は、エージェントが人間のユーザによる評価フィードバックからタスクを解く方法を提供する。
以前の研究では、人間は訓練の早い段階では協調的なフィードバックを与えるが、その後はごくわずかであった。
本稿では,訓練者の表情を評価フィードバックとして解釈することで,エージェント学習の可能性を検討する。
そこで我々は,強化学習ベンチマーク問題-infinite marioにおいて,対話型強化学習手法であるtamerを実装し,591名を対象にしたtamerの大規模研究を行った。
設計したCNN-RNNモデルを用いて,顔表情とコンペティションをトレーナーに指示することで,表情を用いた肯定的,否定的なフィードバックを推定できることを示す。
また,シミュレーション実験の結果,表情に基づく予測フィードバックのみからの学習が可能であり,強い/効果的な予測モデルや回帰法を用いることで,エージェントの性能が著しく向上することが示された。
さらに,トレーニングインタフェースにおける双方向フィードバックと競合要素の重要性を実証する先行研究を支援した。
関連論文リスト
- Improving the Validity of Automatically Generated Feedback via
Reinforcement Learning [50.067342343957876]
強化学習(RL)を用いた正当性と整合性の両方を最適化するフィードバック生成フレームワークを提案する。
具体的には、直接選好最適化(DPO)によるトレーニングのための拡張データセットにおいて、GPT-4のアノテーションを使用してフィードバックペアよりも好みを生成する。
論文 参考訳(メタデータ) (2024-03-02T20:25:50Z) - Reinforcement Learning from Statistical Feedback: the Journey from AB
Testing to ANT Testing [1.1142354615369272]
RLHF(Reinforcement Learning from Human Feedback)は、ChatGPTのような大規模モデルの成功において重要な役割を担っている。
ABテストを用いて、人間のフィードバックではなく統計的ビジネスフィードバックでこのギャップを埋めようとしている。
統計的推論法は、事前訓練されたモデルを微調整する報奨ネットワークを訓練するための選好を得るために用いられる。
論文 参考訳(メタデータ) (2023-11-24T07:50:52Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [61.14928315004026]
オフ・ポリティクス強化学習は、インタラクティブな模倣学習よりも近いが、潜在的にさらに実践的な仮定の下で、パフォーマンスを向上させることができる。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Constructive Large Language Models Alignment with Diverse Feedback [76.9578950893839]
本稿では,大規模言語モデルのアライメント向上のための新しい手法として,コンストラクティブ・ディバース・フィードバック(CDF)を導入する。
我々は,簡単な問題に対する批判的フィードバック,中級問題に対する改善的フィードバック,難題に対する選好的フィードバックを利用する。
このような多様なフィードバックでモデルをトレーニングすることで、トレーニングデータの少ない使用でアライメント性能を向上させることができる。
論文 参考訳(メタデータ) (2023-10-10T09:20:14Z) - Using Large Language Models to Provide Explanatory Feedback to Human
Tutors [3.2507682694499582]
オンライン授業において,教師にリアルタイムフィードバックを提供するための2つのアプローチを提案する。
このワーク・イン・プログレス(英語版)は、効果的な、あるいは努力に基づく修正フィードバックのためのバイナリ分類においてかなりの精度を示す。
より具体的には、大言語モデルに精通した名前付きエンティティ認識を用いた説明的フィードバックを提供するための拡張されたアプローチについて紹介する。
論文 参考訳(メタデータ) (2023-06-27T14:19:12Z) - Multi-trainer Interactive Reinforcement Learning System [7.3072544716528345]
複数のトレーナーを導入することにより,より効果的な対話型強化学習システムを提案する。
特に,トレーナーフィードバックアグリゲーション実験の結果,アグリゲーション法が最も正確であることがわかった。
最後に, MTIRLが評価モデルで訓練した政策が, レビューモデルなしでの政策よりも, 最適ポリシーに近いことを示すために, グリッドワールド実験を行った。
論文 参考訳(メタデータ) (2022-10-14T18:32:59Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Widening the Pipeline in Human-Guided Reinforcement Learning with
Explanation and Context-Aware Data Augmentation [20.837228359591663]
本研究は,人間によるループ内強化学習における視覚的説明を用いた最初の研究である。
本研究では,タスク関連機能をコンテキスト対応データ拡張を通じて符号化することをモデルに推奨するEXPANDを提案する。
論文 参考訳(メタデータ) (2020-06-26T05:40:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。