論文の概要: Facial Feedback for Reinforcement Learning: A Case Study and Offline
Analysis Using the TAMER Framework
- arxiv url: http://arxiv.org/abs/2001.08703v1
- Date: Thu, 23 Jan 2020 17:50:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-07 13:32:22.741104
- Title: Facial Feedback for Reinforcement Learning: A Case Study and Offline
Analysis Using the TAMER Framework
- Title(参考訳): 強化学習のための顔フィードバック:TAMERフレームワークを用いた事例研究とオフライン分析
- Authors: Guangliang Li, Hamdi Dibeklio\u{g}lu, Shimon Whiteson and Hayley Hung
- Abstract要約: 訓練者の表情からエージェント学習の可能性について,評価フィードバックとして解釈することで検討した。
設計したCNN-RNNモデルを用いて,学習者に対して表情とコンペティションの使用を指示することで,肯定的および否定的なフィードバックを推定する精度を向上させることができることを示す。
シミュレーション実験の結果,表情に基づく予測フィードバックのみから学習できることが示唆された。
- 参考スコア(独自算出の注目度): 51.237191651923666
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Interactive reinforcement learning provides a way for agents to learn to
solve tasks from evaluative feedback provided by a human user. Previous
research showed that humans give copious feedback early in training but very
sparsely thereafter. In this article, we investigate the potential of agent
learning from trainers' facial expressions via interpreting them as evaluative
feedback. To do so, we implemented TAMER which is a popular interactive
reinforcement learning method in a reinforcement-learning benchmark problem ---
Infinite Mario, and conducted the first large-scale study of TAMER involving
561 participants. With designed CNN-RNN model, our analysis shows that telling
trainers to use facial expressions and competition can improve the accuracies
for estimating positive and negative feedback using facial expressions. In
addition, our results with a simulation experiment show that learning solely
from predicted feedback based on facial expressions is possible and using
strong/effective prediction models or a regression method, facial responses
would significantly improve the performance of agents. Furthermore, our
experiment supports previous studies demonstrating the importance of
bi-directional feedback and competitive elements in the training interface.
- Abstract(参考訳): 対話型強化学習は、エージェントが人間のユーザによる評価フィードバックからタスクを解く方法を提供する。
以前の研究では、人間は訓練の早い段階では協調的なフィードバックを与えるが、その後はごくわずかであった。
本稿では,訓練者の表情を評価フィードバックとして解釈することで,エージェント学習の可能性を検討する。
そこで我々は,強化学習ベンチマーク問題-infinite marioにおいて,対話型強化学習手法であるtamerを実装し,591名を対象にしたtamerの大規模研究を行った。
設計したCNN-RNNモデルを用いて,顔表情とコンペティションをトレーナーに指示することで,表情を用いた肯定的,否定的なフィードバックを推定できることを示す。
また,シミュレーション実験の結果,表情に基づく予測フィードバックのみからの学習が可能であり,強い/効果的な予測モデルや回帰法を用いることで,エージェントの性能が著しく向上することが示された。
さらに,トレーニングインタフェースにおける双方向フィードバックと競合要素の重要性を実証する先行研究を支援した。
関連論文リスト
- Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision [120.40788744292739]
本稿では、推論と批判モデルの役割を分離する2人プレイヤパラダイムを提案する。
まず、批判データを収集する自動化およびスケーラブルなフレームワークであるAutoMathCritiqueを提案する。
テスト時間における難解なクエリに対するアクターのパフォーマンスを,批判モデルが一貫して改善することが実証された。
論文 参考訳(メタデータ) (2024-11-25T17:11:54Z) - Multi-Modal Self-Supervised Learning for Surgical Feedback Effectiveness Assessment [66.6041949490137]
そこで本研究では,音声による音声入力とそれに対応する手術映像からの情報を統合して,フィードバックの有効性を予測する手法を提案する。
以上の結果から,手書きフィードバックと手術映像の両方が,訓練者の行動変化を個別に予測できることがわかった。
本研究は,手術フィードバックの自動評価を推進するためのマルチモーダル学習の可能性を示すものである。
論文 参考訳(メタデータ) (2024-11-17T00:13:00Z) - GUIDE: Real-Time Human-Shaped Agents [4.676987516944155]
リアルタイム強化学習のためのGUIDEを紹介した。
人間のフィードバックが10分しかなく、我々のアルゴリズムはRLベースラインと比較して最大30%の成功率を達成できる。
論文 参考訳(メタデータ) (2024-10-19T18:59:39Z) - Human-Feedback Efficient Reinforcement Learning for Online Diffusion Model Finetuning [21.707688492630304]
HEROは、人間のフィードバックを捉え、微調整のための情報学習信号を提供するオンライントレーニング手法である。
HEROは、推論、カウント、パーソナライズ、NSFWコンテンツを0.5Kのオンラインフィードバックで効果的に処理できる。
論文 参考訳(メタデータ) (2024-10-07T15:12:01Z) - Constructive Large Language Models Alignment with Diverse Feedback [76.9578950893839]
本稿では,大規模言語モデルのアライメント向上のための新しい手法として,コンストラクティブ・ディバース・フィードバック(CDF)を導入する。
我々は,簡単な問題に対する批判的フィードバック,中級問題に対する改善的フィードバック,難題に対する選好的フィードバックを利用する。
このような多様なフィードバックでモデルをトレーニングすることで、トレーニングデータの少ない使用でアライメント性能を向上させることができる。
論文 参考訳(メタデータ) (2023-10-10T09:20:14Z) - Using Large Language Models to Provide Explanatory Feedback to Human
Tutors [3.2507682694499582]
オンライン授業において,教師にリアルタイムフィードバックを提供するための2つのアプローチを提案する。
このワーク・イン・プログレス(英語版)は、効果的な、あるいは努力に基づく修正フィードバックのためのバイナリ分類においてかなりの精度を示す。
より具体的には、大言語モデルに精通した名前付きエンティティ認識を用いた説明的フィードバックを提供するための拡張されたアプローチについて紹介する。
論文 参考訳(メタデータ) (2023-06-27T14:19:12Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Widening the Pipeline in Human-Guided Reinforcement Learning with
Explanation and Context-Aware Data Augmentation [20.837228359591663]
本研究は,人間によるループ内強化学習における視覚的説明を用いた最初の研究である。
本研究では,タスク関連機能をコンテキスト対応データ拡張を通じて符号化することをモデルに推奨するEXPANDを提案する。
論文 参考訳(メタデータ) (2020-06-26T05:40:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。