Fugu-MT 論文翻訳(概要): Facial Feedback for Reinforcement Learning: A Case Study and Offline Analysis Using the TAMER Framework

論文の概要: Facial Feedback for Reinforcement Learning: A Case Study and Offline Analysis Using the TAMER Framework

arxiv url: http://arxiv.org/abs/2001.08703v1
Date: Thu, 23 Jan 2020 17:50:57 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-07 13:32:22.741104
Title: Facial Feedback for Reinforcement Learning: A Case Study and Offline Analysis Using the TAMER Framework
Title（参考訳）: 強化学習のための顔フィードバック:TAMERフレームワークを用いた事例研究とオフライン分析
Authors: Guangliang Li, Hamdi Dibeklio\u{g}lu, Shimon Whiteson and Hayley Hung
Abstract要約: 訓練者の表情からエージェント学習の可能性について,評価フィードバックとして解釈することで検討した。設計したCNN-RNNモデルを用いて,学習者に対して表情とコンペティションの使用を指示することで,肯定的および否定的なフィードバックを推定する精度を向上させることができることを示す。シミュレーション実験の結果,表情に基づく予測フィードバックのみから学習できることが示唆された。
参考スコア（独自算出の注目度）: 51.237191651923666
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Interactive reinforcement learning provides a way for agents to learn to solve tasks from evaluative feedback provided by a human user. Previous research showed that humans give copious feedback early in training but very sparsely thereafter. In this article, we investigate the potential of agent learning from trainers' facial expressions via interpreting them as evaluative feedback. To do so, we implemented TAMER which is a popular interactive reinforcement learning method in a reinforcement-learning benchmark problem --- Infinite Mario, and conducted the first large-scale study of TAMER involving 561 participants. With designed CNN-RNN model, our analysis shows that telling trainers to use facial expressions and competition can improve the accuracies for estimating positive and negative feedback using facial expressions. In addition, our results with a simulation experiment show that learning solely from predicted feedback based on facial expressions is possible and using strong/effective prediction models or a regression method, facial responses would significantly improve the performance of agents. Furthermore, our experiment supports previous studies demonstrating the importance of bi-directional feedback and competitive elements in the training interface.
Abstract（参考訳）: 対話型強化学習は、エージェントが人間のユーザによる評価フィードバックからタスクを解く方法を提供する。以前の研究では、人間は訓練の早い段階では協調的なフィードバックを与えるが、その後はごくわずかであった。本稿では,訓練者の表情を評価フィードバックとして解釈することで,エージェント学習の可能性を検討する。そこで我々は,強化学習ベンチマーク問題-infinite marioにおいて,対話型強化学習手法であるtamerを実装し,591名を対象にしたtamerの大規模研究を行った。設計したCNN-RNNモデルを用いて,顔表情とコンペティションをトレーナーに指示することで,表情を用いた肯定的,否定的なフィードバックを推定できることを示す。また,シミュレーション実験の結果,表情に基づく予測フィードバックのみからの学習が可能であり,強い/効果的な予測モデルや回帰法を用いることで,エージェントの性能が著しく向上することが示された。さらに,トレーニングインタフェースにおける双方向フィードバックと競合要素の重要性を実証する先行研究を支援した。

関連論文リスト

Playpen: An Environment for Exploring Learning Through Conversational Interaction [81.67330926729015]
本研究は,対話ゲームが学習のフィードバック信号の源として機能するかどうかを考察する。本稿では,対話ゲームによるオフラインおよびオンライン学習環境であるPlaypenを紹介する。 SFTによる模倣学習は、目に見えないインスタンスのパフォーマンスを向上させるが、他のスキルに悪影響を及ぼす。
論文参考訳（メタデータ） (2025-04-11T14:49:33Z)
Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision [120.40788744292739]
本稿では、推論と批判モデルの役割を分離する2人プレイヤパラダイムを提案する。まず、批判データを収集する自動化およびスケーラブルなフレームワークであるAutoMathCritiqueを提案する。テスト時間における難解なクエリに対するアクターのパフォーマンスを,批判モデルが一貫して改善することが実証された。
論文参考訳（メタデータ） (2024-11-25T17:11:54Z)
Multi-Modal Self-Supervised Learning for Surgical Feedback Effectiveness Assessment [66.6041949490137]
そこで本研究では,音声による音声入力とそれに対応する手術映像からの情報を統合して,フィードバックの有効性を予測する手法を提案する。以上の結果から,手書きフィードバックと手術映像の両方が,訓練者の行動変化を個別に予測できることがわかった。本研究は,手術フィードバックの自動評価を推進するためのマルチモーダル学習の可能性を示すものである。
論文参考訳（メタデータ） (2024-11-17T00:13:00Z)
Navigating Noisy Feedback: Enhancing Reinforcement Learning with Error-Prone Language Models [8.025808955214957]
本稿では,大規模言語モデルフィードバックによる強化学習の利点と限界について考察する。本稿では,フィードバックを潜在的形状関数として提案する,シンプルで効果的な手法を提案する。
論文参考訳（メタデータ） (2024-10-22T19:52:08Z)
GUIDE: Real-Time Human-Shaped Agents [4.676987516944155]
リアルタイム強化学習のためのGUIDEを紹介した。人間のフィードバックが10分しかなく、我々のアルゴリズムはRLベースラインと比較して最大30%の成功率を達成できる。
論文参考訳（メタデータ） (2024-10-19T18:59:39Z)
Human-Feedback Efficient Reinforcement Learning for Online Diffusion Model Finetuning [21.707688492630304]
HEROは、人間のフィードバックを捉え、微調整のための情報学習信号を提供するオンライントレーニング手法である。 HEROは、推論、カウント、パーソナライズ、NSFWコンテンツを0.5Kのオンラインフィードバックで効果的に処理できる。
論文参考訳（メタデータ） (2024-10-07T15:12:01Z)
Constructive Large Language Models Alignment with Diverse Feedback [76.9578950893839]
本稿では,大規模言語モデルのアライメント向上のための新しい手法として,コンストラクティブ・ディバース・フィードバック(CDF)を導入する。我々は,簡単な問題に対する批判的フィードバック,中級問題に対する改善的フィードバック,難題に対する選好的フィードバックを利用する。このような多様なフィードバックでモデルをトレーニングすることで、トレーニングデータの少ない使用でアライメント性能を向上させることができる。
論文参考訳（メタデータ） (2023-10-10T09:20:14Z)
Using Large Language Models to Provide Explanatory Feedback to Human Tutors [3.2507682694499582]
オンライン授業において,教師にリアルタイムフィードバックを提供するための2つのアプローチを提案する。このワーク・イン・プログレス(英語版)は、効果的な、あるいは努力に基づく修正フィードバックのためのバイナリ分類においてかなりの精度を示す。より具体的には、大言語モデルに精通した名前付きエンティティ認識を用いた説明的フィードバックを提供するための拡張されたアプローチについて紹介する。
論文参考訳（メタデータ） (2023-06-27T14:19:12Z)
Explain, Edit, and Understand: Rethinking User Study Design for Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文参考訳（メタデータ） (2021-12-17T18:29:56Z)
PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文参考訳（メタデータ） (2021-06-09T14:10:50Z)
Widening the Pipeline in Human-Guided Reinforcement Learning with Explanation and Context-Aware Data Augmentation [20.837228359591663]
本研究は,人間によるループ内強化学習における視覚的説明を用いた最初の研究である。本研究では,タスク関連機能をコンテキスト対応データ拡張を通じて符号化することをモデルに推奨するEXPANDを提案する。
論文参考訳（メタデータ） (2020-06-26T05:40:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。