論文の概要: Multi-trainer Interactive Reinforcement Learning System
- arxiv url: http://arxiv.org/abs/2210.08050v1
- Date: Fri, 14 Oct 2022 18:32:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 20:03:55.982112
- Title: Multi-trainer Interactive Reinforcement Learning System
- Title(参考訳): マルチトレーナー対話型強化学習システム
- Authors: Zhaori Guo, Timothy J. Norman, and Enrico H. Gerding
- Abstract要約: 複数のトレーナーを導入することにより,より効果的な対話型強化学習システムを提案する。
特に,トレーナーフィードバックアグリゲーション実験の結果,アグリゲーション法が最も正確であることがわかった。
最後に, MTIRLが評価モデルで訓練した政策が, レビューモデルなしでの政策よりも, 最適ポリシーに近いことを示すために, グリッドワールド実験を行った。
- 参考スコア(独自算出の注目度): 7.3072544716528345
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Interactive reinforcement learning can effectively facilitate the agent
training via human feedback. However, such methods often require the human
teacher to know what is the correct action that the agent should take. In other
words, if the human teacher is not always reliable, then it will not be
consistently able to guide the agent through its training. In this paper, we
propose a more effective interactive reinforcement learning system by
introducing multiple trainers, namely Multi-Trainer Interactive Reinforcement
Learning (MTIRL), which could aggregate the binary feedback from multiple
non-perfect trainers into a more reliable reward for an agent training in a
reward-sparse environment. In particular, our trainer feedback aggregation
experiments show that our aggregation method has the best accuracy when
compared with the majority voting, the weighted voting, and the Bayesian
method. Finally, we conduct a grid-world experiment to show that the policy
trained by the MTIRL with the review model is closer to the optimal policy than
that without a review model.
- Abstract(参考訳): 対話型強化学習は,人間フィードバックによるエージェントトレーニングを効果的に促進する。
しかし、そのような方法は、しばしば、人間教師がエージェントが取るべき正しい行動が何であるかを知ることを要求する。
言い換えれば、もし人間の教師が常に信頼できるとは限らないなら、その訓練を通じてエージェントを一貫して導くことはできない。
本稿では,マルチトレーナー・インタラクティブ強化学習(MTIRL)という,複数の非完全トレーナーからのバイナリフィードバックを,報酬分散環境におけるエージェントトレーニングに対するより信頼性の高い報酬に集約する,より効果的な対話型強化学習システムを提案する。
特に, 学習者フィードバックアグリゲーション実験の結果, 多数決, 重み付け投票, ベイズ法と比較すると, 集計法が最も精度が高いことがわかった。
最後に, MTIRLが評価モデルで訓練した政策が, レビューモデルなしでの政策よりも, 最適ポリシーに近いことを示すために, グリッドワールド実験を行った。
関連論文リスト
- Multi-Agent Training for Pommerman: Curriculum Learning and Population-based Self-Play Approach [11.740631954398292]
Pommermanはマルチエージェントトレーニングのための理想的なベンチマークであり、同盟エージェント間のコミュニケーション能力を持つ2つのチームのための戦場を提供する。
本研究は,カリキュラム学習と人口ベースセルフプレイを組み合わせることで,Pommermanをプレイするマルチエージェントシステムを学習するためのシステムを提案する。
論文 参考訳(メタデータ) (2024-06-30T11:14:29Z) - Direct Language Model Alignment from Online AI Feedback [78.40436231613754]
嗜好からの直接アライメント(DAP)手法は、人間フィードバックからの強化学習(RLHF)の効果的な代替手段として最近登場した。
本研究では,オンラインフィードバックが鍵であり,DAP法の改善を図っている。
オンラインAIフィードバック(OAIF)はLLMをアノテータとして使用し、トレーニング毎に現在のモデルから2つのレスポンスをサンプリングし、LLMアノテータにどちらが好まれるかを選択し、オンラインフィードバックを提供する。
論文 参考訳(メタデータ) (2024-02-07T12:31:13Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Boosting Feedback Efficiency of Interactive Reinforcement Learning by
Adaptive Learning from Scores [11.702616722462139]
本稿では,対話型強化学習のフィードバック効率を向上させるために,対の選好の代わりに人間が提供するスコアを利用する新しい手法を提案する。
提案手法は,相互選好学習法と比較して,フィードバックを少なくしながら,スコアから適応学習することで,最適に近いポリシーを効率的に学習できることを示す。
論文 参考訳(メタデータ) (2023-07-11T16:12:15Z) - MERMAIDE: Learning to Align Learners using Model-Based Meta-Learning [62.065503126104126]
本研究では,先見のつかない学習エージェントの報酬を効率よく効果的に介入し,望ましい結果を導き出す方法について検討する。
これはオークションや課税のような現実世界の多くの設定に関係しており、プリンシパルは学習行動や実際の人々の報酬を知らないかもしれない。
モデルに基づくメタ学習フレームワークであるMERMAIDEを導入し,配布外エージェントに迅速に適応できるプリンシパルを訓練する。
論文 参考訳(メタデータ) (2023-04-10T15:44:50Z) - Reinforcement Learning with Feedback from Multiple Humans with Diverse
Skills [1.433758865948252]
強化学習における堅牢性と探索を改善するための有望なアプローチは、人間のフィードバックを集めることである。
しかし、品質に関する十分なフィードバックを得るには高すぎる場合が多い。
私たちは、十分なフィードバックを得るために、異なるスキルレベルを持つ複数の専門家のグループに頼ることを目指しています。
論文 参考訳(メタデータ) (2021-11-16T16:19:19Z) - A Broad-persistent Advising Approach for Deep Interactive Reinforcement
Learning in Robotic Environments [0.3683202928838613]
Deep Interactive Reinforcement Learning (DeepIRL)には、外部トレーナーやエキスパートからのインタラクティブなフィードバックが含まれており、学習プロセスのスピードアップのために、学習者がアクションを選択するのを支援する。
本稿では,BPA(Broad-peristent Advising)を提案する。
トレーナーは、現在の状態だけでなく、同様の状態に関するより一般的なアドバイスを与えるだけでなく、エージェントが学習プロセスのスピードアップを可能にする。
論文 参考訳(メタデータ) (2021-10-15T10:56:00Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Rethinking Supervised Learning and Reinforcement Learning in
Task-Oriented Dialogue Systems [58.724629408229205]
本稿では、従来の教師あり学習とシミュレータなしの逆学習法を用いて、最先端のRL法に匹敵する性能を実現する方法を示す。
我々の主な目的は、教師あり学習で強化学習に勝ることではなく、タスク指向対話システムの最適化における強化学習と教師あり学習の役割を再考する価値を示すことである。
論文 参考訳(メタデータ) (2020-09-21T12:04:18Z) - Facial Feedback for Reinforcement Learning: A Case Study and Offline
Analysis Using the TAMER Framework [51.237191651923666]
訓練者の表情からエージェント学習の可能性について,評価フィードバックとして解釈することで検討した。
設計したCNN-RNNモデルを用いて,学習者に対して表情とコンペティションの使用を指示することで,肯定的および否定的なフィードバックを推定する精度を向上させることができることを示す。
シミュレーション実験の結果,表情に基づく予測フィードバックのみから学習できることが示唆された。
論文 参考訳(メタデータ) (2020-01-23T17:50:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。