論文の概要: Reinforcement Learning with Feedback from Multiple Humans with Diverse
Skills
- arxiv url: http://arxiv.org/abs/2111.08596v1
- Date: Tue, 16 Nov 2021 16:19:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-17 18:21:07.028867
- Title: Reinforcement Learning with Feedback from Multiple Humans with Diverse
Skills
- Title(参考訳): 多様なスキルを持つ複数人からのフィードバックによる強化学習
- Authors: Taku Yamagata, Ryan McConville and Raul Santos-Rodriguez (Department
of Engineering Mathematics, University of Bristol)
- Abstract要約: 強化学習における堅牢性と探索を改善するための有望なアプローチは、人間のフィードバックを集めることである。
しかし、品質に関する十分なフィードバックを得るには高すぎる場合が多い。
私たちは、十分なフィードバックを得るために、異なるスキルレベルを持つ複数の専門家のグループに頼ることを目指しています。
- 参考スコア(独自算出の注目度): 1.433758865948252
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A promising approach to improve the robustness and exploration in
Reinforcement Learning is collecting human feedback and that way incorporating
prior knowledge of the target environment. It is, however, often too expensive
to obtain enough feedback of good quality. To mitigate the issue, we aim to
rely on a group of multiple experts (and non-experts) with different skill
levels to generate enough feedback. Such feedback can therefore be inconsistent
and infrequent. In this paper, we build upon prior work -- Advise, a Bayesian
approach attempting to maximise the information gained from human feedback --
extending the algorithm to accept feedback from this larger group of humans,
the trainers, while also estimating each trainer's reliability. We show how
aggregating feedback from multiple trainers improves the total feedback's
accuracy and make the collection process easier in two ways. Firstly, this
approach addresses the case of some of the trainers being adversarial.
Secondly, having access to the information about each trainer reliability
provides a second layer of robustness and offers valuable information for
people managing the whole system to improve the overall trust in the system. It
offers an actionable tool for improving the feedback collection process or
modifying the reward function design if needed. We empirically show that our
approach can accurately learn the reliability of each trainer correctly and use
it to maximise the information gained from the multiple trainers' feedback,
even if some of the sources are adversarial.
- Abstract(参考訳): 強化学習におけるロバスト性と探索性を改善するための有望なアプローチは、人間からのフィードバックと、対象環境の事前知識を取り入れることである。
しかし、品質に関する十分なフィードバックを得るには高すぎることが多い。
この問題を軽減するため、私たちは十分なフィードバックを生み出すために、異なるスキルレベルを持つ複数の専門家(および非専門家)のグループに頼ることを目標としています。
したがって、そのようなフィードバックは一貫性がなく、不十分である。
本稿では,人間のフィードバックから得られる情報を最大化しようとするベイズ的アプローチである,先行研究 -- アドバイス -- に基づいて,この大きなグループであるトレーナーからのフィードバックを受け入れるアルゴリズムを拡張し,各トレーナーの信頼性を推定する。
複数のトレーナーからのフィードバックを集約することで、全体のフィードバック精度が向上し、収集プロセスが2つの方法で容易になることを示す。
第一に、このアプローチは、一部のトレーナーが反対である場合に対処する。
第二に、トレーナーの信頼性に関する情報へのアクセスは、堅牢性の第二層を提供し、システム全体の信頼性を改善するためにシステム全体を管理する人々にとって貴重な情報を提供する。
フィードバック収集プロセスを改善したり、必要に応じて報酬関数の設計を変更するための実行可能なツールを提供する。
提案手法は,学習者の信頼性を正確に学習し,複数の学習者のフィードバックから得られる情報を最大化するために有効であることを示す。
関連論文リスト
- CANDERE-COACH: Reinforcement Learning from Noisy Feedback [12.232688822099325]
CANDERE-COACHアルゴリズムは、非最適教師によるノイズフィードバックから学習することができる。
本稿では,教師のフィードバックの最大40%が誤りであった場合,RLエージェントが学習を成功させるためのノイズフィルタリング機構を提案する。
論文 参考訳(メタデータ) (2024-09-23T20:14:12Z) - ExpertAF: Expert Actionable Feedback from Video [81.46431188306397]
本研究では,身体活動を行う人の映像から行動可能なフィードバックを生成する新しい手法を提案する。
提案手法は,映像のデモンストレーションとそれに伴う3Dボディーポーズを取り,専門家による解説を生成する。
提案手法は,マルチモーダルな入力の組み合わせを解析し,フルスペクトルで実用的なコーチングを出力することができる。
論文 参考訳(メタデータ) (2024-08-01T16:13:07Z) - Rethinking the Evaluation of Dialogue Systems: Effects of User Feedback on Crowdworkers and LLMs [57.16442740983528]
アドホック検索では、評価は暗黙のフィードバックを含むユーザーの行動に大きく依存する。
アノテータの会話知覚におけるターン評価におけるユーザフィードバックの役割はほとんど研究されていない。
本稿では,タスク指向対話システム(TDS)の評価が,ターンのフォローアップ発話を通じて提供されるユーザフィードバック,明示的あるいは暗黙的な評価にどのように影響するかに注目した。
論文 参考訳(メタデータ) (2024-04-19T16:45:50Z) - Improving the Validity of Automatically Generated Feedback via
Reinforcement Learning [50.067342343957876]
強化学習(RL)を用いた正当性と整合性の両方を最適化するフィードバック生成フレームワークを提案する。
具体的には、直接選好最適化(DPO)によるトレーニングのための拡張データセットにおいて、GPT-4のアノテーションを使用してフィードバックペアよりも好みを生成する。
論文 参考訳(メタデータ) (2024-03-02T20:25:50Z) - Continually Improving Extractive QA via Human Feedback [59.49549491725224]
本研究では,人間のフィードバックによる抽出質問応答(QA)システムの改善を継続的に進める。
多様な設定の下で何千ものユーザインタラクションを含む実験を行い、時間とともにフィードバックからの学習の理解を広げます。
論文 参考訳(メタデータ) (2023-05-21T14:35:32Z) - Continual Learning for Instruction Following from Realtime Feedback [23.078048024461264]
我々は,協調作業中のユーザからのフィードバックから,指示追従エージェントを継続的に訓練するためのアプローチを提案し,展開する。
対話中、人間のユーザは自然言語を使ってエージェントに指示し、指示に従ってエージェントを観察するときにリアルタイムのバイナリフィードバックを提供する。
我々は、ユーザのフィードバックを即時報酬に変換する、文脈的帯域幅学習アプローチを設計する。
我々は、何千もの人間とエージェントの相互作用を通じて評価し、時間とともに命令の実行精度が15.4%向上したことを示す。
論文 参考訳(メタデータ) (2022-12-19T18:39:43Z) - Multi-trainer Interactive Reinforcement Learning System [7.3072544716528345]
複数のトレーナーを導入することにより,より効果的な対話型強化学習システムを提案する。
特に,トレーナーフィードバックアグリゲーション実験の結果,アグリゲーション法が最も正確であることがわかった。
最後に, MTIRLが評価モデルで訓練した政策が, レビューモデルなしでの政策よりも, 最適ポリシーに近いことを示すために, グリッドワールド実験を行った。
論文 参考訳(メタデータ) (2022-10-14T18:32:59Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Partial Bandit and Semi-Bandit: Making the Most Out of Scarce Users'
Feedback [62.997667081978825]
本稿では,ユーザのフィードバックを考慮し,3つの戦略を用いて評価する手法を提案する。
ユーザからのフィードバックが制限されているにも関わらず(全体の20%以下)、我々の手法は最先端のアプローチと同じような結果が得られる。
論文 参考訳(メタデータ) (2020-09-16T07:32:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。