論文の概要: The Expertise Problem: Learning from Specialized Feedback
- arxiv url: http://arxiv.org/abs/2211.06519v1
- Date: Sat, 12 Nov 2022 00:07:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 19:00:48.497789
- Title: The Expertise Problem: Learning from Specialized Feedback
- Title(参考訳): 専門知識の問題:専門的なフィードバックから学ぶ
- Authors: Oliver Daniels-Koch, Rachel Freedman
- Abstract要約: ヒューマンフィードバックからの強化学習(RLHF)は、エージェントが困難なタスクを実行するための強力な技術である。
専門知識のレベルは教師によって異なり、与えられた教師はタスクの異なるコンポーネントに関する専門知識のレベルが異なるかもしれない。
既存のRLHFアルゴリズムは、全ての評価が同じ分布から来ていると仮定し、人間間と人間の分散を隠蔽する。
- 参考スコア(独自算出の注目度): 7.858296711223292
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning from human feedback (RLHF) is a powerful technique for
training agents to perform difficult-to-specify tasks. However, human feedback
can be noisy, particularly when human teachers lack relevant knowledge or
experience. Levels of expertise vary across teachers, and a given teacher may
have differing levels of expertise for different components of a task. RLHF
algorithms that learn from multiple teachers therefore face an expertise
problem: the reliability of a given piece of feedback depends both on the
teacher that it comes from and how specialized that teacher is on relevant
components of the task. Existing state-of-the-art RLHF algorithms assume that
all evaluations come from the same distribution, obscuring this inter- and
intra-human variance, and preventing them from accounting for or taking
advantage of variations in expertise. We formalize this problem, implement it
as an extension of an existing RLHF benchmark, evaluate the performance of a
state-of-the-art RLHF algorithm, and explore techniques to improve query and
teacher selection. Our key contribution is to demonstrate and characterize the
expertise problem, and to provide an open-source implementation for testing
future solutions.
- Abstract(参考訳): ヒューマンフィードバックからの強化学習(RLHF)は、エージェントが困難なタスクを実行するための強力な技術である。
しかし、特に人間の教師が関連する知識や経験を欠いている場合、人間のフィードバックはうるさい。
専門知識のレベルは教師によって異なり、ある教師はタスクのさまざまなコンポーネントに対する専門知識のレベルが異なる可能性がある。
複数の教師から学習するRLHFアルゴリズムは、専門的な問題に直面している。与えられたフィードバックの信頼性は、その教師の出身地と、その教師がタスクの関連するコンポーネントにどの程度特化しているかに依存する。
既存のrlhfアルゴリズムは、すべての評価が同じ分布から来ていると仮定し、この人的および人的ばらつきを回避し、専門知識の多様性を考慮しない。
我々はこの問題を形式化し、既存のRLHFベンチマークの拡張として実装し、最先端のRLHFアルゴリズムの性能を評価し、クエリと教師の選択を改善する技術を探究する。
私たちの重要な貢献は、専門知識の問題を実証し、特徴づけ、将来のソリューションをテストするためのオープンソース実装を提供することです。
関連論文リスト
- Acquiring Diverse Skills using Curriculum Reinforcement Learning with
Mixture of Experts [63.60212850116486]
強化学習(Reinforcement Learning, RL)は, 優れた政策獲得のための強力なアプローチである。
多様なスキルを学習するためのRL手法としてtextbfDiverse textbfSkill textbfLearning (Di-SkilL) を提案する。
本稿では,Di-SkilLが多種多様なパフォーマンススキルを学習できるロボットシミュレーションタスクについて述べる。
論文 参考訳(メタデータ) (2024-03-11T17:49:18Z) - Co-Supervised Learning: Improving Weak-to-Strong Generalization with
Hierarchical Mixture of Experts [81.37287967870589]
我々は,一貫した生徒を統括する,一貫した一貫した教師ではなく,多様な専門教師の集合を活用することを提案する。
我々のアプローチは、古典的な階層的な専門家の混合に似ている。
提案手法は,OpenAIの弱強ベンチマークと追加のマルチドメインデータセットを用いて,視覚認識タスクにより検証する。
論文 参考訳(メタデータ) (2024-02-23T18:56:11Z) - Active teacher selection for reinforcement learning from human feedback [14.009227941725783]
人間のフィードバックからの強化学習(RLHF)により、機械学習システムは人間のフィードバックから目的を学ぶことができる。
教師の合理性、専門性、コストの相違をモデル化するHidden Utility Banditフレームワークを提案する。
我々は、さまざまなソリューションアルゴリズムを開発し、それらを紙レコメンデーションシステムと新型コロナウイルスワクチンテストという2つの現実世界の領域に適用する。
論文 参考訳(メタデータ) (2023-10-23T18:54:43Z) - Active Reward Learning from Multiple Teachers [17.10187575303075]
逆学習アルゴリズムは人間のフィードバックを利用して報酬関数を推論し、AIシステムのトレーニングに使用される。
この人間のフィードバックはしばしば好みの比較であり、人間の教師はAI行動のいくつかのサンプルを比較し、その目的を最も達成したと考えるものを選択する。
報酬学習は通常、すべてのフィードバックは1人の教師から来ると仮定するが、実際には、これらのシステムは複数の教師に十分なトレーニングデータを集めるよう問い合わせることが多い。
論文 参考訳(メタデータ) (2023-03-02T01:26:53Z) - Rethinking Learning Dynamics in RL using Adversarial Networks [79.56118674435844]
本稿では,スキル埋め込み空間を通じてパラメータ化された,密接に関連するスキルの強化学習のための学習機構を提案する。
本研究の主な貢献は、エントロピー規則化政策勾配定式化の助けを借りて、強化学習のための敵の訓練体制を定式化することである。
論文 参考訳(メタデータ) (2022-01-27T19:51:09Z) - ArT: All-round Thinker for Unsupervised Commonsense Question-Answering [54.068032948300655]
本稿では,知識生成における関連性を完全に取り除き,オールラウンド思考者(ArT)のアプローチを提案する。
我々は、COPA、SocialIQA、SCTの3つの共通センスQAベンチマークで評価した。
論文 参考訳(メタデータ) (2021-12-26T18:06:44Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Learning on a Budget via Teacher Imitation [0.5185131234265025]
アクションアドバイザリング(Action Advising)は、教師-学生間のアクションの形でそのような知識を伝達する柔軟な方法を提供するフレームワークである。
我々は,教師の模倣によるアドバイス再利用の概念を拡張し,アドバイス収集とアドバイス活用の両問題に対処する統一的なアプローチを構築する。
論文 参考訳(メタデータ) (2021-04-17T04:15:00Z) - Neural Multi-Task Learning for Teacher Question Detection in Online
Classrooms [50.19997675066203]
教師の音声記録から質問を自動的に検出するエンドツーエンドのニューラルネットワークフレームワークを構築している。
マルチタスク学習手法を取り入れることで,質問の種類によって意味的関係の理解を深めることが可能となる。
論文 参考訳(メタデータ) (2020-05-16T02:17:04Z) - Understanding the Power and Limitations of Teaching with Imperfect
Knowledge [30.588367257209388]
本研究では,教師が学習者に対して特定の課題を学習するための学習例を選択する際に,教師と学生/学生の相互作用について検討する。
教育における機械教育の現実的な応用に着想を得て,教師の知識が限られ,騒々しい環境を考える。
最適学習セットを構築する際に,不完全な知識が対応する機械教育問題に対する教師の解決にどう影響するかを示す。
論文 参考訳(メタデータ) (2020-03-21T17:53:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。