論文の概要: The Expertise Problem: Learning from Specialized Feedback
- arxiv url: http://arxiv.org/abs/2211.06519v1
- Date: Sat, 12 Nov 2022 00:07:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 19:00:48.497789
- Title: The Expertise Problem: Learning from Specialized Feedback
- Title(参考訳): 専門知識の問題:専門的なフィードバックから学ぶ
- Authors: Oliver Daniels-Koch, Rachel Freedman
- Abstract要約: ヒューマンフィードバックからの強化学習(RLHF)は、エージェントが困難なタスクを実行するための強力な技術である。
専門知識のレベルは教師によって異なり、与えられた教師はタスクの異なるコンポーネントに関する専門知識のレベルが異なるかもしれない。
既存のRLHFアルゴリズムは、全ての評価が同じ分布から来ていると仮定し、人間間と人間の分散を隠蔽する。
- 参考スコア(独自算出の注目度): 7.858296711223292
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning from human feedback (RLHF) is a powerful technique for
training agents to perform difficult-to-specify tasks. However, human feedback
can be noisy, particularly when human teachers lack relevant knowledge or
experience. Levels of expertise vary across teachers, and a given teacher may
have differing levels of expertise for different components of a task. RLHF
algorithms that learn from multiple teachers therefore face an expertise
problem: the reliability of a given piece of feedback depends both on the
teacher that it comes from and how specialized that teacher is on relevant
components of the task. Existing state-of-the-art RLHF algorithms assume that
all evaluations come from the same distribution, obscuring this inter- and
intra-human variance, and preventing them from accounting for or taking
advantage of variations in expertise. We formalize this problem, implement it
as an extension of an existing RLHF benchmark, evaluate the performance of a
state-of-the-art RLHF algorithm, and explore techniques to improve query and
teacher selection. Our key contribution is to demonstrate and characterize the
expertise problem, and to provide an open-source implementation for testing
future solutions.
- Abstract(参考訳): ヒューマンフィードバックからの強化学習(RLHF)は、エージェントが困難なタスクを実行するための強力な技術である。
しかし、特に人間の教師が関連する知識や経験を欠いている場合、人間のフィードバックはうるさい。
専門知識のレベルは教師によって異なり、ある教師はタスクのさまざまなコンポーネントに対する専門知識のレベルが異なる可能性がある。
複数の教師から学習するRLHFアルゴリズムは、専門的な問題に直面している。与えられたフィードバックの信頼性は、その教師の出身地と、その教師がタスクの関連するコンポーネントにどの程度特化しているかに依存する。
既存のrlhfアルゴリズムは、すべての評価が同じ分布から来ていると仮定し、この人的および人的ばらつきを回避し、専門知識の多様性を考慮しない。
我々はこの問題を形式化し、既存のRLHFベンチマークの拡張として実装し、最先端のRLHFアルゴリズムの性能を評価し、クエリと教師の選択を改善する技術を探究する。
私たちの重要な貢献は、専門知識の問題を実証し、特徴づけ、将来のソリューションをテストするためのオープンソース実装を提供することです。
関連論文リスト
- What Makes An Expert? Reviewing How ML Researchers Define "Expert" [4.6346970187885885]
専門」と「専門」を明示的に参照する学術出版物112件をレビューする。
専門知識はしばしば未定義であり、正式な教育以外の知識の形式はめったに求められない。
我々は、専門家が機械学習開発に関わった方法、専門知識の社会的構築、そして責任あるAI開発への意味について論じる。
論文 参考訳(メタデータ) (2024-10-31T19:51:28Z) - CANDERE-COACH: Reinforcement Learning from Noisy Feedback [12.232688822099325]
CANDERE-COACHアルゴリズムは、非最適教師によるノイズフィードバックから学習することができる。
本稿では,教師のフィードバックの最大40%が誤りであった場合,RLエージェントが学習を成功させるためのノイズフィルタリング機構を提案する。
論文 参考訳(メタデータ) (2024-09-23T20:14:12Z) - RLHF Deciphered: A Critical Analysis of Reinforcement Learning from Human Feedback for LLMs [49.386699863989335]
大きな言語モデル(LLM)を訓練し、人間の効果的なアシスタントとして機能させるには、慎重に検討する必要がある。
有望なアプローチとして、人間からのフィードバック(RLHF)からの強化学習がある。
本稿では、強化学習原理のレンズを通してRLHFを分析し、その基礎を理解する。
論文 参考訳(メタデータ) (2024-04-12T15:54:15Z) - The Promises and Pitfalls of Using Language Models to Measure Instruction Quality in Education [3.967610895056427]
本稿では,自然言語処理(NLP)技術を活用して,複数のハイ推論教育実践を評価するための最初の研究について述べる。
ノイズや長い入力データ、人間の評価の高度に歪んだ分布など、NLPに基づく指導分析に固有の2つの課題に直面している。
論文 参考訳(メタデータ) (2024-04-03T04:15:29Z) - Co-Supervised Learning: Improving Weak-to-Strong Generalization with
Hierarchical Mixture of Experts [81.37287967870589]
我々は,一貫した生徒を統括する,一貫した一貫した教師ではなく,多様な専門教師の集合を活用することを提案する。
我々のアプローチは、古典的な階層的な専門家の混合に似ている。
提案手法は,OpenAIの弱強ベンチマークと追加のマルチドメインデータセットを用いて,視覚認識タスクにより検証する。
論文 参考訳(メタデータ) (2024-02-23T18:56:11Z) - Active teacher selection for reinforcement learning from human feedback [14.009227941725783]
人間のフィードバックからの強化学習(RLHF)により、機械学習システムは人間のフィードバックから目的を学ぶことができる。
教師の合理性、専門性、コストの相違をモデル化するHidden Utility Banditフレームワークを提案する。
我々は、さまざまなソリューションアルゴリズムを開発し、それらを紙レコメンデーションシステムと新型コロナウイルスワクチンテストという2つの現実世界の領域に適用する。
論文 参考訳(メタデータ) (2023-10-23T18:54:43Z) - Rethinking Learning Dynamics in RL using Adversarial Networks [79.56118674435844]
本稿では,スキル埋め込み空間を通じてパラメータ化された,密接に関連するスキルの強化学習のための学習機構を提案する。
本研究の主な貢献は、エントロピー規則化政策勾配定式化の助けを借りて、強化学習のための敵の訓練体制を定式化することである。
論文 参考訳(メタデータ) (2022-01-27T19:51:09Z) - ArT: All-round Thinker for Unsupervised Commonsense Question-Answering [54.068032948300655]
本稿では,知識生成における関連性を完全に取り除き,オールラウンド思考者(ArT)のアプローチを提案する。
我々は、COPA、SocialIQA、SCTの3つの共通センスQAベンチマークで評価した。
論文 参考訳(メタデータ) (2021-12-26T18:06:44Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Neural Multi-Task Learning for Teacher Question Detection in Online
Classrooms [50.19997675066203]
教師の音声記録から質問を自動的に検出するエンドツーエンドのニューラルネットワークフレームワークを構築している。
マルチタスク学習手法を取り入れることで,質問の種類によって意味的関係の理解を深めることが可能となる。
論文 参考訳(メタデータ) (2020-05-16T02:17:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。