Fugu-MT 論文翻訳(概要): The Expertise Problem: Learning from Specialized Feedback

論文の概要: The Expertise Problem: Learning from Specialized Feedback

arxiv url: http://arxiv.org/abs/2211.06519v1
Date: Sat, 12 Nov 2022 00:07:35 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-15 19:00:48.497789
Title: The Expertise Problem: Learning from Specialized Feedback
Title（参考訳）: 専門知識の問題:専門的なフィードバックから学ぶ
Authors: Oliver Daniels-Koch, Rachel Freedman
Abstract要約: ヒューマンフィードバックからの強化学習(RLHF)は、エージェントが困難なタスクを実行するための強力な技術である。専門知識のレベルは教師によって異なり、与えられた教師はタスクの異なるコンポーネントに関する専門知識のレベルが異なるかもしれない。既存のRLHFアルゴリズムは、全ての評価が同じ分布から来ていると仮定し、人間間と人間の分散を隠蔽する。
参考スコア（独自算出の注目度）: 7.858296711223292
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reinforcement learning from human feedback (RLHF) is a powerful technique for training agents to perform difficult-to-specify tasks. However, human feedback can be noisy, particularly when human teachers lack relevant knowledge or experience. Levels of expertise vary across teachers, and a given teacher may have differing levels of expertise for different components of a task. RLHF algorithms that learn from multiple teachers therefore face an expertise problem: the reliability of a given piece of feedback depends both on the teacher that it comes from and how specialized that teacher is on relevant components of the task. Existing state-of-the-art RLHF algorithms assume that all evaluations come from the same distribution, obscuring this inter- and intra-human variance, and preventing them from accounting for or taking advantage of variations in expertise. We formalize this problem, implement it as an extension of an existing RLHF benchmark, evaluate the performance of a state-of-the-art RLHF algorithm, and explore techniques to improve query and teacher selection. Our key contribution is to demonstrate and characterize the expertise problem, and to provide an open-source implementation for testing future solutions.
Abstract（参考訳）: ヒューマンフィードバックからの強化学習(RLHF)は、エージェントが困難なタスクを実行するための強力な技術である。しかし、特に人間の教師が関連する知識や経験を欠いている場合、人間のフィードバックはうるさい。専門知識のレベルは教師によって異なり、ある教師はタスクのさまざまなコンポーネントに対する専門知識のレベルが異なる可能性がある。複数の教師から学習するRLHFアルゴリズムは、専門的な問題に直面している。与えられたフィードバックの信頼性は、その教師の出身地と、その教師がタスクの関連するコンポーネントにどの程度特化しているかに依存する。既存のrlhfアルゴリズムは、すべての評価が同じ分布から来ていると仮定し、この人的および人的ばらつきを回避し、専門知識の多様性を考慮しない。我々はこの問題を形式化し、既存のRLHFベンチマークの拡張として実装し、最先端のRLHFアルゴリズムの性能を評価し、クエリと教師の選択を改善する技術を探究する。私たちの重要な貢献は、専門知識の問題を実証し、特徴づけ、将来のソリューションをテストするためのオープンソース実装を提供することです。

関連論文リスト

Multi-Teacher Knowledge Distillation with Reinforcement Learning for Visual Recognition [24.293448609592147]
マルチ教師知識蒸留(Multi-Teacher Knowledge Distillation, KD)は、教師プールから学生ネットワークへ多様な知識を伝達する。本稿では,MTKD-RL(Multi-Teacher Knowledge Distillation with Reinforcement Learning)を提案する。
論文参考訳（メタデータ） (2025-02-22T09:31:24Z)
What Makes An Expert? Reviewing How ML Researchers Define "Expert" [4.6346970187885885]
専門」と「専門」を明示的に参照する学術出版物112件をレビューする。専門知識はしばしば未定義であり、正式な教育以外の知識の形式はめったに求められない。我々は、専門家が機械学習開発に関わった方法、専門知識の社会的構築、そして責任あるAI開発への意味について論じる。
論文参考訳（メタデータ） (2024-10-31T19:51:28Z)
CANDERE-COACH: Reinforcement Learning from Noisy Feedback [12.232688822099325]
CANDERE-COACHアルゴリズムは、非最適教師によるノイズフィードバックから学習することができる。本稿では,教師のフィードバックの最大40%が誤りであった場合,RLエージェントが学習を成功させるためのノイズフィルタリング機構を提案する。
論文参考訳（メタデータ） (2024-09-23T20:14:12Z)
RILe: Reinforced Imitation Learning [60.63173816209543]
RILeは、学生のパフォーマンスと専門家によるデモンストレーションとの整合性に基づいて、動的報酬関数を学習する新しいトレーナー学生システムである。 RILeは、従来のメソッドがフェールする複雑な環境でのより良いパフォーマンスを実現し、複雑なシミュレートされたロボット移動タスクにおいて、既存のメソッドを2倍の性能で上回る。
論文参考訳（メタデータ） (2024-06-12T17:56:31Z)
RLHF Deciphered: A Critical Analysis of Reinforcement Learning from Human Feedback for LLMs [49.386699863989335]
大きな言語モデル(LLM)を訓練し、人間の効果的なアシスタントとして機能させるには、慎重に検討する必要がある。有望なアプローチとして、人間からのフィードバック(RLHF)からの強化学習がある。本稿では、強化学習原理のレンズを通してRLHFを分析し、その基礎を理解する。
論文参考訳（メタデータ） (2024-04-12T15:54:15Z)
The Promises and Pitfalls of Using Language Models to Measure Instruction Quality in Education [3.967610895056427]
本稿では,自然言語処理(NLP)技術を活用して,複数のハイ推論教育実践を評価するための最初の研究について述べる。ノイズや長い入力データ、人間の評価の高度に歪んだ分布など、NLPに基づく指導分析に固有の2つの課題に直面している。
論文参考訳（メタデータ） (2024-04-03T04:15:29Z)
Acquiring Diverse Skills using Curriculum Reinforcement Learning with Mixture of Experts [58.220879689376744]
強化学習(Reinforcement Learning, RL)は, 優れた政策獲得のための強力なアプローチである。多様なスキルを学習するための textbfDiverse textbfSkill textbfLearning (Di-SkilL) を提案する。本稿では,Di-SkilLが多種多様なパフォーマンススキルを学習できるロボットシミュレーションタスクについて述べる。
論文参考訳（メタデータ） (2024-03-11T17:49:18Z)
Co-Supervised Learning: Improving Weak-to-Strong Generalization with Hierarchical Mixture of Experts [81.37287967870589]
我々は,一貫した生徒を統括する,一貫した一貫した教師ではなく,多様な専門教師の集合を活用することを提案する。我々のアプローチは、古典的な階層的な専門家の混合に似ている。提案手法は,OpenAIの弱強ベンチマークと追加のマルチドメインデータセットを用いて,視覚認識タスクにより検証する。
論文参考訳（メタデータ） (2024-02-23T18:56:11Z)
Active teacher selection for reinforcement learning from human feedback [14.009227941725783]
人間のフィードバックからの強化学習(RLHF)により、機械学習システムは人間のフィードバックから目的を学ぶことができる。教師の合理性、専門性、コストの相違をモデル化するHidden Utility Banditフレームワークを提案する。我々は、さまざまなソリューションアルゴリズムを開発し、それらを紙レコメンデーションシステムと新型コロナウイルスワクチンテストという2つの現実世界の領域に適用する。
論文参考訳（メタデータ） (2023-10-23T18:54:43Z)
Rethinking Learning Dynamics in RL using Adversarial Networks [79.56118674435844]
本稿では,スキル埋め込み空間を通じてパラメータ化された,密接に関連するスキルの強化学習のための学習機構を提案する。本研究の主な貢献は、エントロピー規則化政策勾配定式化の助けを借りて、強化学習のための敵の訓練体制を定式化することである。
論文参考訳（メタデータ） (2022-01-27T19:51:09Z)
ArT: All-round Thinker for Unsupervised Commonsense Question-Answering [54.068032948300655]
本稿では,知識生成における関連性を完全に取り除き,オールラウンド思考者(ArT)のアプローチを提案する。我々は、COPA、SocialIQA、SCTの3つの共通センスQAベンチマークで評価した。
論文参考訳（メタデータ） (2021-12-26T18:06:44Z)
PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文参考訳（メタデータ） (2021-06-09T14:10:50Z)
Neural Multi-Task Learning for Teacher Question Detection in Online Classrooms [50.19997675066203]
教師の音声記録から質問を自動的に検出するエンドツーエンドのニューラルネットワークフレームワークを構築している。マルチタスク学習手法を取り入れることで,質問の種類によって意味的関係の理解を深めることが可能となる。
論文参考訳（メタデータ） (2020-05-16T02:17:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。