論文の概要: Active teacher selection for reinforcement learning from human feedback
- arxiv url: http://arxiv.org/abs/2310.15288v1
- Date: Mon, 23 Oct 2023 18:54:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 22:13:08.383261
- Title: Active teacher selection for reinforcement learning from human feedback
- Title(参考訳): 人的フィードバックによる強化学習のためのアクティブ教師選択
- Authors: Rachel Freedman, Justin Svegliato, Kyle Wray, Stuart Russell
- Abstract要約: 人間のフィードバックからの強化学習(RLHF)により、機械学習システムは人間のフィードバックから目的を学ぶことができる。
教師の合理性、専門性、コストの相違をモデル化するHidden Utility Banditフレームワークを提案する。
我々は、さまざまなソリューションアルゴリズムを開発し、それらを紙レコメンデーションシステムと新型コロナウイルスワクチンテストという2つの現実世界の領域に適用する。
- 参考スコア(独自算出の注目度): 14.009227941725783
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning from human feedback (RLHF) enables machine learning
systems to learn objectives from human feedback. A core limitation of these
systems is their assumption that all feedback comes from a single human
teacher, despite querying a range of distinct teachers. We propose the Hidden
Utility Bandit (HUB) framework to model differences in teacher rationality,
expertise, and costliness, formalizing the problem of learning from multiple
teachers. We develop a variety of solution algorithms and apply them to two
real-world domains: paper recommendation systems and COVID-19 vaccine testing.
We find that the Active Teacher Selection (ATS) algorithm outperforms baseline
algorithms by actively selecting when and which teacher to query. The HUB
framework and ATS algorithm demonstrate the importance of leveraging
differences between teachers to learn accurate reward models, facilitating
future research on active teacher selection for robust reward modeling.
- Abstract(参考訳): human feedback(rlhf)からの強化学習は、人間のフィードバックから目的を学習する機械学習システムを可能にする。
これらのシステムの中核的な制限は、すべてのフィードバックが1人の人間教師からのものであるという仮定である。
教師の合理性、専門性、コストの相違をモデル化し、複数の教師からの学習問題を定式化するHUB(Hidden Utility Bandit)フレームワークを提案する。
我々は、様々なソリューションアルゴリズムを開発し、それらを2つの現実世界のドメイン、ペーパーレコメンデーションシステムとcovid-19ワクチンテストに適用する。
アクティブ教師選択(ATS)アルゴリズムは,いつ,どの教師に問い合わせるかを積極的に選択することで,ベースラインアルゴリズムよりも優れていることがわかった。
HUBフレームワークとATSアルゴリズムは、教師間の差異を活用して正確な報酬モデルを学ぶことの重要性を示し、堅牢な報酬モデルのためのアクティブな教師選択に関する今後の研究を促進する。
関連論文リスト
- YODA: Teacher-Student Progressive Learning for Language Models [82.0172215948963]
本稿では,教師が指導するプログレッシブ・ラーニング・フレームワークであるYodaを紹介する。
モデルファインチューニングの有効性を向上させるために,教師の教育過程をエミュレートする。
実験の結果, YODAのデータによるLLaMA2のトレーニングにより, SFTは大幅に向上した。
論文 参考訳(メタデータ) (2024-01-28T14:32:15Z) - TGRL: An Algorithm for Teacher Guided Reinforcement Learning [45.38447023752256]
強化と教師の学習目標を最大限にするための政策を訓練することが一般的である。
私たちは、$textitprincipled$アプローチと、$textitdynamically$と$textitautomatically$の近似実装を示します。
論文 参考訳(メタデータ) (2023-07-06T17:58:40Z) - Active Reward Learning from Multiple Teachers [17.10187575303075]
逆学習アルゴリズムは人間のフィードバックを利用して報酬関数を推論し、AIシステムのトレーニングに使用される。
この人間のフィードバックはしばしば好みの比較であり、人間の教師はAI行動のいくつかのサンプルを比較し、その目的を最も達成したと考えるものを選択する。
報酬学習は通常、すべてのフィードバックは1人の教師から来ると仮定するが、実際には、これらのシステムは複数の教師に十分なトレーニングデータを集めるよう問い合わせることが多い。
論文 参考訳(メタデータ) (2023-03-02T01:26:53Z) - Better Teacher Better Student: Dynamic Prior Knowledge for Knowledge
Distillation [70.92135839545314]
本研究では,教師の持つ特徴の一部を,特徴蒸留前の先行知識として統合した動的事前知識(DPK)を提案する。
DPKは,教員モデルと生徒モデルのパフォーマンスを正に相関させ,より大きな教員を適用することで生徒の精度をさらに高めることができる。
論文 参考訳(メタデータ) (2022-06-13T11:52:13Z) - Unsupervised Domain Adaptive Person Re-Identification via Human Learning
Imitation [67.52229938775294]
近年、研究者は、異なる人物の再識別データセット間のドメインギャップを減らすために、教師学生フレームワークを彼らの手法に活用することを提案している。
近年の教員中心の枠組みに基づく手法に着想を得て,異なる側面から人間の学習過程を模倣するためのさらなる探究を提案する。
論文 参考訳(メタデータ) (2021-11-28T01:14:29Z) - A teacher-student framework for online correctional learning [12.980296933051509]
本研究では,教師の助けを借りて,学生の推定値のばらつきを減らしたことを示す。
オンラインの問題を定式化します - 教師は、観察を変更するかどうかを瞬時に決めなければならないのです。
この枠組みを数値実験で検証し、最適オンラインポリシーとバッチ設定のフレームワークを比較した。
論文 参考訳(メタデータ) (2021-11-15T15:01:00Z) - Iterative Teacher-Aware Learning [136.05341445369265]
人間の教育において、教師と学生はコミュニケーション効率を最大化するために適応的に交流することができる。
本稿では,教師の協調意図を可能性関数に組み込むことができる,勾配最適化に基づく教師認識学習者を提案する。
論文 参考訳(メタデータ) (2021-10-01T00:27:47Z) - Point Adversarial Self Mining: A Simple Method for Facial Expression
Recognition [79.75964372862279]
本稿では,表情認識における認識精度を向上させるために,PASM(Point Adversarial Self Mining)を提案する。
PASMは、目標タスクに関連する最も情報性の高い位置を見つけるために、ポイント敵攻撃法と訓練された教師ネットワークを使用する。
適応学習教材の生成と教師/学生の更新を複数回行うことができ、ネットワーク能力が反復的に向上する。
論文 参考訳(メタデータ) (2020-08-26T06:39:24Z) - Neural Multi-Task Learning for Teacher Question Detection in Online
Classrooms [50.19997675066203]
教師の音声記録から質問を自動的に検出するエンドツーエンドのニューラルネットワークフレームワークを構築している。
マルチタスク学習手法を取り入れることで,質問の種類によって意味的関係の理解を深めることが可能となる。
論文 参考訳(メタデータ) (2020-05-16T02:17:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。