論文の概要: Active Reward Learning from Multiple Teachers
- arxiv url: http://arxiv.org/abs/2303.00894v1
- Date: Thu, 2 Mar 2023 01:26:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-03 16:26:44.930762
- Title: Active Reward Learning from Multiple Teachers
- Title(参考訳): 複数の教師によるアクティブ報酬学習
- Authors: Peter Barnett, Rachel Freedman, Justin Svegliato, Stuart Russell
- Abstract要約: 逆学習アルゴリズムは人間のフィードバックを利用して報酬関数を推論し、AIシステムのトレーニングに使用される。
この人間のフィードバックはしばしば好みの比較であり、人間の教師はAI行動のいくつかのサンプルを比較し、その目的を最も達成したと考えるものを選択する。
報酬学習は通常、すべてのフィードバックは1人の教師から来ると仮定するが、実際には、これらのシステムは複数の教師に十分なトレーニングデータを集めるよう問い合わせることが多い。
- 参考スコア(独自算出の注目度): 17.10187575303075
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reward learning algorithms utilize human feedback to infer a reward function,
which is then used to train an AI system. This human feedback is often a
preference comparison, in which the human teacher compares several samples of
AI behavior and chooses which they believe best accomplishes the objective.
While reward learning typically assumes that all feedback comes from a single
teacher, in practice these systems often query multiple teachers to gather
sufficient training data. In this paper, we investigate this disparity, and
find that algorithmic evaluation of these different sources of feedback
facilitates more accurate and efficient reward learning. We formally analyze
the value of information (VOI) when reward learning from teachers with varying
levels of rationality, and define and evaluate an algorithm that utilizes this
VOI to actively select teachers to query for feedback. Surprisingly, we find
that it is often more informative to query comparatively irrational teachers.
By formalizing this problem and deriving an analytical solution, we hope to
facilitate improvement in reward learning approaches to aligning AI behavior
with human values.
- Abstract(参考訳): 逆学習アルゴリズムは人間のフィードバックを利用して報酬関数を推論し、AIシステムのトレーニングに使用される。
この人間のフィードバックはしばしば好みの比較であり、人間の教師はAI行動のいくつかのサンプルを比較し、その目的を最も達成したと考えるものを選択する。
報酬学習は通常、すべてのフィードバックは1人の教師から来ると仮定するが、実際には、これらのシステムは複数の教師に十分なトレーニングデータを集めるよう問い合わせることが多い。
本稿では,これらの異なるフィードバック源のアルゴリズムによる評価が,より正確かつ効率的な報酬学習を促進することを示す。
我々は,理性レベルが異なる教師から報奨を受けた場合の情報の価値を正式に分析し,このVOIを利用して教師にフィードバックを求めるアルゴリズムを定義し,評価する。
驚くことに、比較的不合理な教師に問い合わせることは、より有益であることが多い。
この問題を形式化し、分析的ソリューションを導出することにより、AIの振る舞いと人間の価値を整合させる報酬学習アプローチの改善を促進したいと考えています。
関連論文リスト
- Dual Active Learning for Reinforcement Learning from Human Feedback [13.732678966515781]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデルと人間の好みを合わせるために広く応用されている。
人間のフィードバックは高価で時間を要するため、人間の教師がラベルを付けるための高品質な会話データを集めることが不可欠である。
本稿では、オフライン強化学習(RL)を用いてアライメント問題を定式化する。
論文 参考訳(メタデータ) (2024-10-03T14:09:58Z) - CANDERE-COACH: Reinforcement Learning from Noisy Feedback [12.232688822099325]
CANDERE-COACHアルゴリズムは、非最適教師によるノイズフィードバックから学習することができる。
本稿では,教師のフィードバックの最大40%が誤りであった場合,RLエージェントが学習を成功させるためのノイズフィルタリング機構を提案する。
論文 参考訳(メタデータ) (2024-09-23T20:14:12Z) - Improving the Validity of Automatically Generated Feedback via
Reinforcement Learning [50.067342343957876]
強化学習(RL)を用いた正当性と整合性の両方を最適化するフィードバック生成フレームワークを提案する。
具体的には、直接選好最適化(DPO)によるトレーニングのための拡張データセットにおいて、GPT-4のアノテーションを使用してフィードバックペアよりも好みを生成する。
論文 参考訳(メタデータ) (2024-03-02T20:25:50Z) - YODA: Teacher-Student Progressive Learning for Language Models [82.0172215948963]
本稿では,教師が指導するプログレッシブ・ラーニング・フレームワークであるYodaを紹介する。
モデルファインチューニングの有効性を向上させるために,教師の教育過程をエミュレートする。
実験の結果, YODAのデータによるLLaMA2のトレーニングにより, SFTは大幅に向上した。
論文 参考訳(メタデータ) (2024-01-28T14:32:15Z) - Active teacher selection for reinforcement learning from human feedback [14.009227941725783]
人間のフィードバックからの強化学習(RLHF)により、機械学習システムは人間のフィードバックから目的を学ぶことができる。
教師の合理性、専門性、コストの相違をモデル化するHidden Utility Banditフレームワークを提案する。
我々は、さまざまなソリューションアルゴリズムを開発し、それらを紙レコメンデーションシステムと新型コロナウイルスワクチンテストという2つの現実世界の領域に適用する。
論文 参考訳(メタデータ) (2023-10-23T18:54:43Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - Iterative Teacher-Aware Learning [136.05341445369265]
人間の教育において、教師と学生はコミュニケーション効率を最大化するために適応的に交流することができる。
本稿では,教師の協調意図を可能性関数に組み込むことができる,勾配最適化に基づく教師認識学習者を提案する。
論文 参考訳(メタデータ) (2021-10-01T00:27:47Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Learning Online from Corrective Feedback: A Meta-Algorithm for Robotics [24.863665993509997]
模倣学習(il)における鍵となる課題は、最適な状態行動のデモンストレーションは教師が提供するのが難しいことである。
状態行動のデモンストレーションの代替として、教師は好みや報酬などの修正的なフィードバックを提供することができる。
このアプローチは、さまざまなノイズフィードバックから素早く学習できることを示します。
論文 参考訳(メタデータ) (2021-04-02T12:42:12Z) - Using Machine Teaching to Investigate Human Assumptions when Teaching
Reinforcement Learners [26.006964607579004]
本稿では,一般的な強化学習手法,Q-ラーニングに着目し,行動実験を用いた仮定について検討する。
本研究では,学習者の環境をシミュレートし,学習者の内的状態にフィードバックがどう影響するかを予測する深層学習近似手法を提案する。
この結果から,評価フィードバックを用いた学習の仕方や,直感的に機械エージェントを設計する方法についてのガイダンスが得られた。
論文 参考訳(メタデータ) (2020-09-05T06:32:38Z) - Explainable Active Learning (XAL): An Empirical Study of How Local
Explanations Impact Annotator Experience [76.9910678786031]
本稿では、最近急増している説明可能なAI(XAI)のテクニックをアクティブラーニング環境に導入することにより、説明可能なアクティブラーニング(XAL)の新たなパラダイムを提案する。
本研究は,機械教育のインタフェースとしてのAI説明の利点として,信頼度校正を支援し,リッチな形式の教示フィードバックを可能にすること,モデル判断と認知作業負荷による潜在的な欠点を克服する効果を示す。
論文 参考訳(メタデータ) (2020-01-24T22:52:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。