論文の概要: Let Me At Least Learn What You Really Like: Dealing With Noisy Humans
When Learning Preferences
- arxiv url: http://arxiv.org/abs/2002.06288v1
- Date: Sat, 15 Feb 2020 00:36:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-31 23:00:55.727675
- Title: Let Me At Least Learn What You Really Like: Dealing With Noisy Humans
When Learning Preferences
- Title(参考訳): 自分が本当に好きなものを学ぶ: 好みを学習するときに、騒々しい人間に対処する
- Authors: Sriram Gopalakrishnan, Utkarsh Soni
- Abstract要約: 本稿では,予測出力値を用いて選好の学習を高速化する不確実性サンプリングの修正を提案する。
提案手法を不確実サンプリングベースラインと比較し,提案手法の各コンポーネントの有効性を検証するためのアブレーション試験を行った。
- 参考スコア(独自算出の注目度): 0.76146285961466
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning the preferences of a human improves the quality of the interaction
with the human. The number of queries available to learn preferences maybe
limited especially when interacting with a human, and so active learning is a
must. One approach to active learning is to use uncertainty sampling to decide
the informativeness of a query. In this paper, we propose a modification to
uncertainty sampling which uses the expected output value to help speed up
learning of preferences. We compare our approach with the uncertainty sampling
baseline, as well as conduct an ablation study to test the validity of each
component of our approach.
- Abstract(参考訳): 人間の好みを学習することで、人間との相互作用の質が向上する。
好みを学習できるクエリの数は、特に人間と対話する場合に限られているため、アクティブな学習が必須である。
アクティブラーニングの1つのアプローチは、不確実性サンプリングを使用してクエリの情報性を決定することである。
本稿では,予測出力値を用いて選好の学習を高速化する不確実性サンプリングの修正を提案する。
本手法を不確実性サンプリングベースラインと比較し,各成分の有効性を検証するためにアブレーション試験を行った。
関連論文リスト
- Learning Linear Utility Functions From Pairwise Comparison Queries [35.01228510505625]
線形効用関数のペア比較クエリによる学習可能性について検討する。
受動的学習環境では、線形ユーティリティは第一の目的に対して効率的に学習可能であることを示す。
この場合、第2の目的であっても効率よく学習できることを示し、ノイズフリーおよびノイズの多いクエリ応答設定のためのアルゴリズムを提示する。
論文 参考訳(メタデータ) (2024-05-04T08:43:45Z) - Provable Benefits of Policy Learning from Human Preferences in
Contextual Bandit Problems [82.92678837778358]
嗜好に基づく手法は、InstructGPTのような経験的応用でかなりの成功を収めている。
フィードバックモデリングにおける人間のバイアスと不確実性がこれらのアプローチの理論的保証にどのように影響するかを示す。
論文 参考訳(メタデータ) (2023-07-24T17:50:24Z) - Boosting Feedback Efficiency of Interactive Reinforcement Learning by
Adaptive Learning from Scores [11.702616722462139]
本稿では,対話型強化学習のフィードバック効率を向上させるために,対の選好の代わりに人間が提供するスコアを利用する新しい手法を提案する。
提案手法は,相互選好学習法と比較して,フィードバックを少なくしながら,スコアから適応学習することで,最適に近いポリシーを効率的に学習できることを示す。
論文 参考訳(メタデータ) (2023-07-11T16:12:15Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - Responsible Active Learning via Human-in-the-loop Peer Study [88.01358655203441]
我々は,データプライバシを同時に保持し,モデルの安定性を向上させるために,Pear Study Learning (PSL) と呼ばれる責任あるアクティブラーニング手法を提案する。
まず,クラウドサイドのタスク学習者(教師)から未学習データを分離する。
トレーニング中、タスク学習者は軽量なアクティブ学習者に指示し、アクティブサンプリング基準に対するフィードバックを提供する。
論文 参考訳(メタデータ) (2022-11-24T13:18:27Z) - Active Learning of Ordinal Embeddings: A User Study on Football Data [4.856635699699126]
人間は本来、未知の類似性関数を使用してラベル付けされていないデータセットのインスタンス間の距離を計測する。
この研究はディープ・メトリック・ラーニングを使用して、大規模なフットボールの軌跡データセットのアノテーションからユーザ定義の類似性関数を学習する。
論文 参考訳(メタデータ) (2022-07-26T07:55:23Z) - Mind Your Outliers! Investigating the Negative Impact of Outliers on
Active Learning for Visual Question Answering [71.15403434929915]
視覚的質問応答のタスクにおいて、5つのモデルと4つのデータセットにまたがって、多種多様な能動的学習アプローチがランダム選択を上回りません。
アクティブな学習手法が好まれるが、モデルは学習に失敗する例の集まりである。
本研究では,アクティブ学習プールにおける集団外乱の減少に伴い,アクティブ学習サンプル効率が著しく向上することを示す。
論文 参考訳(メタデータ) (2021-07-06T00:52:11Z) - Targeted Active Learning for Bayesian Decision-Making [15.491942513739676]
サンプルを逐次取得する際には,学習と意思決定を分離することが準最適である。
本稿では,ダウン・ザ・ライン決定問題を考慮に入れた,新たなアクティブな学習戦略を提案する。
具体的には、最適決定の後続分布における期待情報ゲインを最大化する、新しい能動的学習基準を導入する。
論文 参考訳(メタデータ) (2021-06-08T09:05:43Z) - Can Active Learning Preemptively Mitigate Fairness Issues? [66.84854430781097]
データセットバイアスは、機械学習における不公平な原因の1つです。
不確実性に基づくALで訓練されたモデルが保護クラスの決定において公平であるかどうかを検討する。
また,勾配反転(GRAD)やBALDなどのアルゴリズム的公正性手法の相互作用についても検討する。
論文 参考訳(メタデータ) (2021-04-14T14:20:22Z) - Low-Regret Active learning [64.36270166907788]
トレーニングに最も有用なラベル付きデータポイントを識別するオンライン学習アルゴリズムを開発した。
私たちの仕事の中心は、予測可能な(簡単な)インスタンスの低い後悔を達成するために調整された睡眠専門家のための効率的なアルゴリズムです。
論文 参考訳(メタデータ) (2021-04-06T22:53:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。