論文の概要: Human Feedback is not Gold Standard
- arxiv url: http://arxiv.org/abs/2309.16349v1
- Date: Thu, 28 Sep 2023 11:18:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-29 15:00:25.342862
- Title: Human Feedback is not Gold Standard
- Title(参考訳): 人間のフィードバックはゴールドスタンダードではない
- Authors: Tom Hosking, Phil Blunsom, Max Bartolo
- Abstract要約: 我々は、トレーニングと評価の両方において、人間のフィードバックの使用を批判的に分析する。
選好スコアはかなり良いカバレッジを持っているが、事実性のような重要な側面は低く表現されている。
- 参考スコア(独自算出の注目度): 28.63384327791185
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human feedback has become the de facto standard for evaluating the
performance of Large Language Models, and is increasingly being used as a
training objective. However, it is not clear which properties of a generated
output this single `preference' score captures. We hypothesise that preference
scores are subjective and open to undesirable biases. We critically analyse the
use of human feedback for both training and evaluation, to verify whether it
fully captures a range of crucial error criteria. We find that while preference
scores have fairly good coverage, they under-represent important aspects like
factuality. We further hypothesise that both preference scores and error
annotation may be affected by confounders, and leverage instruction-tuned
models to generate outputs that vary along two possible confounding dimensions:
assertiveness and complexity. We find that the assertiveness of an output skews
the perceived rate of factuality errors, indicating that human annotations are
not a fully reliable evaluation metric or training objective. Finally, we offer
preliminary evidence that using human feedback as a training objective
disproportionately increases the assertiveness of model outputs. We encourage
future work to carefully consider whether preference scores are well aligned
with the desired objective.
- Abstract(参考訳): 人間のフィードバックは、大きな言語モデルのパフォーマンスを評価するためのデファクトスタンダードとなり、トレーニングの目的としてますます使われています。
しかし、生成された出力のどの特性が、この単一の'preference'スコアをキャプチャするかは、はっきりしない。
選好スコアは主観的であり、望ましくない偏見に対して開放的であると仮定する。
我々は、トレーニングと評価の両方に人的フィードバックを使うことを批判的に分析し、それが重要なエラー基準の範囲を完全に捉えているかどうかを検証する。
選好スコアはかなり良いカバレッジを持っているが、事実性のような重要な側面は低く表現されている。
さらに、選好スコアとエラーアノテーションの両方が、共同創設者の影響を受け得ると仮定し、命令調整モデルを利用して、2つの可能な相反する次元に沿って変化する出力を生成する。
出力のアサーション性は事実性エラーの認識率を歪め、人間のアノテーションが完全に信頼性のある評価基準や訓練目標ではないことを示す。
最後に,人間のフィードバックをトレーニング対象として用いることで,モデル出力の主張性が不釣り合いに向上することを示す。
選好スコアが望ましい目的と適切に一致しているかどうかを慎重に検討するよう、今後の取り組みを奨励する。
関連論文リスト
- Semi-supervised Learning For Robust Speech Evaluation [30.593420641501968]
音声評価は、自動モデルを用いて学習者の口頭習熟度を測定する。
本稿では,半教師付き事前学習と客観的正規化を活用することで,このような課題に対処することを提案する。
アンカーモデルは、発音の正しさを予測するために擬似ラベルを用いて訓練される。
論文 参考訳(メタデータ) (2024-09-23T02:11:24Z) - Fighting Sampling Bias: A Framework for Training and Evaluating Credit Scoring Models [2.918530881730374]
本稿では,サンプリングバイアスがモデルトレーニングおよび評価に与える影響について考察する。
スコアカード評価のためのバイアス認識型自己学習と拒絶推論フレームワークを提案する。
その結果,ベイズ評価を用いて受入率を決定する場合,利益率が約8%向上することが示唆された。
論文 参考訳(メタデータ) (2024-07-17T20:59:54Z) - Improving Machine Translation with Human Feedback: An Exploration of Quality Estimation as a Reward Model [75.66013048128302]
本研究では,QEモデルを報酬モデルとして活用し,フィードバックトレーニングにおける人間の嗜好を予測する可能性について検討する。
まず,QEに基づくフィードバックトレーニングにおいて,翻訳品質が低下する中で,報酬の増大として現れる過度な最適化問題を同定した。
問題に対処するために,ルールを用いて誤った翻訳を検知し,報酬のスコアにペナルティ項を割り当てる,シンプルで効果的な手法を採用する。
論文 参考訳(メタデータ) (2024-01-23T16:07:43Z) - Loose lips sink ships: Mitigating Length Bias in Reinforcement Learning
from Human Feedback [55.78118035358662]
人間のフィードバックからの強化学習は、大きな言語モデルと人間と社会的価値を整合させる重要な橋として機能する。
報酬モデルが意図した目的を回避できるショートカットを見つけることがよくあります。
本稿では、報酬モデリングとシーケンス長の影響を分離するために、Product-of-Experts技術を適用した革新的なソリューションを提案する。
論文 参考訳(メタデータ) (2023-10-08T15:14:39Z) - Peering Through Preferences: Unraveling Feedback Acquisition for
Aligning Large Language Models [32.843361525236965]
スパースフィードバックが大規模言語モデルのアライメントと評価に与える影響を解析する。
評価やランク付けの好みは、人間とAIのアノテータの双方で60%と大きく異なっています。
本研究は,言語モデルの現実的有用性を評価する手法において,重要なギャップを浮き彫りにした。
論文 参考訳(メタデータ) (2023-08-30T07:35:32Z) - Gender Biases in Automatic Evaluation Metrics for Image Captioning [87.15170977240643]
画像キャプションタスクのためのモデルに基づく評価指標において、性別バイアスの体系的研究を行う。
偏りのある世代と偏りのない世代を区別できないことを含む、これらの偏りのあるメトリクスを使用することによる負の結果を実証する。
人間の判断と相関を損なうことなく、測定バイアスを緩和する簡便で効果的な方法を提案する。
論文 参考訳(メタデータ) (2023-05-24T04:27:40Z) - Training Language Models with Language Feedback at Scale [50.70091340506957]
我々は、より情報的な言語フィードバックを利用する新しいアプローチであるLanguage Feedback (ILF)から学習を導入する。
ILFは3つのステップから成り、まず言語モデルを入力に条件付けし、最初のLM出力を出力し、改善を生成する。
理論的には、ILFは人間からのフィードバックによる強化学習と同様、ベイズ推論とみなすことができる。
論文 参考訳(メタデータ) (2023-03-28T17:04:15Z) - Models of human preference for learning reward functions [80.39289349661364]
そこで我々は,一対の軌跡区間間の人為的嗜好から報酬関数を学習する。
この仮定に欠陥があることに気付き、各セグメントの後悔が示すように、人間の嗜好をモデル化することを提案する。
提案した後悔の選好モデルは、実際の人間の選好をより良く予測し、また、これらの選好から報酬関数を学習し、より人道的な政策へと導く。
論文 参考訳(メタデータ) (2022-06-05T17:58:02Z) - Debiased Explainable Pairwise Ranking from Implicit Feedback [0.3867363075280543]
BPR(Bayesian Personalized Ranking)に焦点をあてる。
BPRはアウトプットを説明しないブラックボックスモデルであり、ユーザのレコメンデーションに対する信頼を制限する。
本稿では,項目に基づく説明とともにレコメンデーションを生成する新しい説明可能な損失関数と,それに対応する行列分解モデルを提案する。
論文 参考訳(メタデータ) (2021-07-30T17:19:37Z) - Dialogue Response Ranking Training with Large-Scale Human Feedback Data [52.12342165926226]
ソーシャルメディアのフィードバックデータを利用して、フィードバック予測のための大規模なトレーニングデータセットを構築します。
我々は,1300万対の人間のフィードバックデータに基づくGPT-2モデルであるDialogRPTを訓練した。
我々のランキングは、Redditのフィードバックを予測する上で、従来のダイアログの難易度ベースラインよりも優れています。
論文 参考訳(メタデータ) (2020-09-15T10:50:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。