論文の概要: How Reliable Is Human Feedback For Aligning Large Language Models?
- arxiv url: http://arxiv.org/abs/2410.01957v1
- Date: Wed, 2 Oct 2024 19:03:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 09:44:41.954031
- Title: How Reliable Is Human Feedback For Aligning Large Language Models?
- Title(参考訳): 大規模言語モデルにヒトのフィードバックはどの程度信頼性が高いか?
- Authors: Min-Hsuan Yeh, Leitian Tao, Jeffrey Wang, Xuefeng Du, Yixuan Li,
- Abstract要約: 我々は総合的な研究を行い、人間のフィードバックデータの詳細な分析を行う。
誤ラベル,主観的嗜好,異なる基準と無害性のしきい値など,信頼性の低い6つの要因を同定する。
本稿では,データ品質を著しく向上させるために,定性解析の洞察に導かれる自動データクリーニング手法である Source-Aware Cleaning を提案する。
- 参考スコア(独自算出の注目度): 24.66495636695214
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most alignment research today focuses on designing new learning algorithms using datasets like Anthropic-HH, assuming human feedback data is inherently reliable. However, little attention has been given to the qualitative unreliability of human feedback and its impact on alignment. To address this gap, we conduct a comprehensive study and provide an in-depth analysis of human feedback data. We assess feedback reliability using a committee of gold reward models, revealing that over 25% of the dataset shows low or no agreement with these models, implying a high degree of unreliability. Through a qualitative analysis, we identify six key sources of unreliability, such as mis-labeling, subjective preferences, differing criteria and thresholds for helpfulness and harmlessness, etc. Lastly, to mitigate unreliability, we propose Source-Aware Cleaning, an automatic data-cleaning method guided by the insight of our qualitative analysis, to significantly improve data quality. Extensive experiments demonstrate that models trained on our cleaned dataset, HH-Clean, substantially outperform those trained on the original dataset. We release HH-Clean to support more reliable LLM alignment evaluation in the future.
- Abstract(参考訳): 現在、ほとんどのアライメント研究は、人間のフィードバックデータが本質的に信頼できると仮定して、Anthropic-HHのようなデータセットを使用した新しい学習アルゴリズムの設計に焦点を当てている。
しかし、人間のフィードバックの質的な不安定さとアライメントへの影響にはほとんど注意が払われていない。
このギャップに対処するため、我々は包括的な研究を行い、人間のフィードバックデータの詳細な分析を行う。
金の報酬モデル委員会を用いてフィードバックの信頼性を評価し、データセットの25%以上がこれらのモデルと低いか全く一致していないことを示し、高い信頼性の信頼性を示唆している。
質的分析により, ミスラベル, 主観的嗜好, 相違する基準と無害性のしきい値など, 信頼性の低い6つの要因を同定する。
最後に,信頼性を損なうため,定性解析の洞察に導かれる自動データクリーニング手法である Source-Aware Cleaning を提案し,データ品質を著しく向上させる。
大規模な実験では、クリーン化されたデータセットでトレーニングされたモデルであるHH-Cleanが、元のデータセットでトレーニングされたモデルよりも大幅に優れています。
我々は将来、より信頼性の高いLCMアライメント評価をサポートするためにHH-Cleanをリリースする。
関連論文リスト
- Quality Matters: Evaluating Synthetic Data for Tool-Using LLMs [11.24476329991465]
外部ツール使用のための大規模言語モデル(LLM)のトレーニングは、急速に拡大する分野である。
体系的なデータ品質チェックの欠如は、モデルを適切にトレーニングし、テストするための複雑さを引き起こす。
外部ツールを用いたLCMのトレーニングにおいて,データの信頼性を評価するための2つの手法を提案する。
論文 参考訳(メタデータ) (2024-09-24T17:20:02Z) - Towards Faithful and Robust LLM Specialists for Evidence-Based Question-Answering [10.624293689624151]
我々は、ソースの品質向上と属性応答性向上のために、LLM(Large Language Models)を頑健に微調整する方法について検討する。
具体的には、自動データ品質フィルタを備えたデータ生成パイプラインを導入し、多様な高品質なトレーニングおよびテストデータを大規模に合成する。
総合評価の結果, 合成データの微調整により, 内分布と外分布の両方の性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-02-13T08:12:48Z) - Improving Machine Translation with Human Feedback: An Exploration of Quality Estimation as a Reward Model [75.66013048128302]
本研究では,QEモデルを報酬モデルとして活用し,フィードバックトレーニングにおける人間の嗜好を予測する可能性について検討する。
まず,QEに基づくフィードバックトレーニングにおいて,翻訳品質が低下する中で,報酬の増大として現れる過度な最適化問題を同定した。
問題に対処するために,ルールを用いて誤った翻訳を検知し,報酬のスコアにペナルティ項を割り当てる,シンプルで効果的な手法を採用する。
論文 参考訳(メタデータ) (2024-01-23T16:07:43Z) - CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。
CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - TRIAGE: Characterizing and auditing training data for improved
regression [80.11415390605215]
TRIAGEは回帰タスクに適した新しいデータキャラクタリゼーションフレームワークで、広範囲の回帰器と互換性がある。
TRIAGEは、共形予測分布を利用して、モデルに依存しないスコアリング方法、TRIAGEスコアを提供する。
TRIAGEの特徴は一貫性があり、複数の回帰設定においてデータの彫刻/フィルタリングによるパフォーマンス向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-10-29T10:31:59Z) - Constructive Large Language Models Alignment with Diverse Feedback [76.9578950893839]
本稿では,大規模言語モデルのアライメント向上のための新しい手法として,コンストラクティブ・ディバース・フィードバック(CDF)を導入する。
我々は,簡単な問題に対する批判的フィードバック,中級問題に対する改善的フィードバック,難題に対する選好的フィードバックを利用する。
このような多様なフィードバックでモデルをトレーニングすることで、トレーニングデータの少ない使用でアライメント性能を向上させることができる。
論文 参考訳(メタデータ) (2023-10-10T09:20:14Z) - Calibrating LLM-Based Evaluator [92.17397504834825]
マルチステージで勾配のないアプローチであるAutoCalibrateを提案し,LLMに基づく評価器を人間の好みに合わせて調整・調整する。
人間の嗜好を明示的にモデル化する代わりに、まず暗黙的に人間のラベルに含めます。
複数のテキスト品質評価データセットに関する実験は、校正による専門家評価との相関性を大幅に改善したことを示す。
論文 参考訳(メタデータ) (2023-09-23T08:46:11Z) - RLBoost: Boosting Supervised Models using Deep Reinforcement Learning [0.0]
RLBoostは、深層強化学習戦略を用いて、特定のデータセットを評価し、新しいデータの品質を推定できるモデルを得るアルゴリズムである。
論文の結果から, このモデルでは, LOO, DataShapley, DVRLなどの最先端アルゴリズムよりも, より優れた, より安定した結果が得られることが示された。
論文 参考訳(メタデータ) (2023-05-23T14:38:33Z) - Exploring the Efficacy of Automatically Generated Counterfactuals for
Sentiment Analysis [17.811597734603144]
本稿では,データ拡張と説明のためのデファクトデータの自動生成手法を提案する。
いくつかの異なるデータセットに対する包括的な評価と、さまざまな最先端ベンチマークの使用により、我々のアプローチがモデルパフォーマンスを大幅に改善できることを示す。
論文 参考訳(メタデータ) (2021-06-29T10:27:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。