論文の概要: Which Prompts Make The Difference? Data Prioritization For Efficient
Human LLM Evaluation
- arxiv url: http://arxiv.org/abs/2310.14424v1
- Date: Sun, 22 Oct 2023 21:48:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 23:50:32.660379
- Title: Which Prompts Make The Difference? Data Prioritization For Efficient
Human LLM Evaluation
- Title(参考訳): どのプロンプトが違うのか?
効率的な人間llm評価のためのデータ優先化
- Authors: Meriem Boubdir, Edward Kim, Beyza Ermis, Marzieh Fadaee, Sara Hooker
- Abstract要約: 計量に基づく手法は,必要なアノテーションの数を最小化することで,人間の評価の効率を向上させる。
提案手法は,広く用いられているモデルファミリに対して有効であり,非決定的(あるいは"tie")な結果のインスタンスを最大54%削減できることを示す。
この人的努力の潜在的な削減は、我々のアプローチを将来の大規模言語モデル評価における貴重な戦略として位置づけている。
- 参考スコア(独自算出の注目度): 9.452326973655445
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human evaluation is increasingly critical for assessing large language
models, capturing linguistic nuances, and reflecting user preferences more
accurately than traditional automated metrics. However, the resource-intensive
nature of this type of annotation process poses significant challenges. The key
question driving our work: "is it feasible to minimize human-in-the-loop
feedback by prioritizing data instances which most effectively distinguish
between models?" We evaluate several metric-based methods and find that these
metrics enhance the efficiency of human evaluations by minimizing the number of
required annotations, thus saving time and cost, while ensuring a robust
performance evaluation. We show that our method is effective across widely used
model families, reducing instances of indecisive (or "tie") outcomes by up to
54% compared to a random sample when focusing on the top-20 percentile of
prioritized instances. This potential reduction in required human effort
positions our approach as a valuable strategy in future large language model
evaluations.
- Abstract(参考訳): 人間の評価は、大きな言語モデルの評価、言語的なニュアンスの取得、ユーザの好みの反映にますます重要になっている。
しかし、この種のアノテーションプロセスのリソース集約性は、大きな課題を引き起こします。
モデルを最も効果的に区別するデータインスタンスの優先順位付けによって、ループ内のフィードバックを最小限にすることは可能か?
提案手法は,要求されるアノテーションの数を最小限に抑え,時間とコストを節約し,頑健な性能評価を確実にすることで,人的評価の効率を高めるものである。
提案手法は広く用いられているモデルファミリに対して有効であり,優先度の高いインスタンスの上位20%に着目した場合のランダムサンプルと比較して,不決定性(tie)結果のインスタンスを最大54%削減する。
この人的努力の潜在的な削減は、我々のアプローチを将来の大規模言語モデル評価における貴重な戦略として位置づけている。
関連論文リスト
- Towards Unifying Evaluation of Counterfactual Explanations: Leveraging Large Language Models for Human-Centric Assessments [0.7852714805965528]
206人の回答者から8つの評価指標にまたがって、30のカウンターファクトのシナリオを作成し、評価を収集する。
これらの指標で平均的または個人的判断を予測するために、さまざまな大規模言語モデルを微調整しました。
論文 参考訳(メタデータ) (2024-10-28T15:33:37Z) - Aligning Model Evaluations with Human Preferences: Mitigating Token Count Bias in Language Model Assessments [2.1370543868467275]
本稿では,大規模言語モデルと人的評価を協調させる手法について検討する。
我々はこのバイアスを定量化するためにベイズ統計とt検定を用い、GPTScorerを調整するための再校正手順を開発した。
以上の結果から,再校正したLCM評価器と,複数のユースケースにおけるヒト評価との整合性は有意に改善した。
論文 参考訳(メタデータ) (2024-07-05T09:26:40Z) - HARE: HumAn pRiors, a key to small language model Efficiency [6.253561984966316]
人間の先駆者は、ディープラーニングでデータを効率的に活用する上で重要な役割を担います。
既存のSmall Language Modelは、主にWebスクラッドな大規模トレーニングデータに依存している。
我々は、データ構築に人類の優先事項を活用する原則を提案する。
論文 参考訳(メタデータ) (2024-06-17T10:56:03Z) - Annotator-Centric Active Learning for Subjective NLP Tasks [7.766754308448708]
アクティブラーニング(AL)は、最も有益なサンプルを戦略的に注釈付けすることで、人間のアノテーションを収集するコストに対処する。
本稿では,データサンプリングに続き,アノテーション選択戦略を取り入れたACAL(Annotator-Centric Active Learning)を提案する。
本研究の目的は,人間の判断の多様性を効率的に近似し,アノテータ中心の指標を用いてモデル性能を評価することである。
論文 参考訳(メタデータ) (2024-04-24T08:13:02Z) - Persona-DB: Efficient Large Language Model Personalization for Response Prediction with Collaborative Data Refinement [79.2400720115588]
本稿では,タスクコンテキスト間の一般化を改善するための階層的な構築プロセスからなる,シンプルで効果的なフレームワークであるPersona-DBを紹介する。
応答予測の評価において,Persona-DB は精度を著しく低減した検索サイズで維持する上で,より優れたコンテキスト効率を示す。
我々の実験は、ユーザーが極めて少ないデータを持つ場合、コールドスタートシナリオで10%以上の顕著な改善が示されていることも示している。
論文 参考訳(メタデータ) (2024-02-16T20:20:43Z) - MaxMin-RLHF: Towards Equitable Alignment of Large Language Models with
Diverse Human Preferences [101.57443597426374]
Reinforcement Learning from Human Feedback (RLHF) は、言語モデルと人間の嗜好を一致させる。
予測最大化アルゴリズムを用いて嗜好分布の混合を学習し、人間の嗜好をよりよく表現する。
従来のRLHFアルゴリズムよりも16%以上の勝利率向上を実現している。
論文 参考訳(メタデータ) (2024-02-14T03:56:27Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Calibrating LLM-Based Evaluator [92.17397504834825]
マルチステージで勾配のないアプローチであるAutoCalibrateを提案し,LLMに基づく評価器を人間の好みに合わせて調整・調整する。
人間の嗜好を明示的にモデル化する代わりに、まず暗黙的に人間のラベルに含めます。
複数のテキスト品質評価データセットに関する実験は、校正による専門家評価との相関性を大幅に改善したことを示す。
論文 参考訳(メタデータ) (2023-09-23T08:46:11Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - Dynamic Human Evaluation for Relative Model Comparisons [8.843915018287476]
本研究では,相対的な比較設定で生成した出力を評価する際に,人間のアノテーションの必要個数を動的に測定する手法を提案する。
シミュレーションとクラウドソーシングのケーススタディにおいて,より優れたモデルを決定するための複数のラベル付け戦略と手法を評価するために,人間評価のエージェントベースフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-15T11:32:13Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。