論文の概要: Polyrating: A Cost-Effective and Bias-Aware Rating System for LLM Evaluation
- arxiv url: http://arxiv.org/abs/2409.00696v2
- Date: Mon, 14 Oct 2024 10:01:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 03:46:24.907470
- Title: Polyrating: A Cost-Effective and Bias-Aware Rating System for LLM Evaluation
- Title(参考訳): ポリレーション:LCM評価のための費用効果・バイアス認識評価システム
- Authors: Jasper Dekoninck, Maximilian Baader, Martin Vechev,
- Abstract要約: ポリーティング(Polyrating)は、最大後方推定に基づく表現的かつ柔軟な評価システムである。
人間の嗜好に影響を与えるバイアスを検出し定量化し、より公平なモデル比較を保証する。
人的評価のコストを、新しいモデルで最大41%、新しいタスクで最大77%削減することができる。
- 参考スコア(独自算出の注目度): 5.653106385738822
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Rating-based human evaluation has become an essential tool to accurately evaluate the impressive performance of large language models (LLMs). However, current rating systems suffer from several important limitations: first, they fail to account for biases that significantly influence evaluation results, second, they require large and expensive preference datasets to obtain accurate ratings, and third, they do not facilitate meaningful comparisons of model ratings across different tasks. To address these issues, we introduce Polyrating, an expressive and flexible rating system based on maximum a posteriori estimation that enables a more nuanced and thorough analysis of model performance at lower costs. Polyrating can detect and quantify biases affecting human preferences, ensuring fairer model comparisons. Further, Polyrating can reduce the cost of human evaluations by up to $41\%$ for new models and up to $77\%$ for new tasks by leveraging existing benchmark scores. Lastly, Polyrating enables direct comparisons of ratings across different tasks, providing a comprehensive understanding of an LLMs' strengths, weaknesses, and relative performance across different applications.
- Abstract(参考訳): レーティングに基づく人間評価は,大規模言語モデル(LLM)の印象的な性能を正確に評価するための重要なツールとなっている。
しかし、現在のレーティングシステムにはいくつかの重要な制限がある: 第一に、評価結果に大きな影響を及ぼすバイアスを考慮できないこと、第二に、正確なレーティングを得るために大規模で高価な選好データセットを必要とすること、第三に、異なるタスク間でのモデルレーティングの有意義な比較を促進すること、である。
これらの問題に対処するために, モデル性能のよりきめ細やかな解析を低コストで行えるような, 最大余剰推定に基づく表現的かつ柔軟な評価システムであるPolyratingを導入する。
ポリケーションは人間の嗜好に影響を与えるバイアスを検出し定量化し、より公平なモデル比較を保証する。
さらに、Polyratingは、既存のベンチマークスコアを活用することで、新しいモデルで最大411\%、新しいタスクで最大77\%の人的評価コストを削減できる。
最後に、Polyratingは異なるタスク間でのレーティングの直接比較を可能にし、異なるアプリケーション間でのLLMの強み、弱点、相対的なパフォーマンスの包括的な理解を提供する。
関連論文リスト
- HREF: Human Response-Guided Evaluation of Instruction Following in Language Models [61.273153125847166]
我々は新しい評価ベンチマークHREF(Human Response-Guided Evaluation of Instruction following)を開発した。
HREFは信頼性の高い評価を提供するだけでなく、個々のタスクのパフォーマンスを強調し、汚染を受けない。
本稿では,評価セットのサイズ,判断モデル,ベースラインモデル,プロンプトテンプレートなど,HREFにおける鍵設計選択の影響について検討する。
論文 参考訳(メタデータ) (2024-12-20T03:26:47Z) - Optimizing Alignment with Less: Leveraging Data Augmentation for Personalized Evaluation [2.933641361932625]
オープンなLCMを人間の好みに合わせるために、限られたデータからより効果的なサンプルを選択するためのデータ拡張手法を提案する。
本研究はPearsonの基準値に対する基準値との相関を約7%改善する。
論文 参考訳(メタデータ) (2024-12-10T11:40:11Z) - Auto-Evaluation with Few Labels through Post-hoc Regression [4.813376208491175]
予測パワー推論(PPI)フレームワークは、自動評価の統計的パワーとラベル付きデータの小さなプールを活用する方法を提供する。
本稿では, 頑健な回帰器を用いたPPIに基づく2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-19T17:17:46Z) - Active Evaluation Acquisition for Efficient LLM Benchmarking [18.85604491151409]
学習ポリシを用いて,各ベンチマークからサンプルのサブセットを選択することにより,評価効率を向上させる戦略を検討する。
提案手法は,テスト例間の依存関係をモデル化し,残りの例に対する評価結果の正確な予測を可能にする。
実験の結果,提案手法は必要な評価プロンプトの数を大幅に削減することが示された。
論文 参考訳(メタデータ) (2024-10-08T12:08:46Z) - Aligning Model Evaluations with Human Preferences: Mitigating Token Count Bias in Language Model Assessments [2.1370543868467275]
本稿では,大規模言語モデルと人的評価を協調させる手法について検討する。
我々はこのバイアスを定量化するためにベイズ統計とt検定を用い、GPTScorerを調整するための再校正手順を開発した。
以上の結果から,再校正したLCM評価器と,複数のユースケースにおけるヒト評価との整合性は有意に改善した。
論文 参考訳(メタデータ) (2024-07-05T09:26:40Z) - LLMs instead of Human Judges? A Large Scale Empirical Study across 20 NLP Evaluation Tasks [106.09361690937618]
人間の判断の代わりにLPMを用いてNLPモデルを評価する傾向が高まっている。
JUDGE-BENCHは20個のNLPデータセットのコレクションで、人間のアノテーションで、幅広い評価された特性やデータの種類をカバーしています。
アノテーションを複製できるため、オープンウェイトモデルとプロプライエタリモデルの両方をカバーする11の現在のLCMを評価します。
論文 参考訳(メタデータ) (2024-06-26T14:56:13Z) - F-Eval: Assessing Fundamental Abilities with Refined Evaluation Methods [102.98899881389211]
F-Evalは、表現、常識、論理などの基本能力を評価するためのバイリンガル評価ベンチマークである。
参照不要な主観的タスクに対しては,APIモデルによるスコアの代替として,新たな評価手法を考案する。
論文 参考訳(メタデータ) (2024-01-26T13:55:32Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - Style Over Substance: Evaluation Biases for Large Language Models [17.13064447978519]
本研究では,大規模言語モデル(LLM)とともに,クラウドソースおよびエキスパートアノテータの挙動について検討する。
この結果から, 事実的誤りに対する回答は, 短すぎる, 文法的誤りを含む回答よりも好意的に評価され, 評価過程の偏りが示唆された。
評価面を1つのスコアにマージするのではなく,複数の次元にまたがるマシン生成テキストを独立に評価することを提案する。
論文 参考訳(メタデータ) (2023-07-06T14:42:01Z) - From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。
これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。
我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Off-policy evaluation for learning-to-rank via interpolating the
item-position model and the position-based model [83.83064559894989]
産業レコメンデーションシステムにとって重要なニーズは、製品にデプロイする前に、レコメンデーションポリシーをオフラインで評価する機能である。
我々は、最も人気のある2つの非政治推定器の問題を緩和する新しい推定器を開発する。
特に、InterPOLと呼ばれる新しい推定器は、潜在的に不特定位置ベースモデルのバイアスに対処する。
論文 参考訳(メタデータ) (2022-10-15T17:22:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。