論文の概要: Compare without Despair: Reliable Preference Evaluation with Generation Separability
- arxiv url: http://arxiv.org/abs/2407.01878v2
- Date: Mon, 8 Jul 2024 20:50:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-10 22:42:25.651621
- Title: Compare without Despair: Reliable Preference Evaluation with Generation Separability
- Title(参考訳): 絶望を伴わない比較:世代分離性を考慮した信頼性の高い選好評価
- Authors: Sayan Ghosh, Tejas Srinivasan, Swabha Swayamdipta,
- Abstract要約: テストインスタンスがペアの選好評価にどの程度適しているかを推定する尺度であるセパビリティ(Separability)を導入する。
候補テストインスタンスでは、セパビリティは1組のモデルから複数の世代をサンプリングし、2つの世代がどの程度区別可能であるかを測定する。
実験により、分離性が高いインスタンスは、人間と自動レーダの両方からより一貫した選好格付けが得られることが示された。
- 参考スコア(独自算出の注目度): 20.50638483427141
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human evaluation of generated language through pairwise preference judgments is pervasive. However, under common scenarios, such as when generations from a model pair are very similar, or when stochastic decoding results in large variations in generations, it results in inconsistent preference ratings. We address these challenges by introducing a meta-evaluation measure, separability, which estimates how suitable a test instance is for pairwise preference evaluation. For a candidate test instance, separability samples multiple generations from a pair of models, and measures how distinguishable the two sets of generations are. Our experiments show that instances with high separability values yield more consistent preference ratings from both human- and auto-raters. Further, the distribution of separability allows insights into which test benchmarks are more valuable for comparing models. Finally, we incorporate separability into ELO ratings, accounting for how suitable each test instance might be for reliably ranking LLMs. Overall, separability has implications for consistent, efficient and robust preference evaluation of LLMs with both human- and auto-raters.
- Abstract(参考訳): 一対の選好判断による生成言語の人間による評価は広範に行われている。
しかし、モデルペアから世代が非常に近い場合や、確率的復号化が世代の大きなバリエーションをもたらす場合など、一般的なシナリオでは、一貫性のない選好格付けが生じる。
テストインスタンスがペアの選好評価にどの程度適しているかを推定するメタ評価尺度であるセパビリティを導入することで、これらの課題に対処する。
候補テストインスタンスでは、セパビリティは1組のモデルから複数の世代をサンプリングし、2つの世代がどの程度区別可能であるかを測定する。
実験の結果,高い分離性値を持つインスタンスは,人間と自動レーダの両方からより一貫した選好格付けが得られることがわかった。
さらに、分離可能性の分布は、モデルを比較する上でどのテストベンチマークがより価値があるかについての洞察を可能にする。
最後に、各テストインスタンスがLLMを確実にランク付けするのにどの程度適しているかを考慮し、分離性をELO評価に組み込む。
全体として、分離性は、人間とオートレーダの両方によるLCMの一貫性、効率的、堅牢な選好評価に影響を及ぼす。
関連論文リスト
- PRePair: Pointwise Reasoning Enhance Pairwise Evaluating for Robust Instruction-Following Assessments [32.54783419675456]
我々は、望ましくない好みに対して、ポイントワイズ評価がより堅牢性を示すことを示した。
本稿では,一対評価にポイントワイド推論を統合するハイブリッド手法を提案する。
論文 参考訳(メタデータ) (2024-06-18T06:43:04Z) - Efficient LLM Comparative Assessment: a Product of Experts Framework for Pairwise Comparisons [10.94304714004328]
本稿では,効率的な比較評価のためのPoE(Product of Expert)フレームワークを紹介する。
個人比較は、ペアのスコア差に関する情報を提供する専門家と見なされる。
PoEフレームワークは、これらの専門家からの情報を組み合わせて、基礎となる候補セットに関して最大化できる表現を生成する。
論文 参考訳(メタデータ) (2024-05-09T16:45:27Z) - Examining the robustness of LLM evaluation to the distributional assumptions of benchmarks [2.1899189033259305]
調査コミュニティは、しばしばモデルの性能を評価するために、ベンチマークの試験プロンプト全体にわたるモデルの平均パフォーマンスに依存します。
これは、ベンチマーク内のテストプロンプトが実世界の関心の分布からランダムなサンプルを表すという仮定と一致している。
その結果,(1)テストプロンプト間のモデル性能の相関は非ランダムであり,(2)テストプロンプト間の相関を考慮すれば,主要なベンチマーク上でモデルランキングを変更でき,(3)セマンティックな類似性や共通LLM障害点を含む説明的要因が得られた。
論文 参考訳(メタデータ) (2024-04-25T18:35:54Z) - FairPair: A Robust Evaluation of Biases in Language Models through Paired Perturbations [33.24762796282484]
常用時に発生する差分処理を評価するための評価フレームワークであるFairPairについて述べる。
従来の手法と異なり,本手法は,サンプリングのばらつきを計測することによって,生成プロセス自体から生じる固有変数に影響を及ぼす。
論文 参考訳(メタデータ) (2024-04-09T21:09:22Z) - Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators [48.54465599914978]
大規模言語モデル(LLM)は、生成された自然言語の品質を評価する上で有望な能力を示している。
LLMは依然として評価のバイアスを示しており、人間の評価と整合したコヒーレントな評価を生成するのに苦労することが多い。
Pairwise-preference Search (PairS)は、LLMを用いてペア比較を行い、候補テキストを効率よくランク付けする不確実性誘導探索手法である。
論文 参考訳(メタデータ) (2024-03-25T17:11:28Z) - A structured regression approach for evaluating model performance across intersectional subgroups [53.91682617836498]
分散評価(disaggregated evaluation)は、AIフェアネスアセスメントにおける中心的なタスクであり、AIシステムのさまざまなサブグループ間でのパフォーマンスを測定することを目的としている。
非常に小さなサブグループであっても,信頼性の高いシステム性能推定値が得られることを示す。
論文 参考訳(メタデータ) (2024-01-26T14:21:45Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - GREAT Score: Global Robustness Evaluation of Adversarial Perturbation
using Generative Models [74.43215520371506]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。
我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。
GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文 参考訳(メタデータ) (2023-04-19T14:58:27Z) - A Statistical Analysis of Summarization Evaluation Metrics using
Resampling Methods [60.04142561088524]
信頼区間は比較的広く,信頼性の高い自動測定値の信頼性に高い不確実性を示す。
多くのメトリクスはROUGEよりも統計的改善を示していないが、QAEvalとBERTScoreという2つの最近の研究は、いくつかの評価設定で行われている。
論文 参考訳(メタデータ) (2021-03-31T18:28:14Z) - Two-Sample Testing on Ranked Preference Data and the Role of Modeling
Assumptions [57.77347280992548]
本稿では,ペアワイズ比較データとランキングデータのための2サンプル試験を設計する。
私たちのテストでは、基本的に分布に関する仮定は必要ありません。
実世界のペアワイズ比較データに2サンプルテストを適用することで、人によって提供される評価とランキングは、実際は異なる分散である、と結論付ける。
論文 参考訳(メタデータ) (2020-06-21T20:51:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。