論文の概要: Model Consistency as a Cheap yet Predictive Proxy for LLM Elo Scores
- arxiv url: http://arxiv.org/abs/2509.23510v1
- Date: Sat, 27 Sep 2025 22:00:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.267782
- Title: Model Consistency as a Cheap yet Predictive Proxy for LLM Elo Scores
- Title(参考訳): LLMエロスコアのチープかつ予測的プロキシとしてのモデル一貫性
- Authors: Ashwin Ramaswamy, Nestor Demeure, Ermal Rrapaj,
- Abstract要約: 新しい大規模言語モデル(LLM)が毎日リリースされている。パラメータ数を考えると、予想よりもはるかにパフォーマンスが良いものや悪いものもある。
モデルを評価するための現在の最良の方法は、一連のコンテストで他のモデルと比較することで、Eloのスコアを測定することです。
LLMがこのような競技の判定を依頼されたとき、マッチアップにおいて最高のモデルとしてモデルを選択する一貫性は、自作のエロスコアと91%の相関を持つ計量を生成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: New large language models (LLMs) are being released every day. Some perform significantly better or worse than expected given their parameter count. Therefore, there is a need for a method to independently evaluate models. The current best way to evaluate a model is to measure its Elo score by comparing it to other models in a series of contests - an expensive operation since humans are ideally required to compare LLM outputs. We observe that when an LLM is asked to judge such contests, the consistency with which it selects a model as the best in a matchup produces a metric that is 91% correlated with its own human-produced Elo score. This provides a simple proxy for Elo scores that can be computed cheaply, without any human data or prior knowledge.
- Abstract(参考訳): 新しい大規模言語モデル(LLM)が毎日リリースされている。
パラメータ数を考えると、予想よりもはるかに良い、あるいは悪いパフォーマンスを示すものもあります。
したがって、モデルを独立して評価する手法が必要である。
現在のモデルを評価する最善の方法は、一連のコンテストで他のモデルと比較することで、Eloのスコアを測定することです。
LLMがこのような競技の判定を依頼されたとき、マッチアップのベストモデルとしてモデルを選択する一貫性は、自作のエロスコアと91%の相関を持つ計量を生成する。
これは、人間のデータや事前の知識を使わずに安価に計算できる、Eloスコアのシンプルなプロキシを提供する。
関連論文リスト
- Arena-Lite: Efficient and Reliable Large Language Model Evaluation via Tournament-Based Direct Comparisons [0.29687381456164]
本稿では,頭対頭比較に基づいてトーナメント構造を統合するアリーナ・ライトを提案する。
トーナメント構造と直接比較の適用により、ベースライン出力が不要になる。
試行は、アリーナ・ライトがより少ない比較で常に高い信頼性を達成することを示した。
論文 参考訳(メタデータ) (2024-11-02T15:23:28Z) - How to Evaluate Reward Models for RLHF [51.31240621943791]
我々は、RLHF(Reinforcement Learning from Human Feedback)を通して強力な言語モデルを生成する能力を定量化する報酬モデルのための新しいベンチマークを導入する。
我々は,プロキシタスクの報酬モデルを評価することにより,下流LLM性能の予測モデルを構築した。
大規模クラウドソースによる人選好プラットフォーム上でのエンドツーエンドのRLHF実験をローンチした。
論文 参考訳(メタデータ) (2024-10-18T21:38:21Z) - Self-Taught Evaluators [77.92610887220594]
本稿では,人工的なトレーニングデータのみを用いて,人間のアノテーションを使わずに即興で証明することを目的としたアプローチを提案する。
我々の自己学習評価器は、RewardBench上で75.4から88.3までの強いLDMを改善することができる。
論文 参考訳(メタデータ) (2024-08-05T17:57:02Z) - Replacing Judges with Juries: Evaluating LLM Generations with a Panel of Diverse Models [56.02275285521847]
LLm評価器のパネル(PoLL)を用いた評価モデルを提案する。
より多数の小さなモデルで構成されたPoLLは,1つの大判定器より優れ,不整合モデルファミリーの構成によるモデル内バイアスが小さく,しかも7倍以上のコストがかかる。
論文 参考訳(メタデータ) (2024-04-29T15:33:23Z) - Elo Uncovered: Robustness and Best Practices in Language Model
Evaluation [9.452326973655447]
評価手法が従うべき2つの公理:信頼性と推移性について検討する。
これらの公理は、LLMの現在の比較評価の信頼性について、常に疑問を呈しているわけではない。
論文 参考訳(メタデータ) (2023-11-29T00:45:23Z) - PRD: Peer Rank and Discussion Improve Large Language Model based Evaluations [10.709365940160685]
現代の大規模言語モデル(LLM)は、自動評価と比較が難しい。
本稿では,全ての解答対に対するLLMのペアワイズ選好を考慮に入れたピアランク(PR)アルゴリズムを提案する。
我々のアプローチは高い精度を実現し、人間の判断とよく一致していることがわかりました。
論文 参考訳(メタデータ) (2023-07-06T04:05:44Z) - Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。
LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文 参考訳(メタデータ) (2023-01-31T18:46:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。