論文の概要: am-ELO: A Stable Framework for Arena-based LLM Evaluation
- arxiv url: http://arxiv.org/abs/2505.03475v2
- Date: Thu, 29 May 2025 08:23:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 20:45:56.88098
- Title: am-ELO: A Stable Framework for Arena-based LLM Evaluation
- Title(参考訳): am-ELO: ArenaベースのLCM評価のための安定的なフレームワーク
- Authors: Zirui Liu, Jiatong Li, Yan Zhuang, Qi Liu, Shuanghong Shen, Jie Ouyang, Mingyue Cheng, Shijin Wang,
- Abstract要約: ELO評価システムに基づく既存のフレームワークは、ランキングの不整合とアノテータの様々な能力に対する注意の欠如により、避けられない不安定な問題に悩まされている。
ELOレーティングシステムを強化することで,これらの問題に対処するための新しい安定アリーナフレームワークを導入する。
- 参考スコア(独自算出の注目度): 28.54576582498528
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Arena-based evaluation is a fundamental yet significant evaluation paradigm for modern AI models, especially large language models (LLMs). Existing framework based on ELO rating system suffers from the inevitable instability problem due to ranking inconsistency and the lack of attention to the varying abilities of annotators. In this paper, we introduce a novel stable arena framework to address these issues by enhancing the ELO Rating System. Specifically, we replace the iterative update method with a Maximum Likelihood Estimation (MLE) approach, m-ELO, and provide theoretical proof of the consistency and stability of the MLE approach for model ranking. Additionally, we proposed the am-ELO, which modify the Elo Rating's probability function to incorporate annotator abilities, enabling the simultaneous estimation of model scores and annotator reliability. Experiments demonstrate that this method ensures stability, proving that this framework offers a more robust, accurate, and stable evaluation method for LLMs.
- Abstract(参考訳): アリーナに基づく評価は、現代AIモデル、特に大規模言語モデル(LLM)の基本的かつ重要な評価パラダイムである。
ELO評価システムに基づく既存のフレームワークは、ランキングの不整合とアノテータの様々な能力に対する注意の欠如により、避けられない不安定な問題に悩まされている。
本稿では,ELOレーティングシステムの拡張により,これらの問題に対処する新しい安定アリーナフレームワークを提案する。
具体的には、反復的更新法を、モデルランク付けのためのMLEアプローチであるm-ELOに置き換え、MLEアプローチの一貫性と安定性の理論的証明を提供する。
さらに,モデルスコアとアノテータ信頼性の同時推定を可能にし,エロレーティングの確率関数をアノテータ能力に組み込むためのam-ELOを提案する。
実験により、この手法は安定性を保証し、より堅牢で正確で安定したLCM評価法を提供することを示した。
関連論文リスト
- LLMEval-3: A Large-Scale Longitudinal Study on Robust and Fair Evaluation of Large Language Models [51.55869466207234]
静的ベンチマークにおけるLLM(Large Language Models)の既存の評価は、データの汚染やリーダーボードのオーバーフィッティングに弱い。
LLMの動的評価のためのフレームワークであるLLMEval-3を紹介する。
LLEval-3は、220kの卒業生レベルの質問からなるプロプライエタリなバンク上に構築されており、評価実行毎に未確認のテストセットを動的にサンプリングする。
論文 参考訳(メタデータ) (2025-08-07T14:46:30Z) - Beyond Single-Point Judgment: Distribution Alignment for LLM-as-a-Judge [24.862965044243168]
従来の手法は、人間の評価において固有の多様性と不確実性を見越して、単一点評価に依存していた。
本研究では,LLM生成した判定分布と経験的人的分布とを明確に整合させる新しいトレーニングフレームワークを提案する。
我々のフレームワークは、既存のオープンソースLCMや従来の単一点アライメント手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2025-05-18T08:33:09Z) - Revisiting Model Inversion Evaluation: From Misleading Standards to Reliable Privacy Assessment [63.07424521895492]
モデル反転(MI)攻撃は、機械学習モデルTへのアクセスを利用して、プライベートトレーニングデータから情報を再構築することを目的としている。
このような攻撃に対する標準的な評価フレームワークは、Tと同じタスク設計で訓練された評価モデルEに依存している。
このフレームワークはMI研究の進歩を評価するためのデファクトスタンダードとなり、近年のMI攻撃や防衛のほとんどすべてで問題なく使用されている。
論文 参考訳(メタデータ) (2025-05-06T13:32:12Z) - Revisiting LLM Evaluation through Mechanism Interpretability: a New Metric and Model Utility Law [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。
本稿では,従来の性能指標を補完する機構解釈可能性技術を導入し,モデル利用指標(MUI)を提案する。
論文 参考訳(メタデータ) (2025-04-10T04:09:47Z) - Re-evaluating Open-ended Evaluation of Large Language Models [50.23008729038318]
現在のEloベースのレーティングシステムは、データ、意図的、あるいは偶発的なバイアスの影響を受けやすく、さらに強化できることを示している。
本稿では,3人プレイヤゲームとしての評価を提案し,冗長性に対するロバスト性を確保するために,ゲーム理論の新たな概念を導入する。
論文 参考訳(メタデータ) (2025-02-27T15:07:47Z) - An Empirical Analysis of Uncertainty in Large Language Model Evaluations [28.297464655099034]
我々は2つの異なる評価条件で9つのLLM評価器を用いた実験を行った。
LLM評価器はモデルファミリやサイズによって様々な不確実性を示す。
推論やポストトレーニングのときでも、特別なプロンプト戦略を採用することで、評価の不確実性をある程度軽減できることがわかった。
論文 参考訳(メタデータ) (2025-02-15T07:45:20Z) - Self-Evolving Critique Abilities in Large Language Models [59.861013614500024]
本稿では,Large Language Models (LLM) の批判能力の向上について検討する。
SCRITは、LCMを自己生成データで訓練し、批判能力を進化させるフレームワークである。
分析の結果,SCRITの性能はデータやモデルサイズと正の相関関係にあることが明らかとなった。
論文 参考訳(メタデータ) (2025-01-10T05:51:52Z) - Reward-Robust RLHF in LLMs [25.31456438114974]
大規模言語モデル(LLM)は、より高度なインテリジェンスへと進化を続けている。
報酬モデルに基づく(RMに基づく)アライメント手法への依存は、大きな課題をもたらす。
本稿では,これらの課題に対処することを目的とした報酬損耗型RLHFフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-18T02:35:41Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - FreeEval: A Modular Framework for Trustworthy and Efficient Evaluation of Large Language Models [36.273451767886726]
FreeEvalは、大規模言語モデルの信頼性と効率的な自動評価を可能にするために設計された、モジュール化されたスケーラブルなフレームワークである。
FreeEvalの統一された抽象化は、統合を単純化し、多様な評価方法論の透明性を改善します。
このフレームワークは、人間の評価やデータ汚染検出などのメタ評価技術を統合し、動的評価モジュールとともに、評価結果の公平性を高める。
論文 参考訳(メタデータ) (2024-04-09T04:17:51Z) - MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z) - Elo Uncovered: Robustness and Best Practices in Language Model
Evaluation [9.452326973655447]
評価手法が従うべき2つの公理:信頼性と推移性について検討する。
これらの公理は、LLMの現在の比較評価の信頼性について、常に疑問を呈しているわけではない。
論文 参考訳(メタデータ) (2023-11-29T00:45:23Z) - Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling [69.83976050879318]
大規模言語モデル(LLM)では、不確実性の原因を特定することが、信頼性、信頼性、解釈可能性を改善するための重要なステップである。
本稿では,LLMのための不確実性分解フレームワークについて述べる。
提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。
論文 参考訳(メタデータ) (2023-11-15T05:58:35Z) - Efficient Empowerment Estimation for Unsupervised Stabilization [75.32013242448151]
エンパワーメント原理は 直立位置での 力学系の教師なし安定化を可能にする
本稿では,ガウスチャネルとして動的システムのトレーニング可能な表現に基づく代替解を提案する。
提案手法は, サンプルの複雑さが低く, 訓練時より安定であり, エンパワーメント機能の本質的特性を有し, 画像からエンパワーメントを推定できることを示す。
論文 参考訳(メタデータ) (2020-07-14T21:10:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。