論文の概要: Dropping Just a Handful of Preferences Can Change Top Large Language Model Rankings
- arxiv url: http://arxiv.org/abs/2508.11847v1
- Date: Sat, 16 Aug 2025 00:01:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.408607
- Title: Dropping Just a Handful of Preferences Can Change Top Large Language Model Rankings
- Title(参考訳): トップクラスの言語モデルランキングを変更できるのは、控えめな選好だけ
- Authors: Jenny Y. Huang, Yunyi Shen, Dennis Wei, Tamara Broderick,
- Abstract要約: そこで我々はBradley-Terryランキングシステムのロバスト性を評価する手法を提案する。
トップパフォーマンスモデルのBradley-Terryランキングは,少数の評価の除去に非常に敏感であることがわかった。
- 参考スコア(独自算出の注目度): 23.175479370988413
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a method for evaluating the robustness of a widely used LLM ranking system -- the Bradley--Terry ranking system -- to dropping a worst-case very small fraction of evaluation data. Our approach is computationally fast and easy to adopt. When we apply our method to matchups from two popular human-preference platforms, Chatbot Arena and MT-Bench, we find that the Bradley--Terry rankings of top-performing models are remarkably sensitive to the removal of a small fraction of evaluations. Our framework also identifies the specific evaluations most responsible for such ranking flips, allowing for inspections of these influential preferences. We observe that the rankings derived from MT-Bench preferences are notably more robust than those from Chatbot Arena, likely due to MT-bench's use of expert annotators and carefully constructed prompts. Finally, we find that rankings based on crowdsourced human-evaluated systems are just as sensitive as those based on LLM-as-a-judge evaluations, where in both, dropping as little as 0.02% of the total evaluations in the dataset can change the top-ranked model.
- Abstract(参考訳): そこで本研究では,広く利用されているLDMランキングシステムであるBradley-Terryランキングシステムのロバスト性を評価する手法を提案する。
私たちのアプローチは計算が速く、採用も容易です。
この手法をChatbot Arena と MT-Bench の2つの人気人選プラットフォームからのマッチングに適用すると,トップパフォーマンスモデルにおけるBradley-Terry ランキングは,少数の評価の除去に極めて敏感であることが判明した。
また、このようなランキングフリップに最も責任がある特定の評価を識別し、これらの影響のある選好の検査を可能にする。
MT-Bench の選好から導かれるランクは Chatbot Arena よりも顕著に堅牢である。
最後に、クラウドソーシングされた人間評価システムに基づくランキングは、LLM-as-a-judge評価に基づくランキングと同等に敏感であることがわかった。
関連論文リスト
- From Rankings to Insights: Evaluation Should Shift Focus from Leaderboard to Feedback [36.68929551237421]
包括的できめ細かい結果を提供する評価フレームワークであるbftextFeedbackerを紹介します。
プロジェクトのホームページとデータセットはhttps://liudan193.io/Feedbacker.comで公開されています。
論文 参考訳(メタデータ) (2025-05-10T16:52:40Z) - CHARM: Calibrating Reward Models With Chatbot Arena Scores [31.599659350165354]
リワードモデル(RM)は、人間の好みのプロキシとして機能し、大きな言語モデルを調整することで、人間のフィードバックからの強化学習において重要な役割を果たす。
我々は、RMにおけるモデル優先バイアスを特定し、特定のポリシーモデルからの応答に不均等に高いスコアを体系的に割り当てる。
この問題に対処するために,アリーナリーダーボードからのエロスコアを利用したCHARM(Chaatbot Arena Reward Modeling)というキャリブレーション手法を提案する。
論文 参考訳(メタデータ) (2025-04-14T09:51:09Z) - Re-evaluating Open-ended Evaluation of Large Language Models [50.23008729038318]
現在のEloベースのレーティングシステムは、データ、意図的、あるいは偶発的なバイアスの影響を受けやすく、さらに強化できることを示している。
本稿では,3人プレイヤゲームとしての評価を提案し,冗長性に対するロバスト性を確保するために,ゲーム理論の新たな概念を導入する。
論文 参考訳(メタデータ) (2025-02-27T15:07:47Z) - Can Large Language Models Understand Preferences in Personalized Recommendation? [32.2250928311146]
PerRecBenchを導入し、ユーザ評価バイアスとアイテムの品質から評価を分解する。
評価予測に長けているLCMベースのレコメンデーション手法では,ユーザの評価バイアスや項目品質を排除した場合,ユーザの好ましくない項目や好ましくない項目を識別できないことがわかった。
その結果、ポイントワイドランキングよりもペアワイズとリストワイズランキングの方が優れていること、PerRecBenchの従来の回帰指標との相関が低いこと、ユーザプロファイルの重要性、事前学習データ分布の役割が明らかになった。
論文 参考訳(メタデータ) (2025-01-23T05:24:18Z) - WildBench: Benchmarking LLMs with Challenging Tasks from Real Users in the Wild [57.272096543738336]
WildBenchは、大規模言語モデル(LLM)のベンチマーク用に設計された自動評価フレームワークである。
WildBenchは、100万以上の人間チャットボットの会話ログから慎重に選択された1,024のタスクで構成されている。
We have developed two metrics, WB-Reward and WB-Score which are computeable using Advanced LLMs。
論文 参考訳(メタデータ) (2024-06-07T09:15:44Z) - MixEval: Deriving Wisdom of the Crowd from LLM Benchmark Mixtures [57.886592207948844]
市販のベンチマークを戦略的に混合することにより,効率的な金標準評価を実現するための新しいパラダイムであるMixEvalを提案する。
提案手法は,(1)包括的でよく分散された実世界のユーザクエリと(2)Webから抽出したクエリと,既存のベンチマークからの類似したクエリとをマッチングすることによって,効率よく,かつ,かなり改善された基盤トラスベースのベンチマークを橋渡しする。
論文 参考訳(メタデータ) (2024-06-03T05:47:05Z) - When Benchmarks are Targets: Revealing the Sensitivity of Large Language Model Leaderboards [9.751405901938895]
既存のリーダーボードでは,LLMの相対的な性能は細部まで非常に敏感であることが示されている。
一般的なマルチチョイス質問ベンチマーク(MMLUなど)では、選択の順序や解答の選択方法の変更など、ベンチマークに対する小さな摂動が最大8位までランクが変更されることが示されている。
論文 参考訳(メタデータ) (2024-02-01T19:12:25Z) - Large Language Models are not Fair Evaluators [60.27164804083752]
候補回答の品質ランキングは,文脈の出現順序を変えることで容易にハックできることがわかった。
この操作により、評価結果をスキューし、一方のモデルを他方よりもかなり優れているようにすることができる。
この問題を緩和するための3つのシンプルかつ効果的な戦略を持つフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T07:41:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。