論文の概要: From Rankings to Insights: Evaluation Should Shift Focus from Leaderboard to Feedback
- arxiv url: http://arxiv.org/abs/2505.06698v1
- Date: Sat, 10 May 2025 16:52:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:48.997232
- Title: From Rankings to Insights: Evaluation Should Shift Focus from Leaderboard to Feedback
- Title(参考訳): ランク付けから洞察へ - 評価はリーダボードからフィードバックへとシフトするべきだ
- Authors: Zongqi Wang, Tianle Gu, Chen Gong, Xin Tian, Siqi Bao, Yujiu Yang,
- Abstract要約: 包括的できめ細かい結果を提供する評価フレームワークであるFeedbackerを紹介します。
LLM-as-a-Judge法を提案する。
- 参考スコア(独自算出の注目度): 36.68929551237421
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic evaluation benchmarks such as MT-Bench, Arena-Hard, and Auto-Arena are seeing growing adoption for the evaluation of Large Language Models (LLMs). Existing research has primarily focused on approximating human-based model rankings using limited data and LLM-as-a-Judge. However, the fundamental premise of these studies, which attempts to replicate human rankings, is flawed. Specifically, these benchmarks typically offer only overall scores, limiting their utility to leaderboard rankings, rather than providing feedback that can guide model optimization and support model profiling. Therefore, we advocate for an evaluation paradigm shift from approximating human-based model rankings to providing feedback with analytical value. To this end, we introduce Feedbacker, an evaluation framework that provides comprehensive and fine-grained results, thereby enabling thorough identification of a model's specific strengths and weaknesses. Such feedback not only supports the targeted optimization of the model but also enhances the understanding of its behavior. Feedbacker comprises three key components: an extensible tree-based query taxonomy builder, an automated query synthesis scheme, and a suite of visualization and analysis tools. Furthermore, we propose a novel LLM-as-a-Judge method: PC2 (Pre-Comparison-derived Criteria) pointwise evaluation. This method derives evaluation criteria by pre-comparing the differences between several auxiliary responses, achieving the accuracy of pairwise evaluation while maintaining the time complexity of pointwise evaluation. Finally, leveraging the evaluation results of 17 mainstream LLMs, we demonstrate the usage of Feedbacker and highlight its effectiveness and potential. Our homepage project is available at https://liudan193.github.io/Feedbacker.
- Abstract(参考訳): MT-Bench、Arena-Hard、Auto-Arenaなどの自動評価ベンチマークでは、LLM(Large Language Models)の評価に採用が増えている。
既存の研究は主に、限られたデータとLCM-as-a-Judgeを用いた人間モデルランキングの近似に重点を置いている。
しかし、人間のランキングを再現しようとするこれらの研究の基本的な前提には欠陥がある。
具体的には、これらのベンチマークは、モデル最適化とモデルプロファイリングをサポートするためのフィードバックを提供するのではなく、全体のスコアのみを提供し、その効用をリーダーボードランキングに制限する。
そこで我々は,人間のモデルランキングの近似から分析値によるフィードバックへのパラダイムシフトを提唱する。
この目的のために、我々は、包括的できめ細かな結果を提供する評価フレームワークであるFeedbackerを導入し、モデル固有の長所と短所の徹底的な識別を可能にする。
このようなフィードバックは、対象とするモデルの最適化をサポートするだけでなく、その振る舞いの理解も強化する。
Feedbackerには、拡張可能なツリーベースのクエリ分類ビルダー、自動クエリ合成スキーム、視覚化と分析ツールの3つの重要なコンポーネントが含まれている。
さらに,PC2 (Pre-Comparison- derived Criteria) のポイントワイズ評価を行う新しいLCM-as-a-Judge法を提案する。
本手法は,複数の補助応答の差分を事前比較して評価基準を導出し,ポイントワイズ評価の時間的複雑さを維持しつつ,ペアワイズ評価の精度を達成する。
最後に, メインストリームLLM17の評価結果を活用することで, フィードバックの活用を実証し, その有効性と可能性を明らかにする。
私たちのホームページプロジェクトはhttps://liudan193.github.io/Feedbacker.comで公開されています。
関連論文リスト
- Where is this coming from? Making groundedness count in the evaluation of Document VQA models [12.951716701565019]
一般的な評価指標は、モデルの出力のセマンティックおよびマルチモーダルな基礎性を考慮しない。
本稿では,予測の基盤性を考慮した新しい評価手法を提案する。
提案手法は,ユーザが好みに応じてスコアを設定できるようにパラメータ化されている。
論文 参考訳(メタデータ) (2025-03-24T20:14:46Z) - SedarEval: Automated Evaluation using Self-Adaptive Rubrics [4.97150240417381]
本稿では,自己適応型ルーブリックに基づく新しい評価パラダイムを提案する。
SedarEvalは、細心の注意を払って1,000の質問から成り、それぞれが独自の自己適応型ルーリックを持っている。
我々は、人間の学級に取って代わるために、特殊評価器言語モデル(評価器LM)を訓練する。
論文 参考訳(メタデータ) (2025-01-26T16:45:09Z) - HREF: Human Response-Guided Evaluation of Instruction Following in Language Models [61.273153125847166]
我々は新しい評価ベンチマークHREF(Human Response-Guided Evaluation of Instruction following)を開発した。
HREFは信頼性の高い評価を提供するだけでなく、個々のタスクのパフォーマンスを強調し、汚染を受けない。
本稿では,評価セットのサイズ,判断モデル,ベースラインモデル,プロンプトテンプレートなど,HREFにおける鍵設計選択の影響について検討する。
論文 参考訳(メタデータ) (2024-12-20T03:26:47Z) - CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution [74.41064280094064]
textbfJudger-1は、最初のオープンソースのtextbfall-in-one judge LLMである。
CompassJudger-1は、優れた汎用性を示す汎用LLMである。
textbfJudgerBenchは、様々な主観評価タスクを含む新しいベンチマークである。
論文 参考訳(メタデータ) (2024-10-21T17:56:51Z) - Aligning Model Evaluations with Human Preferences: Mitigating Token Count Bias in Language Model Assessments [2.1370543868467275]
本稿では,大規模言語モデルと人的評価を協調させる手法について検討する。
我々はこのバイアスを定量化するためにベイズ統計とt検定を用い、GPTScorerを調整するための再校正手順を開発した。
以上の結果から,再校正したLCM評価器と,複数のユースケースにおけるヒト評価との整合性は有意に改善した。
論文 参考訳(メタデータ) (2024-07-05T09:26:40Z) - FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets [69.91340332545094]
FLASKは、人間に基づく評価とモデルに基づく評価の両方のためのきめ細かい評価プロトコルである。
モデル性能の全体像を得るためには,評価の微粒化が重要であることを実験的に観察する。
論文 参考訳(メタデータ) (2023-07-20T14:56:35Z) - Gradient-Boosted Decision Tree for Listwise Context Model in Multimodal
Review Helpfulness Prediction [40.09991896766369]
マルチモーダルレビュー ヘルプフルネス予測は、予測された有用度スコアに基づいて製品レビューをランク付けすることを目的としている。
本稿ではMRHPランキングの文脈を明確に把握するリストワイズアテンションネットワークを提案する。
また,製品レビューの表現を効果的に分割するスコア予測木として,勾配ブースト決定木を提案する。
論文 参考訳(メタデータ) (2023-05-22T03:31:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。