論文の概要: Who Defines "Best"? Towards Interactive, User-Defined Evaluation of LLM Leaderboards
- arxiv url: http://arxiv.org/abs/2604.21769v1
- Date: Thu, 23 Apr 2026 15:28:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.683228
- Title: Who Defines "Best"? Towards Interactive, User-Defined Evaluation of LLM Leaderboards
- Title(参考訳): ベスト」を誰が定義するか - LLMリーダーボードの対話的, ユーザ定義的評価に向けて
- Authors: Minji Jung, Minjae Lee, Yejin Kim, Sarang Choi, Minsuk Kahng,
- Abstract要約: LLMのリーダーボードはモデルの比較やデプロイメントの決定のガイドに広く使われている。
しかし、リーダーボードのランキングは、ベンチマーク設計者が設定した評価の優先順位によって形成されている。
単一の集計スコアは、異なるプロンプトタイプやコンポジションでモデルがどのように振る舞うかを曖昧にすることが多い。
- 参考スコア(独自算出の注目度): 9.132090357588686
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM leaderboards are widely used to compare models and guide deployment decisions. However, leaderboard rankings are shaped by evaluation priorities set by benchmark designers, rather than by the diverse goals and constraints of actual users and organizations. A single aggregate score often obscures how models behave across different prompt types and compositions. In this work, we conduct an in-depth analysis of the dataset used in the LMArena (formerly Chatbot Arena) benchmark and investigate this evaluation challenge by designing an interactive visualization interface as a design probe. Our analysis reveals that the dataset is heavily skewed toward certain topics, that model rankings vary across prompt slices, and that preference-based judgments are used in ways that blur their intended scope. Building on this analysis, we introduce a visualization interface that allows users to define their own evaluation priorities by selecting and weighting prompt slices and to explore how rankings change accordingly. A qualitative study suggests that this interactive approach improves transparency and supports more context-specific model evaluation, pointing toward alternative ways to design and use LLM leaderboards.
- Abstract(参考訳): LLMのリーダーボードはモデルの比較やデプロイメントの決定のガイドに広く使われている。
しかしながら、リーダボードのランキングは、実際のユーザや組織のさまざまな目標や制約ではなく、ベンチマークデザイナが設定した評価の優先順位によって形成されます。
単一の集計スコアは、異なるプロンプトタイプやコンポジションでモデルがどのように振る舞うかを曖昧にすることが多い。
本研究では、LMArena(旧Chatbot Arena)ベンチマークで使用されるデータセットの詳細な分析を行い、インタラクティブな可視化インターフェースを設計プローブとして設計することで、この評価課題について検討する。
分析の結果、データセットは特定のトピックに強く結びついており、モデルランキングはプロンプトスライス毎に異なり、嗜好に基づく判断は意図したスコープを曖昧にする方法で使用されることが明らかとなった。
この分析に基づいて、ユーザがプロンプトスライスを選択して重み付けすることで、ユーザが自身の評価優先順位を定義できる可視化インターフェースを導入し、ランキングがどのように変化するかを探る。
質的研究は、このインタラクティブなアプローチが透明性を改善し、LLMリーダーボードの設計と使用の代替方法を指して、よりコンテキスト固有のモデル評価をサポートすることを示唆している。
関連論文リスト
- Personalized Benchmarking: Evaluating LLMs by Individual Preferences [16.446687355628566]
現在のベンチマークでは、総合評価を計算するために、すべてのユーザーの平均的な嗜好が計算されている。
ユーザーは様々な状況で好みが変わるので、個人のニーズに応じてモデルをランク付けするパーソナライズされたベンチマークを要求します。
ELO評価とBradley-Terry係数を用いて115名のアクティブアリーナユーザを対象にパーソナライズされたモデルランキングを算出する。
論文 参考訳(メタデータ) (2026-04-21T00:40:47Z) - IF-RewardBench: Benchmarking Judge Models for Instruction-Following Evaluation [85.56193980646981]
命令追従のための総合的メタ評価ベンチマークであるIF-RewardBenchを提案する。
各命令に対して、複数の応答間の全てのペアの選好を含む選好グラフを構築する。
IF-RewardBenchの実験は、現在の審査モデルに重大な欠陥を呈している。
論文 参考訳(メタデータ) (2026-03-05T02:21:17Z) - MLLM as a UI Judge: Benchmarking Multimodal LLMs for Predicting Human Perception of User Interfaces [97.62557395494962]
GPT-4o、Claude、Llamaを30のインターフェースでベンチマークするためにクラウドソーシングを使用します。
以上の結果から,MLLMは特定の次元において人間の嗜好を近似するが,他の次元では異なってしまうことが示唆された。
論文 参考訳(メタデータ) (2025-10-09T20:00:41Z) - LOTUS: A Leaderboard for Detailed Image Captioning from Quality to Societal Bias and User Preferences [91.13704541413551]
LOTUSは詳細なキャプションを評価するためのリーダーボードである。
キャプションの品質など、様々な側面を包括的に評価する。
多様なユーザの嗜好に基準を合わせることで、嗜好指向の評価を可能にする。
論文 参考訳(メタデータ) (2025-07-25T15:12:42Z) - SCAN: Structured Capability Assessment and Navigation for LLMs [54.54085382131134]
textbfSCAN (Structured Capability Assessment and Navigation) は、大規模言語モデルの詳細な特徴付けを可能にする実用的なフレームワークである。
SCANには4つの重要なコンポーネントが含まれている。
TaxBuilder – クエリから機能表示タグを抽出して階層的な分類構造を構築する。
RealMixは、各機能タグに対する十分な評価データを保証するクエリ合成とフィルタリングのメカニズムである。
PC$2$ベースのLCM-as-a-Judge法は従来のLCM-as-a-Judge法と比較して大幅に精度が向上する
論文 参考訳(メタデータ) (2025-05-10T16:52:40Z) - When Benchmarks are Targets: Revealing the Sensitivity of Large Language Model Leaderboards [9.751405901938895]
既存のリーダーボードでは,LLMの相対的な性能は細部まで非常に敏感であることが示されている。
一般的なマルチチョイス質問ベンチマーク(MMLUなど)では、選択の順序や解答の選択方法の変更など、ベンチマークに対する小さな摂動が最大8位までランクが変更されることが示されている。
論文 参考訳(メタデータ) (2024-02-01T19:12:25Z) - FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets [69.91340332545094]
FLASKは、人間に基づく評価とモデルに基づく評価の両方のためのきめ細かい評価プロトコルである。
モデル性能の全体像を得るためには,評価の微粒化が重要であることを実験的に観察する。
論文 参考訳(メタデータ) (2023-07-20T14:56:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。