論文の概要: How NOT to benchmark your SITE metric: Beyond Static Leaderboards and Towards Realistic Evaluation
- arxiv url: http://arxiv.org/abs/2510.06448v1
- Date: Tue, 07 Oct 2025 20:38:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.195305
- Title: How NOT to benchmark your SITE metric: Beyond Static Leaderboards and Towards Realistic Evaluation
- Title(参考訳): SITEメトリックをベンチマークする方法 - 静的なリーダボードを越えて,現実的な評価を目指す
- Authors: Prabhant Singh, Sibylle Hess, Joaquin Vanschoren,
- Abstract要約: 伝達可能性推定メトリクスは、与えられた目標タスクに対して高い性能の事前訓練されたモデルを見つけるために使用される。
このようなメトリクスの開発に対する関心が高まっているにもかかわらず、彼らの進捗を測るベンチマークは、ほとんど検討されていない。
これらの指標が評価されるベンチマークには、根本的な欠陥がある、と我々は主張する。
- 参考スコア(独自算出の注目度): 11.33816414982401
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transferability estimation metrics are used to find a high-performing pre-trained model for a given target task without fine-tuning models and without access to the source dataset. Despite the growing interest in developing such metrics, the benchmarks used to measure their progress have gone largely unexamined. In this work, we empirically show the shortcomings of widely used benchmark setups to evaluate transferability estimation metrics. We argue that the benchmarks on which these metrics are evaluated are fundamentally flawed. We empirically demonstrate that their unrealistic model spaces and static performance hierarchies artificially inflate the perceived performance of existing metrics, to the point where simple, dataset-agnostic heuristics can outperform sophisticated methods. Our analysis reveals a critical disconnect between current evaluation protocols and the complexities of real-world model selection. To address this, we provide concrete recommendations for constructing more robust and realistic benchmarks to guide future research in a more meaningful direction.
- Abstract(参考訳): 転送可能性推定メトリクスは、特定の目標タスクに対して、微調整されたモデルやソースデータセットにアクセスせずに、高いパフォーマンスの事前訓練されたモデルを見つけるために使用される。
このようなメトリクスの開発に対する関心が高まっているにもかかわらず、彼らの進捗を測るベンチマークは、ほとんど検討されていない。
本研究では,移動可能性推定指標を評価するために広く用いられているベンチマーク設定の欠点を実証的に示す。
これらの指標が評価されるベンチマークには、根本的な欠陥がある、と我々は主張する。
これらの非現実的なモデル空間と静的なパフォーマンス階層は、既存のメトリクスの認識されたパフォーマンスを人工的に向上させ、単純なデータセットに依存しないヒューリスティックが洗練された手法より優れていることを実証的に示す。
本分析により,現在の評価プロトコルと実世界のモデル選択の複雑さの間に重要な不一致が明らかとなった。
これを解決するために、我々はより堅牢で現実的なベンチマークを構築するための具体的な勧告を提供し、将来の研究をより意味のある方向に導く。
関連論文リスト
- Reranking-based Generation for Unbiased Perspective Summarization [10.71668103641552]
我々は,人間のアノテーションを用いて,計量信頼性をベンチマークするテストセットを開発した。
従来の指標は言語モデルに基づく指標に比べて性能が低いことが示され、強力な評価指標であることが証明された。
本研究の目的は,視点要約手法の信頼性評価と開発に寄与することである。
論文 参考訳(メタデータ) (2025-06-19T00:01:43Z) - Position: All Current Generative Fidelity and Diversity Metrics are Flawed [58.815519650465774]
現在のジェネレーティブの忠実度と多様性の指標がすべて欠陥があることを示します。
私たちの目標は、モデルではなく、メトリクスの開発により多くの労力を費やすように研究コミュニティを説得することにあります。
論文 参考訳(メタデータ) (2025-05-28T15:10:33Z) - Beyond the Numbers: Transparency in Relation Extraction Benchmark Creation and Leaderboards [5.632231145349045]
本稿では,NLPにおけるベンチマーク作成の透明性と,NLPの進捗測定におけるリーダボードの利用について検討する。
既存の関係抽出ベンチマークは、ドキュメントが不十分で重要な詳細が欠如していることが多い。
議論の中心はREベンチマークとリーダボードの透明性ですが、議論する観察は他のNLPタスクにも広く適用できます。
論文 参考訳(メタデータ) (2024-11-07T22:36:19Z) - Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。
メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文 参考訳(メタデータ) (2024-07-22T17:52:12Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - A critical analysis of metrics used for measuring progress in artificial
intelligence [9.387811897655016]
我々は、3867の機械学習モデルのパフォーマンス結果をカバーするデータに基づいて、現在のパフォーマンス指標の状況を分析する。
結果から、現在使用されているメトリクスの大部分は、モデルの性能の不十分なリフレクションをもたらす可能性のある特性を持っていることが示唆される。
報告された指標の曖昧さを記述し、モデル性能の解釈と比較が困難になる可能性がある。
論文 参考訳(メタデータ) (2020-08-06T11:14:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。