論文の概要: Absolute Evaluation Measures for Machine Learning: A Survey
- arxiv url: http://arxiv.org/abs/2507.03392v1
- Date: Fri, 04 Jul 2025 08:53:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.714812
- Title: Absolute Evaluation Measures for Machine Learning: A Survey
- Title(参考訳): 機械学習のための絶対的評価尺度:調査
- Authors: Silvia Beddar-Wiesing, Alice Moallemy-Oureh, Marie Kempkes, Josephine M. Thomas,
- Abstract要約: この調査は、機械学習における絶対評価指標の概要を提供する。
学習のタイプによって構成され、クラスタリング、回帰、ランキングのメトリクスをカバーする。
モデルの適切なメトリクスを選択するために必要なツールを実践者に提供することを目的としている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine Learning is a diverse field applied across various domains such as computer science, social sciences, medicine, chemistry, and finance. This diversity results in varied evaluation approaches, making it difficult to compare models effectively. Absolute evaluation measures offer a practical solution by assessing a model's performance on a fixed scale, independent of reference models and data ranges, enabling explicit comparisons. However, many commonly used measures are not universally applicable, leading to a lack of comprehensive guidance on their appropriate use. This survey addresses this gap by providing an overview of absolute evaluation metrics in ML, organized by the type of learning problem. While classification metrics have been extensively studied, this work also covers clustering, regression, and ranking metrics. By grouping these measures according to the specific ML challenges they address, this survey aims to equip practitioners with the tools necessary to select appropriate metrics for their models. The provided overview thus improves individual model evaluation and facilitates meaningful comparisons across different models and applications.
- Abstract(参考訳): 機械学習は、コンピュータ科学、社会科学、医学、化学、ファイナンスといった様々な分野に適用される多様な分野である。
この多様性は様々な評価手法をもたらすため、モデルを効果的に比較することは困難である。
絶対的な評価尺度は、参照モデルやデータ範囲とは独立して、一定のスケールでモデルの性能を評価することで、実用的なソリューションを提供する。
しかし、多くの一般的な手段は普遍的に適用されないため、適切な使用に関する包括的なガイダンスが欠如している。
本調査は,学習問題の種類によって整理されたMLにおける絶対評価指標の概要を提供することで,このギャップに対処する。
分類メトリクスは広く研究されているが、この研究はクラスタリング、回帰、ランキングメトリクスもカバーしている。
この調査では、これらの指標を対処する特定のML課題に従ってグループ化することで、モデルの適切なメトリクスを選択するために必要なツールを実践者に提供することを目的としている。
得られた概要は、個々のモデル評価を改善し、異なるモデルやアプリケーション間で有意義な比較を容易にする。
関連論文リスト
- Benchmark for Evaluation and Analysis of Citation Recommendation Models [0.0]
我々は、引用推薦モデルの解析と比較を専門とするベンチマークを開発する。
このベンチマークは、引用コンテキストの異なる特徴に基づいてモデルの性能を評価する。
これは有意義な比較を可能にし、この分野におけるさらなる研究と開発のための有望なアプローチを特定するのに役立つだろう。
論文 参考訳(メタデータ) (2024-12-10T18:01:33Z) - Area under the ROC Curve has the Most Consistent Evaluation for Binary Classification [3.1850615666574806]
本研究は, 有病率の異なるデータ間でのモデル評価において, 測定値の整合性について検討する。
有病率の影響を受けない評価指標は、個々のモデルの一貫性のある評価と、モデルの集合の一貫性のあるランキングを提供する。
論文 参考訳(メタデータ) (2024-08-19T17:52:38Z) - Quantifying Variance in Evaluation Benchmarks [34.12254884944099]
評価ベンチマークのばらつきは,初期化における種子のばらつき,訓練中の単調性などである。
選択タスクを完了タスクとしてフレーミングするといった単純な変更は、小さなスケールでの分散を減少させる可能性がある。
人間のテスト文献(項目分析や項目応答理論など)に触発されたより複雑な手法は、分散を有意義に減少させるのに苦労する。
論文 参考訳(メタデータ) (2024-06-14T17:59:54Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - Learning Evaluation Models from Large Language Models for Sequence Generation [61.8421748792555]
本稿では,大規模言語モデルを用いた3段階評価モデルトレーニング手法を提案する。
SummEval ベンチマークによる実験結果から,CSEM は人間ラベルデータなしで評価モデルを効果的に訓練できることが示された。
論文 参考訳(メタデータ) (2023-08-08T16:41:16Z) - Variable Importance Matching for Causal Inference [73.25504313552516]
これらの目標を達成するためのModel-to-Matchと呼ばれる一般的なフレームワークについて説明する。
Model-to-Matchは、距離メートル法を構築するために変数重要度測定を使用する。
LASSO を用いて Model-to-Match フレームワークを運用する。
論文 参考訳(メタデータ) (2023-02-23T00:43:03Z) - In Search of Insights, Not Magic Bullets: Towards Demystification of the
Model Selection Dilemma in Heterogeneous Treatment Effect Estimation [92.51773744318119]
本稿では,異なるモデル選択基準の長所と短所を実験的に検討する。
選択戦略,候補推定器,比較に用いるデータの間には,複雑な相互作用があることを強調した。
論文 参考訳(メタデータ) (2023-02-06T16:55:37Z) - On the Ambiguity of Rank-Based Evaluation of Entity Alignment or Link
Prediction Methods [27.27230441498167]
本稿では,知識グラフから情報を得る方法として,リンク予測とエンティティアライメント(Entity Alignment)の2つのファミリについて,より詳しく検討する。
特に、既存のスコアはすべて、異なるデータセット間で結果を比較するのにほとんど役に立たないことを実証する。
これは結果の解釈において様々な問題を引き起こしており、誤解を招く結論を裏付ける可能性がある。
論文 参考訳(メタデータ) (2020-02-17T12:26:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。