論文の概要: Evaluating Supervised Machine Learning Models: Principles, Pitfalls, and Metric Selection
- arxiv url: http://arxiv.org/abs/2604.13882v1
- Date: Wed, 15 Apr 2026 13:44:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.566446
- Title: Evaluating Supervised Machine Learning Models: Principles, Pitfalls, and Metric Selection
- Title(参考訳): 教師付き機械学習モデルの評価:原則、落とし穴、メトリクスの選択
- Authors: Xuanyan Liu, Ignacio Cabrera Martin, Marcello Trovati, Xiaolong Xu, Nikolaos Polatidis,
- Abstract要約: 本稿では,教師付き学習アルゴリズムの評価に関わる原則,課題,実践的考察について検討する。
評価結果は,データセットの特徴,検証設計,クラス不均衡,非対称なエラーコスト,パフォーマンス指標の選択にどのように影響するかを論じる。
- 参考スコア(独自算出の注目度): 5.015895904388096
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The evaluation of supervised machine learning models is a critical stage in the development of reliable predictive systems. Despite the widespread availability of machine learning libraries and automated workflows, model assessment is often reduced to the reporting of a small set of aggregate metrics, which can lead to misleading conclusions about real-world performance. This paper examines the principles, challenges, and practical considerations involved in evaluating supervised learning algorithms across classification and regression tasks. In particular, it discusses how evaluation outcomes are influenced by dataset characteristics, validation design, class imbalance, asymmetric error costs, and the choice of performance metrics. Through a series of controlled experimental scenarios using diverse benchmark datasets, the study highlights common pitfalls such as the accuracy paradox, data leakage, inappropriate metric selection, and overreliance on scalar summary measures. The paper also compares alternative validation strategies and emphasizes the importance of aligning model evaluation with the intended operational objective of the task. By presenting evaluation as a decision-oriented and context-dependent process, this work provides a structured foundation for selecting metrics and validation protocols that support statistically sound, robust, and trustworthy supervised machine learning systems.
- Abstract(参考訳): 教師付き機械学習モデルの評価は、信頼性の高い予測システムの開発において重要な段階である。
機械学習ライブラリと自動化ワークフローが広く利用可能であるにもかかわらず、モデルアセスメントはしばしば、実際のパフォーマンスに関する誤解を招く可能性のある、少数の集約メトリクスの報告に還元される。
本稿では,教師付き学習アルゴリズムの評価に係わる原則,課題,実践的考察について検討する。
特に,評価結果がデータセットの特徴,検証設計,クラス不均衡,非対称誤差コスト,パフォーマンス指標の選択にどのように影響するかを論じる。
多様なベンチマークデータセットを用いた一連の制御された実験シナリオを通じて、この研究は、精度パラドックス、データリーク、不適切なメートル法選択、スカラーサマリー尺度への過度な依存など、一般的な落とし穴を強調した。
また、代替検証戦略を比較し、課題の意図した運用目的とモデル評価を整合させることの重要性を強調した。
評価を意思決定指向でコンテキスト依存のプロセスとして提示することにより、統計的に健全で堅牢で信頼性の高い機械学習システムをサポートするメトリクスと検証プロトコルを選択するための構造化された基盤を提供する。
関連論文リスト
- What Do Learned Models Measure? [0.0]
多くの科学的およびデータ駆動の応用において、機械学習モデルは計測機器としてますます使われている。
一般化誤差,キャリブレーション,ロバスト性などの機械学習の標準評価基準は,測定安定性を保証していないことを示す。
論文 参考訳(メタデータ) (2026-01-26T09:00:48Z) - Interpretable Credit Default Prediction with Ensemble Learning and SHAP [3.948008559977866]
本研究では、信用デフォルト予測の問題に焦点をあて、機械学習に基づくモデリングフレームワークを構築し、様々な主流分類アルゴリズムの比較実験を行う。
その結果、アンサンブル学習法は、特に特徴とデータ不均衡問題の間の複雑な非線形関係を扱う際に、予測性能に明らかな利点があることが示唆された。
外部クレジットスコア変数はモデル決定において主要な役割を担い、モデルの解釈可能性と実用的な応用価値を改善するのに役立ちます。
論文 参考訳(メタデータ) (2025-05-27T07:23:22Z) - Are We Truly Forgetting? A Critical Re-examination of Machine Unlearning Evaluation Protocols [14.961054239793356]
本稿では,下流のタスククラスと意味的類似性を示すクラスを忘れる,厳密なアンラーニング評価手法を提案する。
われわれのベンチマークは、現実的な条件下での未学習アルゴリズム評価のための標準化されたプロトコルとして機能することを願っている。
論文 参考訳(メタデータ) (2025-03-10T07:11:34Z) - Meta-Statistical Learning: Supervised Learning of Statistical Inference [59.463430294611626]
この研究は、大きな言語モデル(LLM)の成功を駆動するツールと原則が、分散レベルのタスクに取り組むために再利用可能であることを実証している。
本稿では,統計的推論タスクを教師付き学習問題として再構成するマルチインスタンス学習に触発されたメタ統計学習を提案する。
論文 参考訳(メタデータ) (2025-02-17T18:04:39Z) - Developing a Dataset-Adaptive, Normalized Metric for Machine Learning Model Assessment: Integrating Size, Complexity, and Class Imbalance [0.0]
精度、F1スコア、精度といった従来のメトリクスは、機械学習モデルを評価するために頻繁に使用される。
サイズ、特徴次元、クラス不均衡、信号対雑音比といったデータセット特性を取り入れたデータセット適応型正規化メトリックを示す。
論文 参考訳(メタデータ) (2024-12-10T07:10:00Z) - A Probabilistic Perspective on Unlearning and Alignment for Large Language Models [48.96686419141881]
大規模言語モデル(LLM)のための最初の形式的確率的評価フレームワークを紹介する。
すなわち,モデルの出力分布に関する確率保証の高い新しい指標を提案する。
私たちのメトリクスはアプリケーションに依存しないので、デプロイ前にモデル機能についてより信頼性の高い見積を行うことができます。
論文 参考訳(メタデータ) (2024-10-04T15:44:23Z) - How Training Data Impacts Performance in Learning-based Control [67.7875109298865]
本稿では,トレーニングデータの密度と制御性能の関係を考察する。
データセットの品質尺度を定式化し、$rho$-gap と呼ぶ。
フィードバック線形化制御法に$rho$-gapを適用する方法を示す。
論文 参考訳(メタデータ) (2020-05-25T12:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。