論文の概要: Developing a Dataset-Adaptive, Normalized Metric for Machine Learning Model Assessment: Integrating Size, Complexity, and Class Imbalance
- arxiv url: http://arxiv.org/abs/2412.07244v1
- Date: Tue, 10 Dec 2024 07:10:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-11 14:35:35.505915
- Title: Developing a Dataset-Adaptive, Normalized Metric for Machine Learning Model Assessment: Integrating Size, Complexity, and Class Imbalance
- Title(参考訳): 機械学習モデル評価のためのデータセット適応型正規化メトリクスの開発:サイズ、複雑さ、クラス不均衡の統合
- Authors: Serzhan Ossenov,
- Abstract要約: 精度、F1スコア、精度といった従来のメトリクスは、機械学習モデルを評価するために頻繁に使用される。
サイズ、特徴次元、クラス不均衡、信号対雑音比といったデータセット特性を取り入れたデータセット適応型正規化メトリックを示す。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Traditional metrics like accuracy, F1-score, and precision are frequently used to evaluate machine learning models, however they may not be sufficient for evaluating performance on tiny, unbalanced, or high-dimensional datasets. A dataset-adaptive, normalized metric that incorporates dataset characteristics like size, feature dimensionality, class imbalance, and signal-to-noise ratio is presented in this study. Early insights into the model's performance potential in challenging circumstances are provided by the suggested metric, which offers a scalable and adaptable evaluation framework. The metric's capacity to accurately forecast model scalability and performance is demonstrated via experimental validation spanning classification, regression, and clustering tasks, guaranteeing solid assessments in settings with limited data. This method has important ramifications for effective resource allocation and model optimization in machine learning workflows.
- Abstract(参考訳): 精度、F1スコア、精度といった従来のメトリクスは、機械学習モデルを評価するために頻繁に使用されるが、小さな、バランスの取れていない、あるいは高次元のデータセットのパフォーマンスを評価するのに十分なものではないかもしれない。
本研究では, サイズ, 特徴次元, クラス不均衡, 信号対雑音比といったデータセット特性を組み込んだ, データセット適応型正規化計量について述べる。
挑戦的な状況におけるモデルの性能ポテンシャルに関する初期の洞察は、スケーラブルで適応可能な評価フレームワークを提供する提案された指標によって提供される。
モデルのスケーラビリティとパフォーマンスを正確に予測するメトリックの能力は、分類、回帰、クラスタリングタスクにまたがる実験的な検証によって実証される。
この手法は、機械学習ワークフローにおける効果的なリソース割り当てとモデル最適化に重要な影響を与える。
関連論文リスト
- A Structured Reasoning Framework for Unbalanced Data Classification Using Probabilistic Models [1.6951945839990796]
本稿では,不均衡データに対するマルコフネットワークモデルについて検討し,分類バイアスとマイノリティクラス認識能力不足の問題を解くことを目的とした。
実験の結果,マルコフネットワークは重み付け精度,F1スコア,AUC-ROCなどの指標で良好に動作することがわかった。
将来の研究は、大規模不均衡なデータ環境における効率的なモデルトレーニング、構造最適化、ディープラーニングの統合に焦点を当てることができる。
論文 参考訳(メタデータ) (2025-02-05T17:20:47Z) - What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - A Framework for Efficient Model Evaluation through Stratification, Sampling, and Estimation [17.351089059392674]
本稿では,階層化,サンプリング,推定を含むモデル評価のためのフレームワークを提案する。
モデル性能の正確な予測に基づいて,k平均クラスタリングによる成層化を行うことで,効率的に推定できることを示す。
また、データセットのラベル付けされていない部分におけるモデル精度の予測を利用するモデル支援推定器は、一般的に従来の推定値よりも効率的であることがわかった。
論文 参考訳(メタデータ) (2024-06-11T14:49:04Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Exploring validation metrics for offline model-based optimisation with
diffusion models [50.404829846182764]
モデルベース最適化(MBO)では、マシンラーニングを使用して、(基底真理)オラクルと呼ばれるブラックボックス関数に対する報酬の尺度を最大化する候補を設計することに興味があります。
モデル検証中に基底オラクルに対する近似をトレーニングし、その代わりに使用することができるが、その評価は近似的であり、敵の例に対して脆弱である。
本手法は,外挿量を測定するために提案した評価フレームワークにカプセル化されている。
論文 参考訳(メタデータ) (2022-11-19T16:57:37Z) - FORML: Learning to Reweight Data for Fairness [2.105564340986074]
メタラーニング(FORML)によるフェアネス最適化リヘアリングについて紹介する。
FORMLは、トレーニングサンプル重量とニューラルネットワークのパラメータを共同最適化することで、公正性の制約と精度のバランスを取る。
また,FORMLは,既存の最先端再重み付け手法に比べて,画像分類タスクで約1%,顔予測タスクで約5%向上することを示した。
論文 参考訳(メタデータ) (2022-02-03T17:36:07Z) - Effective dimension of machine learning models [4.721845865189576]
新しいデータを含むタスクにおけるトレーニング済みモデルのパフォーマンスに関する声明を作ることが、機械学習の主要な目標のひとつだ。
様々な能力測定は、この能力を捉えようとするが、通常、我々が実際に観察するモデルの重要な特性を説明するのに不足する。
本稿では,標準データセットの一般化誤差と相関するキャパシティ尺度として,局所有効次元を提案する。
論文 参考訳(メタデータ) (2021-12-09T10:00:18Z) - Post-hoc Models for Performance Estimation of Machine Learning Inference [22.977047604404884]
さまざまなシナリオにおいて、推論中に機械学習モデルがどれだけうまく機能するかを推定することが重要である。
性能評価をさまざまなメトリクスやシナリオに体系的に一般化する。
提案したポストホックモデルは標準信頼ベースラインを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2021-10-06T02:20:37Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z) - How Faithful is your Synthetic Data? Sample-level Metrics for Evaluating
and Auditing Generative Models [95.8037674226622]
ドメインに依存しない方法で生成モデルの忠実度,多様性,一般化性能を特徴付ける3次元評価指標を提案する。
当社のメトリクスは、精度リコール分析により統計的発散測定を統合し、モデル忠実度と多様性のサンプルおよび分布レベルの診断を可能にします。
論文 参考訳(メタデータ) (2021-02-17T18:25:30Z) - How Training Data Impacts Performance in Learning-based Control [67.7875109298865]
本稿では,トレーニングデータの密度と制御性能の関係を考察する。
データセットの品質尺度を定式化し、$rho$-gap と呼ぶ。
フィードバック線形化制御法に$rho$-gapを適用する方法を示す。
論文 参考訳(メタデータ) (2020-05-25T12:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。