論文の概要: The choice of scaling technique matters for classification performance
- arxiv url: http://arxiv.org/abs/2212.12343v1
- Date: Fri, 23 Dec 2022 13:51:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 17:01:24.260962
- Title: The choice of scaling technique matters for classification performance
- Title(参考訳): 分類性能におけるスケーリング手法の選択
- Authors: Lucas B.V. de Amorim, George D.C. Cavalcanti and Rafael M.O. Cruz
- Abstract要約: モノリシックモデルとアンサンブルモデルにおける5つのスケーリング手法が20の分類アルゴリズムの性能に与える影響を比較した。
その結果,ほとんどの場合,最高のスケーリング手法と最悪のスケーリング手法のパフォーマンス差は関連性があり,統計的に有意であることがわかった。
また,異なるスケーリング手法を考慮に入れたアンサンブルモデルの性能変動が,ベースモデルの性能変化によって予測される傾向があることを示す。
- 参考スコア(独自算出の注目度): 6.745479230590518
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dataset scaling, also known as normalization, is an essential preprocessing
step in a machine learning pipeline. It is aimed at adjusting attributes scales
in a way that they all vary within the same range. This transformation is known
to improve the performance of classification models, but there are several
scaling techniques to choose from, and this choice is not generally done
carefully. In this paper, we execute a broad experiment comparing the impact of
5 scaling techniques on the performances of 20 classification algorithms among
monolithic and ensemble models, applying them to 82 publicly available datasets
with varying imbalance ratios. Results show that the choice of scaling
technique matters for classification performance, and the performance
difference between the best and the worst scaling technique is relevant and
statistically significant in most cases. They also indicate that choosing an
inadequate technique can be more detrimental to classification performance than
not scaling the data at all. We also show how the performance variation of an
ensemble model, considering different scaling techniques, tends to be dictated
by that of its base model. Finally, we discuss the relationship between a
model's sensitivity to the choice of scaling technique and its performance and
provide insights into its applicability on different model deployment
scenarios. Full results and source code for the experiments in this paper are
available in a GitHub
repository.\footnote{https://github.com/amorimlb/scaling\_matters}
- Abstract(参考訳): データセットのスケーリング、あるいは正規化は、機械学習パイプラインにおいて不可欠な前処理ステップである。
属性のスケールを、すべて同じ範囲内で異なるように調整することを目的としている。
この変換は分類モデルの性能を向上させることが知られているが、いくつかのスケーリング手法があるため、この選択は一般的に慎重に行われていない。
本稿では,モノリシックモデルとアンサンブルモデル間の20の分類アルゴリズムの性能に対する5つのスケーリング手法の影響を比較検討し,不均衡比の異なる82の公開データセットに適用する。
その結果,スケーリング手法の選択は分類性能に重要であり,最も優れたスケーリング手法と最悪のスケーリング手法との性能差は,ほとんどの場合,関連性があり統計的に重要であることがわかった。
また、不適切なテクニックを選択することは、データのスケーリングを全く行わないよりも、分類性能に有害であることも示している。
また,異なるスケーリング手法を考慮に入れたアンサンブルモデルの性能変動が,ベースモデルによって予測される傾向があることを示す。
最後に,スケーリング手法の選択に対するモデルの感度と,その性能との関係について考察し,異なるモデル展開シナリオにおける適用性について考察する。
この論文における実験の完全な結果とソースコードは、githubリポジトリで入手できる。
\footnote{https://github.com/amorimlb/scaling\_matters}
関連論文リスト
- A Hitchhiker's Guide to Scaling Law Estimation [56.06982415792523]
スケーリング法則は、より少ないパラメータやより少ないトレーニングセットで訓練が容易なモデルから外挿することで、ターゲットとなる機械学習モデルの損失を予測する。
我々は1000以上のスケーリング法則を推定し、新しいモデルファミリーにおけるスケーリング法則を推定するためのベストプラクティスを導出する。
論文 参考訳(メタデータ) (2024-10-15T17:59:10Z) - ScalingFilter: Assessing Data Quality through Inverse Utilization of Scaling Laws [67.59263833387536]
ScalingFilterは、同じデータでトレーニングされた2つの言語モデル間の複雑さの違いに基づいて、テキスト品質を評価する新しいアプローチである。
品質フィルタリングによってもたらされるバイアスを評価するために,意味表現にテキスト埋め込みモデルを利用する指標である意味多様性を導入する。
論文 参考訳(メタデータ) (2024-08-15T17:59:30Z) - DTization: A New Method for Supervised Feature Scaling [0.0]
フィーチャースケーリングは、機械学習アルゴリズムのパフォーマンスを改善するデータ前処理技術の1つである。
我々は、決定木とロバストなスケーラを用いて、教師付き機能スケーリングを行うDTizationという新しい機能スケーリング手法を提示した。
その結果,従来の機能スケーリング手法と比較して,優れたパフォーマンス向上が得られた。
論文 参考訳(メタデータ) (2024-04-27T15:25:03Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Performance Scaling via Optimal Transport: Enabling Data Selection from
Partially Revealed Sources [9.359395812292291]
本稿では,モデル性能を予測し,将来的なデータソースの部分的なサンプルに基づいたデータ選択決定を支援する or> というフレームワークを提案する。
or> 既存のパフォーマンススケーリングアプローチを大幅に改善し,性能予測の精度と,性能構築に伴う計算コストを両立させる。
また,他の市販ソリューションと比較して,データ選択効率の差は広い。
論文 参考訳(メタデータ) (2023-07-05T17:33:41Z) - A Comparison of Modeling Preprocessing Techniques [0.0]
本稿では,構造化データに対する予測性能の観点から,各種データ処理手法の性能を比較した。
様々な構造、相互作用、複雑さの3つのデータセットが構築された。
特徴選択,分類的ハンドリング,ヌル計算のいくつかの手法を比較した。
論文 参考訳(メタデータ) (2023-02-23T14:11:08Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Fair Comparison: Quantifying Variance in Resultsfor Fine-grained Visual
Categorization [0.5735035463793008]
平均的な分類精度は、しばしば孤立して用いられる。
クラスの数が増加するにつれて、平均精度だけで伝達される情報の量は減少する。
その最も壮大な弱点は、クラスごとにモデルのパフォーマンスを記述できないことだが、平均的な精度は、同じアーキテクチャのトレーニングされたモデルから別のアーキテクチャへ、パフォーマンスがどのように変化するかを記述できない。
論文 参考訳(メタデータ) (2021-09-07T15:47:27Z) - Adaptive Threshold for Better Performance of the Recognition and
Re-identification Models [0.0]
LFWデータセットと自己準備型アスリートデータセット上で,オンライン最適化に基づく統計的特徴学習適応技術を開発した。
適応しきい値を採用するこの方法は、通常任意の分類および識別タスクでヒットアンドトライ法を介して取られる固定しきい値0.3,0.5,0.7と比較してモデル精度が12〜45%向上した。
論文 参考訳(メタデータ) (2020-12-28T15:40:53Z) - Dynamic Scale Training for Object Detection [111.33112051962514]
本稿では,オブジェクト検出におけるスケール変動問題を軽減するために,動的スケールトレーニングパラダイム(DST)を提案する。
提案したDSTのスケール変動処理に対する有効性を示す実験結果を得た。
推論オーバーヘッドを導入せず、一般的な検出設定のための無料ランチとして機能する。
論文 参考訳(メタデータ) (2020-04-26T16:48:17Z) - Learning to Select Base Classes for Few-shot Classification [96.92372639495551]
我々は、数ショットモデルの一般化性能を示す指標として、類似度比を用いる。
次に、類似度比に対する部分モジュラー最適化問題として基底クラス選択問題を定式化する。
論文 参考訳(メタデータ) (2020-04-01T09:55:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。