Fugu-MT 論文翻訳(概要): The choice of scaling technique matters for classification performance

論文の概要: The choice of scaling technique matters for classification performance

arxiv url: http://arxiv.org/abs/2212.12343v1
Date: Fri, 23 Dec 2022 13:51:45 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-26 17:01:24.260962
Title: The choice of scaling technique matters for classification performance
Title（参考訳）: 分類性能におけるスケーリング手法の選択
Authors: Lucas B.V. de Amorim, George D.C. Cavalcanti and Rafael M.O. Cruz
Abstract要約: モノリシックモデルとアンサンブルモデルにおける5つのスケーリング手法が20の分類アルゴリズムの性能に与える影響を比較した。その結果,ほとんどの場合,最高のスケーリング手法と最悪のスケーリング手法のパフォーマンス差は関連性があり,統計的に有意であることがわかった。また,異なるスケーリング手法を考慮に入れたアンサンブルモデルの性能変動が,ベースモデルの性能変化によって予測される傾向があることを示す。
参考スコア（独自算出の注目度）: 6.745479230590518
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Dataset scaling, also known as normalization, is an essential preprocessing step in a machine learning pipeline. It is aimed at adjusting attributes scales in a way that they all vary within the same range. This transformation is known to improve the performance of classification models, but there are several scaling techniques to choose from, and this choice is not generally done carefully. In this paper, we execute a broad experiment comparing the impact of 5 scaling techniques on the performances of 20 classification algorithms among monolithic and ensemble models, applying them to 82 publicly available datasets with varying imbalance ratios. Results show that the choice of scaling technique matters for classification performance, and the performance difference between the best and the worst scaling technique is relevant and statistically significant in most cases. They also indicate that choosing an inadequate technique can be more detrimental to classification performance than not scaling the data at all. We also show how the performance variation of an ensemble model, considering different scaling techniques, tends to be dictated by that of its base model. Finally, we discuss the relationship between a model's sensitivity to the choice of scaling technique and its performance and provide insights into its applicability on different model deployment scenarios. Full results and source code for the experiments in this paper are available in a GitHub repository.\footnote{https://github.com/amorimlb/scaling\_matters}
Abstract（参考訳）: データセットのスケーリング、あるいは正規化は、機械学習パイプラインにおいて不可欠な前処理ステップである。属性のスケールを、すべて同じ範囲内で異なるように調整することを目的としている。この変換は分類モデルの性能を向上させることが知られているが、いくつかのスケーリング手法があるため、この選択は一般的に慎重に行われていない。本稿では,モノリシックモデルとアンサンブルモデル間の20の分類アルゴリズムの性能に対する5つのスケーリング手法の影響を比較検討し,不均衡比の異なる82の公開データセットに適用する。その結果,スケーリング手法の選択は分類性能に重要であり,最も優れたスケーリング手法と最悪のスケーリング手法との性能差は,ほとんどの場合,関連性があり統計的に重要であることがわかった。また、不適切なテクニックを選択することは、データのスケーリングを全く行わないよりも、分類性能に有害であることも示している。また,異なるスケーリング手法を考慮に入れたアンサンブルモデルの性能変動が,ベースモデルによって予測される傾向があることを示す。最後に,スケーリング手法の選択に対するモデルの感度と,その性能との関係について考察し,異なるモデル展開シナリオにおける適用性について考察する。この論文における実験の完全な結果とソースコードは、githubリポジトリで入手できる。 \footnote{https://github.com/amorimlb/scaling\_matters}

関連論文リスト

Compute Optimal Scaling of Skills: Knowledge vs Reasoning [50.76705503978189]
計算-最適スケーリングの振る舞いがスキルに依存しているかどうかを問う。特に,知識に基づくQAやコード生成といった知識と推論に基づくスキルについて検討する。本研究は,検証セットを用いた標準的な計算-最適スケーリングとの関連性について分析した。
論文参考訳（メタデータ） (2025-03-13T05:21:22Z)
A Hitchhiker's Guide to Scaling Law Estimation [56.06982415792523]
スケーリング法則は、より少ないパラメータやより少ないトレーニングセットで訓練が容易なモデルから外挿することで、ターゲットとなる機械学習モデルの損失を予測する。我々は1000以上のスケーリング法則を推定し、新しいモデルファミリーにおけるスケーリング法則を推定するためのベストプラクティスを導出する。
論文参考訳（メタデータ） (2024-10-15T17:59:10Z)
ScalingFilter: Assessing Data Quality through Inverse Utilization of Scaling Laws [67.59263833387536]
ScalingFilterは、同じデータでトレーニングされた2つの言語モデル間の複雑さの違いに基づいて、テキスト品質を評価する新しいアプローチである。品質フィルタリングによってもたらされるバイアスを評価するために,意味表現にテキスト埋め込みモデルを利用する指標である意味多様性を導入する。
論文参考訳（メタデータ） (2024-08-15T17:59:30Z)
DTization: A New Method for Supervised Feature Scaling [0.0]
フィーチャースケーリングは、機械学習アルゴリズムのパフォーマンスを改善するデータ前処理技術の1つである。我々は、決定木とロバストなスケーラを用いて、教師付き機能スケーリングを行うDTizationという新しい機能スケーリング手法を提示した。その結果,従来の機能スケーリング手法と比較して,優れたパフォーマンス向上が得られた。
論文参考訳（メタデータ） (2024-04-27T15:25:03Z)
The Languini Kitchen: Enabling Language Modelling Research at Different Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文参考訳（メタデータ） (2023-09-20T10:31:17Z)
Performance Scaling via Optimal Transport: Enabling Data Selection from Partially Revealed Sources [9.359395812292291]
本稿では,モデル性能を予測し,将来的なデータソースの部分的なサンプルに基づいたデータ選択決定を支援する or> というフレームワークを提案する。 or> 既存のパフォーマンススケーリングアプローチを大幅に改善し,性能予測の精度と,性能構築に伴う計算コストを両立させる。また,他の市販ソリューションと比較して,データ選択効率の差は広い。
論文参考訳（メタデータ） (2023-07-05T17:33:41Z)
A Comparison of Modeling Preprocessing Techniques [0.0]
本稿では,構造化データに対する予測性能の観点から,各種データ処理手法の性能を比較した。様々な構造、相互作用、複雑さの3つのデータセットが構築された。特徴選択,分類的ハンドリング,ヌル計算のいくつかの手法を比較した。
論文参考訳（メタデータ） (2023-02-23T14:11:08Z)
Selecting the suitable resampling strategy for imbalanced data classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文参考訳（メタデータ） (2021-12-15T18:56:39Z)
Fair Comparison: Quantifying Variance in Resultsfor Fine-grained Visual Categorization [0.5735035463793008]
平均的な分類精度は、しばしば孤立して用いられる。クラスの数が増加するにつれて、平均精度だけで伝達される情報の量は減少する。その最も壮大な弱点は、クラスごとにモデルのパフォーマンスを記述できないことだが、平均的な精度は、同じアーキテクチャのトレーニングされたモデルから別のアーキテクチャへ、パフォーマンスがどのように変化するかを記述できない。
論文参考訳（メタデータ） (2021-09-07T15:47:27Z)
Adaptive Threshold for Better Performance of the Recognition and Re-identification Models [0.0]
LFWデータセットと自己準備型アスリートデータセット上で,オンライン最適化に基づく統計的特徴学習適応技術を開発した。適応しきい値を採用するこの方法は、通常任意の分類および識別タスクでヒットアンドトライ法を介して取られる固定しきい値0.3,0.5,0.7と比較してモデル精度が12〜45%向上した。
論文参考訳（メタデータ） (2020-12-28T15:40:53Z)
Dynamic Scale Training for Object Detection [111.33112051962514]
本稿では,オブジェクト検出におけるスケール変動問題を軽減するために,動的スケールトレーニングパラダイム(DST)を提案する。提案したDSTのスケール変動処理に対する有効性を示す実験結果を得た。推論オーバーヘッドを導入せず、一般的な検出設定のための無料ランチとして機能する。
論文参考訳（メタデータ） (2020-04-26T16:48:17Z)
Learning to Select Base Classes for Few-shot Classification [96.92372639495551]
我々は、数ショットモデルの一般化性能を示す指標として、類似度比を用いる。次に、類似度比に対する部分モジュラー最適化問題として基底クラス選択問題を定式化する。
論文参考訳（メタデータ） (2020-04-01T09:55:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。