論文の概要: Have we been Naive to Select Machine Learning Models? Noisy Data are
here to Stay!
- arxiv url: http://arxiv.org/abs/2207.06651v1
- Date: Thu, 14 Jul 2022 04:20:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-16 04:22:23.631531
- Title: Have we been Naive to Select Machine Learning Models? Noisy Data are
here to Stay!
- Title(参考訳): マシンラーニングモデルの選択はナイーブでしたか?
うるさいデータがここにあります!
- Authors: Felipe Costa Farias, Teresa Bernarda Ludermir and Carmelo Jos\'e
Albanez Bastos-Filho
- Abstract要約: モデル選択手順は、通常、特定の集合における特定の計量を最大化するモデルを選択する単一基準決定である。
これは非常に単純であり、過剰な探索現象のため、過度に適合したモデルの選択が不十分である、と我々は主張する。
4つの理論的最適条件を定義し、モデルをよりよく選択し、分析することができる。
- 参考スコア(独自算出の注目度): 2.094821665776961
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The model selection procedure is usually a single-criterion decision making
in which we select the model that maximizes a specific metric in a specific
set, such as the Validation set performance. We claim this is very naive and
can perform poor selections of over-fitted models due to the over-searching
phenomenon, which over-estimates the performance on that specific set.
Futhermore, real world data contains noise that should not be ignored by the
model selection procedure and must be taken into account when performing model
selection. Also, we have defined four theoretical optimality conditions that we
can pursue to better select the models and analyze them by using a
multi-criteria decision-making algorithm (TOPSIS) that considers proxies to the
optimality conditions to select reasonable models.
- Abstract(参考訳): モデル選択手順は、通常、検証セットのパフォーマンスのような特定のセットにおける特定のメトリックを最大化するモデルを選択する、単一基準決定である。
これは非常にナイーブで、特定のセットのパフォーマンスを過大評価する過剰な検索現象のために、不適切なモデルの選択を行えません。
さらに、実世界のデータは、モデル選択手順で無視すべきではなく、モデル選択を行う際に考慮しなければならないノイズを含んでいる。
また,適切なモデルを選択するために,最適条件に対するプロキシを考慮に入れたマルチクレータ決定アルゴリズム(TOPSIS)を用いて,モデルの選択と解析を行う4つの理論的最適条件を定義した。
関連論文リスト
- Towards Fundamentally Scalable Model Selection: Asymptotically Fast Update and Selection [40.85209520973634]
理想的なモデル選択スキームは、候補モデルの大きなプール上で2つの操作を効率的にサポートすべきである。
モデル選択に対する従来の解決策は、これらの2つの操作のうちの少なくとも1つに対して高い計算複雑性を必要とする。
モデル埋め込みを実証的に実現したStandardized Embedderを提案する。
論文 参考訳(メタデータ) (2024-06-11T17:57:49Z) - On the Laplace Approximation as Model Selection Criterion for Gaussian Processes [6.990493129893112]
ラプラス近似に基づく複数の指標を導入する。
実験により、我々のメトリクスはゴールド標準の動的ネストサンプリングに匹敵する品質を示している。
論文 参考訳(メタデータ) (2024-03-14T09:28:28Z) - REFRESH: Responsible and Efficient Feature Reselection Guided by SHAP Values [17.489279048199304]
REFRESHは、いくつかの新しいモデルをトレーニングすることなく、モデルパフォーマンスに望ましい追加の制約を達成できるように、機能を再選択する手法である。
REFRESHの基盤となるアルゴリズムは、SHAP値と相関解析を用いて、モデルをトレーニングすることなくモデルの予測を近似できる新しい手法である。
論文 参考訳(メタデータ) (2024-03-13T18:06:43Z) - DsDm: Model-Aware Dataset Selection with Datamodels [81.01744199870043]
標準的なプラクティスは、データ品質という人間の考え方にマッチする例をフィルタリングすることです。
質の高い"データソースとの類似性に応じた選択は、ランダムに選択するデータに比べてパフォーマンスが向上しない(さらに傷つく)可能性がある。
我々のフレームワークは、データ品質に関する手作業による概念を回避し、学習プロセスがターゲットタスクの予測にデータポイントをトレーニングする方法を明確にモデル化する。
論文 参考訳(メタデータ) (2024-01-23T17:22:00Z) - Budgeted Online Model Selection and Fine-Tuning via Federated Learning [26.823435733330705]
オンラインモデル選択では、候補モデルのセットからモデルを選択して、データのストリームで予測を実行する。
その後の候補モデルの選択は、パフォーマンスに決定的な影響を与えます。
本稿では,学習者グループ(クライアント)が十分なメモリを持つサーバと対話するオンラインフェデレーションモデル選択フレームワークを提案する。
提案したアルゴリズムを用いて、クライアントとサーバは微調整モデルと協調して非定常環境に適応する。
論文 参考訳(メタデータ) (2024-01-19T04:02:49Z) - The Interpolating Information Criterion for Overparameterized Models [49.283527214211446]
補間情報基準(Interpolating Information Criterion)は,モデル選択に事前選択を自然に取り入れたモデル品質の尺度であることを示す。
我々の新しい情報基準は、モデルの事前の誤特定、幾何学的およびスペクトル的特性を考慮に入れており、既知の経験的および理論的挙動と数値的に一致している。
論文 参考訳(メタデータ) (2023-07-15T12:09:54Z) - Cost-Effective Online Contextual Model Selection [14.094350329970537]
我々は,このタスクを,学習者が文脈とともにラベルのないデータポイントを受信する,オンラインコンテキストアクティブモデル選択問題として定式化する。
目標は、ラベルの過剰な量を得ることなく、任意のコンテキストに対して最良のモデルを出力することである。
本稿では,適応モデル選択のためのポリシークラスに定義された新しい不確実性サンプリングクエリ基準に依存する,文脈型アクティブモデル選択アルゴリズム(CAMS)を提案する。
論文 参考訳(メタデータ) (2022-07-13T08:22:22Z) - Modeling the Second Player in Distributionally Robust Optimization [90.25995710696425]
我々は、最悪のケース分布を特徴付けるために神経生成モデルを使うことを議論する。
このアプローチは多くの実装と最適化の課題をもたらします。
提案されたアプローチは、同等のベースラインよりも堅牢なモデルを生み出す。
論文 参考訳(メタデータ) (2021-03-18T14:26:26Z) - Design of Dynamic Experiments for Black-Box Model Discrimination [72.2414939419588]
選択したいような動的モデル判別の設定を考えてみましょう。 (i) 最高のメカニスティックな時間変化モデルと (ii) 最高のモデルパラメータ推定値です。
勾配情報にアクセス可能な競合する力学モデルに対しては、既存の手法を拡張し、より広い範囲の問題の不確実性を組み込む。
これらのブラックボックスモデルをガウス過程サロゲートモデルに置き換えることで、モデル識別設定を拡張して、競合するブラックボックスモデルをさらに取り入れる。
論文 参考訳(メタデータ) (2021-02-07T11:34:39Z) - A linearized framework and a new benchmark for model selection for
fine-tuning [112.20527122513668]
異なるドメインで事前訓練されたモデルの集合からの微調整は、低データ体制におけるテストの精度を向上させる技術として現れている。
モデル選択のための2つの新しいベースライン - Label-Gradient と Label-Feature correlation を導入する。
我々のベンチマークでは、微調整されたイメージネットモデルと比較して、モデル動物園での精度向上が強調されている。
論文 参考訳(メタデータ) (2021-01-29T21:57:15Z) - Characterizing Fairness Over the Set of Good Models Under Selective
Labels [69.64662540443162]
同様の性能を実現するモデルセットに対して,予測公正性を特徴付けるフレームワークを開発する。
到達可能なグループレベルの予測格差の範囲を計算するためのトラクタブルアルゴリズムを提供します。
選択ラベル付きデータの実証的な課題に対処するために、我々のフレームワークを拡張します。
論文 参考訳(メタデータ) (2021-01-02T02:11:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。