論文の概要: Have we been Naive to Select Machine Learning Models? Noisy Data are
here to Stay!
- arxiv url: http://arxiv.org/abs/2207.06651v1
- Date: Thu, 14 Jul 2022 04:20:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-16 04:22:23.631531
- Title: Have we been Naive to Select Machine Learning Models? Noisy Data are
here to Stay!
- Title(参考訳): マシンラーニングモデルの選択はナイーブでしたか?
うるさいデータがここにあります!
- Authors: Felipe Costa Farias, Teresa Bernarda Ludermir and Carmelo Jos\'e
Albanez Bastos-Filho
- Abstract要約: モデル選択手順は、通常、特定の集合における特定の計量を最大化するモデルを選択する単一基準決定である。
これは非常に単純であり、過剰な探索現象のため、過度に適合したモデルの選択が不十分である、と我々は主張する。
4つの理論的最適条件を定義し、モデルをよりよく選択し、分析することができる。
- 参考スコア(独自算出の注目度): 2.094821665776961
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The model selection procedure is usually a single-criterion decision making
in which we select the model that maximizes a specific metric in a specific
set, such as the Validation set performance. We claim this is very naive and
can perform poor selections of over-fitted models due to the over-searching
phenomenon, which over-estimates the performance on that specific set.
Futhermore, real world data contains noise that should not be ignored by the
model selection procedure and must be taken into account when performing model
selection. Also, we have defined four theoretical optimality conditions that we
can pursue to better select the models and analyze them by using a
multi-criteria decision-making algorithm (TOPSIS) that considers proxies to the
optimality conditions to select reasonable models.
- Abstract(参考訳): モデル選択手順は、通常、検証セットのパフォーマンスのような特定のセットにおける特定のメトリックを最大化するモデルを選択する、単一基準決定である。
これは非常にナイーブで、特定のセットのパフォーマンスを過大評価する過剰な検索現象のために、不適切なモデルの選択を行えません。
さらに、実世界のデータは、モデル選択手順で無視すべきではなく、モデル選択を行う際に考慮しなければならないノイズを含んでいる。
また,適切なモデルを選択するために,最適条件に対するプロキシを考慮に入れたマルチクレータ決定アルゴリズム(TOPSIS)を用いて,モデルの選択と解析を行う4つの理論的最適条件を定義した。
関連論文リスト
- Stabilizing black-box model selection with the inflated argmax [8.52745154080651]
本稿では,バッジと「膨らませた」argmax演算を組み合わせたモデル選択の安定化手法を提案する。
提案手法では,データに適合するモデルの小さなコレクションを選択し,高い確率で任意のトレーニングポイントを除去すると,元のコレクションと重複するモデルのコレクションが生成される。
いずれの設定においても,提案手法は,選択したモデルの安定かつコンパクトなコレクションを生成し,様々なベンチマークより優れている。
論文 参考訳(メタデータ) (2024-10-23T20:39:07Z) - All models are wrong, some are useful: Model Selection with Limited Labels [49.62984196182567]
本稿では,事前学習した分類器をラベル効率で選択するフレームワークであるMODEL SELECTORを紹介する。
MODEL SELECTOR はラベル付きデータの必要性を劇的に減らし,最良あるいは最良に近い性能のモデルを選択することを示す。
モデル選択におけるMODEL SELECTORのロバスト性をさらに強調し, 最良モデルを選択する場合, ラベル付けコストを最大72.41%削減する。
論文 参考訳(メタデータ) (2024-10-17T14:45:56Z) - An incremental preference elicitation-based approach to learning potentially non-monotonic preferences in multi-criteria sorting [53.36437745983783]
まず最適化モデルを構築し,非単調な選好をモデル化する。
本稿では,情報量測定手法と質問選択戦略を考案し,各イテレーションにおいて最も情報に富む選択肢を特定する。
2つのインクリメンタルな選好に基づくアルゴリズムは、潜在的に単調な選好を学習するために開発された。
論文 参考訳(メタデータ) (2024-09-04T14:36:20Z) - Towards Fundamentally Scalable Model Selection: Asymptotically Fast Update and Selection [40.85209520973634]
理想的なモデル選択スキームは、候補モデルの大きなプール上で2つの操作を効率的にサポートすべきである。
モデル選択に対する従来の解決策は、これらの2つの操作のうちの少なくとも1つに対して高い計算複雑性を必要とする。
モデル埋め込みを実証的に実現したStandardized Embedderを提案する。
論文 参考訳(メタデータ) (2024-06-11T17:57:49Z) - On the Laplace Approximation as Model Selection Criterion for Gaussian Processes [6.990493129893112]
ラプラス近似に基づく複数の指標を導入する。
実験により、我々のメトリクスはゴールド標準の動的ネストサンプリングに匹敵する品質を示している。
論文 参考訳(メタデータ) (2024-03-14T09:28:28Z) - DsDm: Model-Aware Dataset Selection with Datamodels [81.01744199870043]
標準的なプラクティスは、データ品質という人間の考え方にマッチする例をフィルタリングすることです。
質の高い"データソースとの類似性に応じた選択は、ランダムに選択するデータに比べてパフォーマンスが向上しない(さらに傷つく)可能性がある。
我々のフレームワークは、データ品質に関する手作業による概念を回避し、学習プロセスがターゲットタスクの予測にデータポイントをトレーニングする方法を明確にモデル化する。
論文 参考訳(メタデータ) (2024-01-23T17:22:00Z) - Budgeted Online Model Selection and Fine-Tuning via Federated Learning [26.823435733330705]
オンラインモデル選択では、候補モデルのセットからモデルを選択して、データのストリームで予測を実行する。
その後の候補モデルの選択は、パフォーマンスに決定的な影響を与えます。
本稿では,学習者グループ(クライアント)が十分なメモリを持つサーバと対話するオンラインフェデレーションモデル選択フレームワークを提案する。
提案したアルゴリズムを用いて、クライアントとサーバは微調整モデルと協調して非定常環境に適応する。
論文 参考訳(メタデータ) (2024-01-19T04:02:49Z) - Cost-Effective Online Contextual Model Selection [14.094350329970537]
我々は,このタスクを,学習者が文脈とともにラベルのないデータポイントを受信する,オンラインコンテキストアクティブモデル選択問題として定式化する。
目標は、ラベルの過剰な量を得ることなく、任意のコンテキストに対して最良のモデルを出力することである。
本稿では,適応モデル選択のためのポリシークラスに定義された新しい不確実性サンプリングクエリ基準に依存する,文脈型アクティブモデル選択アルゴリズム(CAMS)を提案する。
論文 参考訳(メタデータ) (2022-07-13T08:22:22Z) - Modeling the Second Player in Distributionally Robust Optimization [90.25995710696425]
我々は、最悪のケース分布を特徴付けるために神経生成モデルを使うことを議論する。
このアプローチは多くの実装と最適化の課題をもたらします。
提案されたアプローチは、同等のベースラインよりも堅牢なモデルを生み出す。
論文 参考訳(メタデータ) (2021-03-18T14:26:26Z) - A linearized framework and a new benchmark for model selection for
fine-tuning [112.20527122513668]
異なるドメインで事前訓練されたモデルの集合からの微調整は、低データ体制におけるテストの精度を向上させる技術として現れている。
モデル選択のための2つの新しいベースライン - Label-Gradient と Label-Feature correlation を導入する。
我々のベンチマークでは、微調整されたイメージネットモデルと比較して、モデル動物園での精度向上が強調されている。
論文 参考訳(メタデータ) (2021-01-29T21:57:15Z) - Characterizing Fairness Over the Set of Good Models Under Selective
Labels [69.64662540443162]
同様の性能を実現するモデルセットに対して,予測公正性を特徴付けるフレームワークを開発する。
到達可能なグループレベルの予測格差の範囲を計算するためのトラクタブルアルゴリズムを提供します。
選択ラベル付きデータの実証的な課題に対処するために、我々のフレームワークを拡張します。
論文 参考訳(メタデータ) (2021-01-02T02:11:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。