論文の概要: Empirical Comparison between Cross-Validation and Mutation-Validation in
Model Selection
- arxiv url: http://arxiv.org/abs/2311.14079v2
- Date: Thu, 15 Feb 2024 16:28:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-16 18:55:33.197869
- Title: Empirical Comparison between Cross-Validation and Mutation-Validation in
Model Selection
- Title(参考訳): モデル選択におけるクロスバリデーションと変異バリデーションの実証比較
- Authors: Jinyang Yu, Sami Hamdan, Leonard Sasse, Abigail Morrison, Kaustubh R.
Patil
- Abstract要約: ベンチマークと実世界のデータセットを用いて,MV と $k$-fold CV を実証的に比較した。
その結果,MVとCVは,ほぼ等価な一般化性能を持つモデルを選択することがわかった。
MVはより単純なモデルを選択し、計算コストを下げるという点で優位性を示した。
- 参考スコア(独自算出の注目度): 1.187456026346823
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mutation validation (MV) is a recently proposed approach for model selection,
garnering significant interest due to its unique characteristics and potential
benefits compared to the widely used cross-validation (CV) method. In this
study, we empirically compared MV and $k$-fold CV using benchmark and
real-world datasets. By employing Bayesian tests, we compared generalization
estimates yielding three posterior probabilities: practical equivalence, CV
superiority, and MV superiority. We also evaluated the differences in the
capacity of the selected models and computational efficiency. We found that
both MV and CV select models with practically equivalent generalization
performance across various machine learning algorithms and the majority of
benchmark datasets. MV exhibited advantages in terms of selecting simpler
models and lower computational costs. However, in some cases MV selected overly
simplistic models leading to underfitting and showed instability in
hyperparameter selection. These limitations of MV became more evident in the
evaluation of a real-world neuroscientific task of predicting sex at birth
using brain functional connectivity.
- Abstract(参考訳): 変異検証(MV)は、最近提案されたモデル選択のアプローチであり、広く使われているクロスバリデーション(CV)法と比較して、その特徴と潜在的な利点から重要な関心を集めている。
本研究では,ベンチマークと実世界のデータセットを用いて,MVと$k$fold CVを比較した。
ベイズ試験を用いて, 実用的等価性, CV優越性, MV優越性の3つの後続確率を推定した。
また,選択したモデルの容量と計算効率の差についても検討した。
その結果、MVとCVは、様々な機械学習アルゴリズムとベンチマークデータセットの大部分で、実質的に等価な一般化性能を持つモデルを選択することがわかった。
MVはより単純なモデルを選択し、計算コストを下げるという利点を示した。
しかし、mvは過度に単純化されたモデルを選択し、過度なパラメータ選択の不安定さを示した。
これらのmvの限界は、脳機能的接続を用いて出生時の性別を予測する現実世界の神経科学的タスクの評価においてより顕著となった。
関連論文リスト
- MITA: Bridging the Gap between Model and Data for Test-time Adaptation [68.62509948690698]
テスト時間適応(TTA)は、モデルの一般化性を高めるための有望なパラダイムとして登場した。
本稿では,Met-In-The-MiddleをベースとしたMITAを提案する。
論文 参考訳(メタデータ) (2024-10-12T07:02:33Z) - Adaptive Image Quality Assessment via Teaching Large Multimodal Model to Compare [99.57567498494448]
我々はLMMに基づくノン参照IQAモデルであるCompare2Scoreを紹介する。
トレーニング中、同じIQAデータセットの画像を比較することで、スケールアップ比較命令を生成する。
9つのIQAデータセットの実験により、Compare2Scoreは、トレーニング中にテキスト定義の比較レベルを効果的にブリッジすることを確認した。
論文 参考訳(メタデータ) (2024-05-29T17:26:09Z) - Opinion-Unaware Blind Image Quality Assessment using Multi-Scale Deep Feature Statistics [54.08757792080732]
我々は,事前学習された視覚モデルからの深い特徴を統計的解析モデルと統合して,意見認識のないBIQA(OU-BIQA)を実現することを提案する。
提案モデルは,最先端のBIQAモデルと比較して,人間の視覚的知覚との整合性に優れる。
論文 参考訳(メタデータ) (2024-05-29T06:09:34Z) - Predictive Analytics of Varieties of Potatoes [2.336821989135698]
本研究では, 育種試験におけるサツマイモクローンの選択プロセスの向上を目的とした, 機械学習アルゴリズムの適用について検討する。
本研究は, 高収率, 耐病性, 耐気候性ポテト品種を効率的に同定することの課題に対処する。
論文 参考訳(メタデータ) (2024-04-04T00:49:05Z) - Which Transformer to Favor: A Comparative Analysis of Efficiency in Vision Transformers [7.89533262149443]
トランスフォーマーの自己注意は、2次計算の複雑さのために高い計算コストが伴う。
我々のベンチマークは、高解像度画像よりも、一般により大きなモデルを使用することの方が効率的であることを示している。
論文 参考訳(メタデータ) (2023-08-18T08:06:49Z) - Empirical Analysis of Model Selection for Heterogeneous Causal Effect Estimation [24.65301562548798]
本研究では,因果推論におけるモデル選択の問題,特に条件付き平均処理効果(CATE)の推定について検討する。
本研究では,本研究で導入されたサロゲートモデル選択指標と,本研究で導入された新しい指標のベンチマークを行う。
論文 参考訳(メタデータ) (2022-11-03T16:26:06Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - Reassessing Evaluation Practices in Visual Question Answering: A Case
Study on Out-of-Distribution Generalization [27.437077941786768]
大規模マルチモーダルデータ上で事前訓練された視覚・言語モデル(V&L)は,様々なタスクにおいて高い性能を示す。
異なる条件下で事前学習した2つのV&Lモデルを評価する。
これらのモデルは、VQAタスクに必要な高度なスキルを学ぶよりも、ベンチマークを解くことを学ぶ傾向にある。
論文 参考訳(メタデータ) (2022-05-24T16:44:45Z) - Sparse MoEs meet Efficient Ensembles [49.313497379189315]
このようなモデルの2つの一般的なクラス、すなわちニューラルネットワークのアンサンブルと専門家のスパースミックス(スパースMoE)の相互作用について研究する。
Efficient Ensemble of Experts (E$3$)は、両モデルのクラスを最大限に活用するスケーラブルでシンプルなMoEのアンサンブルであり、深いアンサンブルよりも最大45%少ないFLOPを使用する。
論文 参考訳(メタデータ) (2021-10-07T11:58:35Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。