Fugu-MT 論文翻訳(概要): Empirical Comparison between Cross-Validation and Mutation-Validation in Model Selection

論文の概要: Empirical Comparison between Cross-Validation and Mutation-Validation in Model Selection

arxiv url: http://arxiv.org/abs/2311.14079v1
Date: Thu, 23 Nov 2023 16:14:24 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-27 23:20:23.350374
Title: Empirical Comparison between Cross-Validation and Mutation-Validation in Model Selection
Title（参考訳）: モデル選択におけるクロスバリデーションと変異バリデーションの実証比較
Authors: Jinyang Yu, Sami Hamdan, Leonard Sasse, Abigail Morrison, Kaustubh R. Patil
Abstract要約: ベンチマークと実世界のデータセットを用いて,MV と $k$-fold CV を実証的に比較した。その結果,MVとCVは,ほぼ等価な一般化性能を持つモデルを選択することがわかった。 MVはより単純なモデルを選択し、計算コストを下げるという点で優位性を示した。
参考スコア（独自算出の注目度）: 1.187456026346823
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Mutation validation (MV) is a recently proposed approach for model selection, garnering significant interest due to its unique characteristics and potential benefits compared to the widely used cross-validation (CV) method. In this study, we empirically compared MV and $k$-fold CV using benchmark and real-world datasets. By employing Bayesian tests, we compared generalization estimates yielding three posterior probabilities: practical equivalence, CV superiority, and MV superiority. We also evaluated the differences in the capacity of the selected models and computational efficiency. We found that both MV and CV select models with practically equivalent generalization performance across various machine learning algorithms and the majority of benchmark datasets. MV exhibited advantages in terms of selecting simpler models and lower computational costs. However, in some cases MV selected overly simplistic models leading to underfitting and showed instability in hyperparameter selection. These limitations of MV became more evident in the evaluation of a real-world neuroscientific task of predicting sex at birth using brain functional connectivity.
Abstract（参考訳）: 変異検証(MV)は、最近提案されたモデル選択のアプローチであり、広く使われているクロスバリデーション(CV)法と比較して、その特徴と潜在的な利点から重要な関心を集めている。本研究では,ベンチマークと実世界のデータセットを用いて,MVと$k$fold CVを比較した。ベイズ試験を用いて, 実用的等価性, CV優越性, MV優越性の3つの後続確率を推定した。また,選択したモデルの容量と計算効率の差についても検討した。その結果、MVとCVは、様々な機械学習アルゴリズムとベンチマークデータセットの大部分で、実質的に等価な一般化性能を持つモデルを選択することがわかった。 MVはより単純なモデルを選択し、計算コストを下げるという利点を示した。しかし、mvは過度に単純化されたモデルを選択し、過度なパラメータ選択の不安定さを示した。これらのmvの限界は、脳機能的接続を用いて出生時の性別を予測する現実世界の神経科学的タスクの評価においてより顕著となった。

関連論文リスト

Comparing Model-agnostic Feature Selection Methods through Relative Efficiency [8.870380386952993]
本稿では,線形モデル,非線形加法モデル,単層ニューラルネットワークを模倣する単一インデックスモデルという3つのモデル設定の下で理論的比較を行う。実験結果と合わせて, GCM関連手法が適切な規則性条件下でのLOCOよりも優れていたことが示唆された。我々のシミュレーションと実データ分析には、ニューラルネットワークや勾配木などの機械学習手法が広く使われている。
論文参考訳（メタデータ） (2025-08-19T20:55:43Z)
Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文参考訳（メタデータ） (2025-04-10T04:09:47Z)
MITA: Bridging the Gap between Model and Data for Test-time Adaptation [68.62509948690698]
テスト時間適応(TTA)は、モデルの一般化性を高めるための有望なパラダイムとして登場した。本稿では,Met-In-The-MiddleをベースとしたMITAを提案する。
論文参考訳（メタデータ） (2024-10-12T07:02:33Z)
Adaptive Image Quality Assessment via Teaching Large Multimodal Model to Compare [99.57567498494448]
我々はLMMに基づくノン参照IQAモデルであるCompare2Scoreを紹介する。トレーニング中、同じIQAデータセットの画像を比較することで、スケールアップ比較命令を生成する。 9つのIQAデータセットの実験により、Compare2Scoreは、トレーニング中にテキスト定義の比較レベルを効果的にブリッジすることを確認した。
論文参考訳（メタデータ） (2024-05-29T17:26:09Z)
Opinion-Unaware Blind Image Quality Assessment using Multi-Scale Deep Feature Statistics [54.08757792080732]
我々は,事前学習された視覚モデルからの深い特徴を統計的解析モデルと統合して,意見認識のないBIQA(OU-BIQA)を実現することを提案する。提案モデルは,最先端のBIQAモデルと比較して,人間の視覚的知覚との整合性に優れる。
論文参考訳（メタデータ） (2024-05-29T06:09:34Z)
Predictive Analytics of Varieties of Potatoes [2.336821989135698]
本研究では, 育種試験におけるサツマイモクローンの選択プロセスの向上を目的とした, 機械学習アルゴリズムの適用について検討する。本研究は, 高収率, 耐病性, 耐気候性ポテト品種を効率的に同定することの課題に対処する。
論文参考訳（メタデータ） (2024-04-04T00:49:05Z)
Which Transformer to Favor: A Comparative Analysis of Efficiency in Vision Transformers [7.89533262149443]
トランスフォーマーの自己注意は、2次計算の複雑さのために高い計算コストが伴う。我々のベンチマークは、高解像度画像よりも、一般により大きなモデルを使用することの方が効率的であることを示している。
論文参考訳（メタデータ） (2023-08-18T08:06:49Z)
Empirical Analysis of Model Selection for Heterogeneous Causal Effect Estimation [24.65301562548798]
本研究では,因果推論におけるモデル選択の問題,特に条件付き平均処理効果(CATE)の推定について検討する。本研究では,本研究で導入されたサロゲートモデル選択指標と,本研究で導入された新しい指標のベンチマークを行う。
論文参考訳（メタデータ） (2022-11-03T16:26:06Z)
HyperImpute: Generalized Iterative Imputation with Automatic Model Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文参考訳（メタデータ） (2022-06-15T19:10:35Z)
Reassessing Evaluation Practices in Visual Question Answering: A Case Study on Out-of-Distribution Generalization [27.437077941786768]
大規模マルチモーダルデータ上で事前訓練された視覚・言語モデル(V&L)は,様々なタスクにおいて高い性能を示す。異なる条件下で事前学習した2つのV&Lモデルを評価する。これらのモデルは、VQAタスクに必要な高度なスキルを学ぶよりも、ベンチマークを解くことを学ぶ傾向にある。
論文参考訳（メタデータ） (2022-05-24T16:44:45Z)
Sparse MoEs meet Efficient Ensembles [49.313497379189315]
このようなモデルの2つの一般的なクラス、すなわちニューラルネットワークのアンサンブルと専門家のスパースミックス(スパースMoE)の相互作用について研究する。 Efficient Ensemble of Experts (E$3$)は、両モデルのクラスを最大限に活用するスケーラブルでシンプルなMoEのアンサンブルであり、深いアンサンブルよりも最大45%少ないFLOPを使用する。
論文参考訳（メタデータ） (2021-10-07T11:58:35Z)
Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。 Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文参考訳（メタデータ） (2021-06-01T22:33:53Z)
Comparing hundreds of machine learning classifiers and discrete choice models in predicting travel behavior: an empirical benchmark [6.815730801645785]
多くの研究は、旅行需要予測において機械学習(ML)と離散選択モデル(DCM)を比較してきた。これらの研究は、文脈変動を考慮せずに決定論的にモデルを比較するため、一般化性に欠けることが多い。このベンチマークでは、2つの大規模データソースを比較した。
論文参考訳（メタデータ） (2021-02-01T19:45:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。