Fugu-MT 論文翻訳(概要): Optimal Ratio for Data Splitting

論文の概要: Optimal Ratio for Data Splitting

arxiv url: http://arxiv.org/abs/2202.03326v1
Date: Mon, 7 Feb 2022 16:18:05 GMT
ステータス: 翻訳完了
システム内更新日: 2022-02-08 14:33:38.144232
Title: Optimal Ratio for Data Splitting
Title（参考訳）: データ分割のための最適比率
Authors: V. Roshan Joseph
Abstract要約: 統計モデルや機械学習モデルに適合する前に、データセットをトレーニングセットとテストセットに分割することが一般的である。本稿では、最適分割比が$sqrtp:1$であり、$p$は線形回帰モデルにおけるパラメータの数であることを示す。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: It is common to split a dataset into training and testing sets before fitting a statistical or machine learning model. However, there is no clear guidance on how much data should be used for training and testing. In this article we show that the optimal splitting ratio is $\sqrt{p}:1$, where $p$ is the number of parameters in a linear regression model that explains the data well.
Abstract（参考訳）: 統計モデルや機械学習モデルに適合する前に、データセットをトレーニングとテストセットに分割するのが一般的です。しかし、トレーニングやテストにどれだけのデータを使うべきか、明確なガイダンスはありません。本稿では、最適な分割比が$\sqrt{p}:1$であり、$p$はデータをうまく説明する線形回帰モデルにおけるパラメータの数であることを示す。

関連論文リスト

Test Set Sizing for the Ridge Regression [55.2480439325792]
このような分割が、大規模なデータ制限下で機械学習モデルに対して数学的に計算されるのは、これが初めてである。計算の目標は「積分」を最大化することで、訓練されたモデルにおける測定された誤差が理論上すべきことと可能な限り近いようにすることである。
論文参考訳（メタデータ） (2025-04-27T13:17:18Z)
Data Selection for ERMs [67.57726352698933]
我々は、$mathcalA$が、少なくとも$nll N$のデータポイントで訓練された時に、いかにうまく機能するかを研究する。結果は,平均推定,線形分類,線形回帰に対する最適データ選択境界を含む。
論文参考訳（メタデータ） (2025-04-20T11:26:01Z)
DUPRE: Data Utility Prediction for Efficient Data Valuation [49.60564885180563]
Data Shapleyのような協調ゲーム理論に基づくデータ評価では、データユーティリティを評価し、複数のデータサブセットに対してMLモデルを再トレーニングする必要がある。我々のフレームワークである textttDUPRE は、モデル再学習による評価ではなく、データユーティリティを予測することによって、サブセット評価当たりのコストを削減できる代替手法を採用しています。具体的には、いくつかのデータサブセットのデータユーティリティを評価すると、textttDUPREは、他のすべてのデータサブセットの有用性を予測するために、emphGaussianプロセス(GP)回帰モデルに適合する。
論文参考訳（メタデータ） (2025-02-22T08:53:39Z)
Highly Adaptive Ridge [84.38107748875144]
直交可積分な部分微分を持つ右連続函数のクラスにおいて,$n-2/3$自由次元L2収束率を達成する回帰法を提案する。 Harは、飽和ゼロオーダーテンソル積スプライン基底展開に基づいて、特定のデータ適応型カーネルで正確にカーネルリッジレグレッションを行う。我々は、特に小さなデータセットに対する最先端アルゴリズムよりも経験的性能が優れていることを示す。
論文参考訳（メタデータ） (2024-10-03T17:06:06Z)
Data Debiasing with Datamodels (D3M): Improving Subgroup Robustness via Data Selection [80.85902083005237]
データモデルによるデータデバイアス(Data Debiasing with Datamodels, D3M)は、マイノリティグループにおけるモデルの障害を駆動する特定のトレーニング例を分離し、削除するデバイアス(debiasing)アプローチである。
論文参考訳（メタデータ） (2024-06-24T17:51:01Z)
Easy Differentially Private Linear Regression [16.325734286930764]
本研究では,指数関数機構を用いて,非プライベート回帰モデルの集合からタキー深度の高いモデルを選択するアルゴリズムについて検討する。このアルゴリズムは、データリッチな設定において、強い経験的性能を得る。
論文参考訳（メタデータ） (2022-08-15T17:42:27Z)
Learning to be a Statistician: Learned Estimator for Number of Distinct Values [54.629042119819744]
列内の異なる値の数(NDV)を推定することは、データベースシステムにおける多くのタスクに有用である。本研究では、ランダム(オンライン/オフライン)サンプルから正確なNDV推定を導出する方法に焦点を当てる。教師付き学習フレームワークにおいて,NDV推定タスクを定式化し,モデルを推定対象として学習することを提案する。
論文参考訳（メタデータ） (2022-02-06T15:42:04Z)
Datamodels: Predicting Predictions from Training Data [86.66720175866415]
本稿では,モデルクラスの振る舞いを学習データの観点から分析するための概念的枠組みであるデータモデリングについて述べる。単純な線形データモデルであっても、モデル出力をうまく予測できることが示される。
論文参考訳（メタデータ） (2022-02-01T18:15:24Z)
Evaluation of Tree Based Regression over Multiple Linear Regression for Non-normally Distributed Data in Battery Performance [0.5735035463793008]
本研究では,機械学習モデル構築におけるデータ正規性の影響について検討する。木に基づく回帰モデルと複数の線形回帰モデルは、それぞれ高度に歪んだ非正規データセットから構築される。
論文参考訳（メタデータ） (2021-11-03T20:28:24Z)
Data Aggregation for Reducing Training Data in Symbolic Regression [0.0]
本研究は、トレーニングデータを削減する方法と、遺伝的プログラミングのランタイムについても論じる。 K平均クラスタリングとデータビンニングはデータアグリゲーションに使われ、最も単純なデータリダクション法としてランダムサンプリングと比較される。遺伝的プログラミングの性能は、ランダムな森林と線形回帰と比較される。
論文参考訳（メタデータ） (2021-08-24T11:58:17Z)
How to distribute data across tasks for meta-learning? [59.608652082495624]
タスクごとのデータポイントの最適な数は予算に依存しますが、それは大きな予算のためのユニークな一定の値に収束します。この結果から,データ収集の簡便かつ効率的な手順が示唆された。
論文参考訳（メタデータ） (2021-03-15T15:38:47Z)
AutoSimulate: (Quickly) Learning Synthetic Data Generation [70.82315853981838]
目的の新たな微分可能近似に基づく最適な合成データ生成法を提案する。提案手法は,学習データ生成の高速化(最大50Times$)と,実世界のテストデータセットの精度向上(+8.7%$)を実現している。
論文参考訳（メタデータ） (2020-08-16T11:36:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。