論文の概要: Optimal Ratio for Data Splitting
- arxiv url: http://arxiv.org/abs/2202.03326v1
- Date: Mon, 7 Feb 2022 16:18:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-08 14:33:38.144232
- Title: Optimal Ratio for Data Splitting
- Title(参考訳): データ分割のための最適比率
- Authors: V. Roshan Joseph
- Abstract要約: 統計モデルや機械学習モデルに適合する前に、データセットをトレーニングセットとテストセットに分割することが一般的である。
本稿では、最適分割比が$sqrtp:1$であり、$p$は線形回帰モデルにおけるパラメータの数であることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: It is common to split a dataset into training and testing sets before fitting
a statistical or machine learning model. However, there is no clear guidance on
how much data should be used for training and testing. In this article we show
that the optimal splitting ratio is $\sqrt{p}:1$, where $p$ is the number of
parameters in a linear regression model that explains the data well.
- Abstract(参考訳): 統計モデルや機械学習モデルに適合する前に、データセットをトレーニングとテストセットに分割するのが一般的です。
しかし、トレーニングやテストにどれだけのデータを使うべきか、明確なガイダンスはありません。
本稿では、最適な分割比が$\sqrt{p}:1$であり、$p$はデータをうまく説明する線形回帰モデルにおけるパラメータの数であることを示す。
関連論文リスト
- Highly Adaptive Ridge [84.38107748875144]
直交可積分な部分微分を持つ右連続函数のクラスにおいて,$n-2/3$自由次元L2収束率を達成する回帰法を提案する。
Harは、飽和ゼロオーダーテンソル積スプライン基底展開に基づいて、特定のデータ適応型カーネルで正確にカーネルリッジレグレッションを行う。
我々は、特に小さなデータセットに対する最先端アルゴリズムよりも経験的性能が優れていることを示す。
論文 参考訳(メタデータ) (2024-10-03T17:06:06Z) - Data Debiasing with Datamodels (D3M): Improving Subgroup Robustness via Data Selection [80.85902083005237]
データモデルによるデータデバイアス(Data Debiasing with Datamodels, D3M)は、マイノリティグループにおけるモデルの障害を駆動する特定のトレーニング例を分離し、削除するデバイアス(debiasing)アプローチである。
論文 参考訳(メタデータ) (2024-06-24T17:51:01Z) - Easy Differentially Private Linear Regression [16.325734286930764]
本研究では,指数関数機構を用いて,非プライベート回帰モデルの集合からタキー深度の高いモデルを選択するアルゴリズムについて検討する。
このアルゴリズムは、データリッチな設定において、強い経験的性能を得る。
論文 参考訳(メタデータ) (2022-08-15T17:42:27Z) - Learning to be a Statistician: Learned Estimator for Number of Distinct
Values [54.629042119819744]
列内の異なる値の数(NDV)を推定することは、データベースシステムにおける多くのタスクに有用である。
本研究では、ランダム(オンライン/オフライン)サンプルから正確なNDV推定を導出する方法に焦点を当てる。
教師付き学習フレームワークにおいて,NDV推定タスクを定式化し,モデルを推定対象として学習することを提案する。
論文 参考訳(メタデータ) (2022-02-06T15:42:04Z) - Datamodels: Predicting Predictions from Training Data [86.66720175866415]
本稿では,モデルクラスの振る舞いを学習データの観点から分析するための概念的枠組みであるデータモデリングについて述べる。
単純な線形データモデルであっても、モデル出力をうまく予測できることが示される。
論文 参考訳(メタデータ) (2022-02-01T18:15:24Z) - Evaluation of Tree Based Regression over Multiple Linear Regression for
Non-normally Distributed Data in Battery Performance [0.5735035463793008]
本研究では,機械学習モデル構築におけるデータ正規性の影響について検討する。
木に基づく回帰モデルと複数の線形回帰モデルは、それぞれ高度に歪んだ非正規データセットから構築される。
論文 参考訳(メタデータ) (2021-11-03T20:28:24Z) - Data Aggregation for Reducing Training Data in Symbolic Regression [0.0]
本研究は、トレーニングデータを削減する方法と、遺伝的プログラミングのランタイムについても論じる。
K平均クラスタリングとデータビンニングはデータアグリゲーションに使われ、最も単純なデータリダクション法としてランダムサンプリングと比較される。
遺伝的プログラミングの性能は、ランダムな森林と線形回帰と比較される。
論文 参考訳(メタデータ) (2021-08-24T11:58:17Z) - How to distribute data across tasks for meta-learning? [59.608652082495624]
タスクごとのデータポイントの最適な数は予算に依存しますが、それは大きな予算のためのユニークな一定の値に収束します。
この結果から,データ収集の簡便かつ効率的な手順が示唆された。
論文 参考訳(メタデータ) (2021-03-15T15:38:47Z) - AutoSimulate: (Quickly) Learning Synthetic Data Generation [70.82315853981838]
目的の新たな微分可能近似に基づく最適な合成データ生成法を提案する。
提案手法は,学習データ生成の高速化(最大50Times$)と,実世界のテストデータセットの精度向上(+8.7%$)を実現している。
論文 参考訳(メタデータ) (2020-08-16T11:36:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。