論文の概要: Optimal Ratio for Data Splitting
- arxiv url: http://arxiv.org/abs/2202.03326v1
- Date: Mon, 7 Feb 2022 16:18:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-08 14:33:38.144232
- Title: Optimal Ratio for Data Splitting
- Title(参考訳): データ分割のための最適比率
- Authors: V. Roshan Joseph
- Abstract要約: 統計モデルや機械学習モデルに適合する前に、データセットをトレーニングセットとテストセットに分割することが一般的である。
本稿では、最適分割比が$sqrtp:1$であり、$p$は線形回帰モデルにおけるパラメータの数であることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: It is common to split a dataset into training and testing sets before fitting
a statistical or machine learning model. However, there is no clear guidance on
how much data should be used for training and testing. In this article we show
that the optimal splitting ratio is $\sqrt{p}:1$, where $p$ is the number of
parameters in a linear regression model that explains the data well.
- Abstract(参考訳): 統計モデルや機械学習モデルに適合する前に、データセットをトレーニングとテストセットに分割するのが一般的です。
しかし、トレーニングやテストにどれだけのデータを使うべきか、明確なガイダンスはありません。
本稿では、最適な分割比が$\sqrt{p}:1$であり、$p$はデータをうまく説明する線形回帰モデルにおけるパラメータの数であることを示す。
関連論文リスト
- Scaling Data-Constrained Language Models [137.17302576977346]
データ制約付きシステムにおける言語モデルのスケーリングについて検討する。
固定された計算予算に対する制約付きデータでは、反復するデータの最大4つのエポックなトレーニングは、ユニークなデータに比べて損失に対する無視可能な変化をもたらす。
本稿では,繰り返しトークンと過剰パラメータの値の減少を考慮に入れた計算最適性のスケーリング法則を提案し,実証的に検証する。
論文 参考訳(メタデータ) (2023-05-25T17:18:55Z) - Easy Differentially Private Linear Regression [16.325734286930764]
本研究では,指数関数機構を用いて,非プライベート回帰モデルの集合からタキー深度の高いモデルを選択するアルゴリズムについて検討する。
このアルゴリズムは、データリッチな設定において、強い経験的性能を得る。
論文 参考訳(メタデータ) (2022-08-15T17:42:27Z) - Learning to be a Statistician: Learned Estimator for Number of Distinct
Values [54.629042119819744]
列内の異なる値の数(NDV)を推定することは、データベースシステムにおける多くのタスクに有用である。
本研究では、ランダム(オンライン/オフライン)サンプルから正確なNDV推定を導出する方法に焦点を当てる。
教師付き学習フレームワークにおいて,NDV推定タスクを定式化し,モデルを推定対象として学習することを提案する。
論文 参考訳(メタデータ) (2022-02-06T15:42:04Z) - Datamodels: Predicting Predictions from Training Data [86.66720175866415]
本稿では,モデルクラスの振る舞いを学習データの観点から分析するための概念的枠組みであるデータモデリングについて述べる。
単純な線形データモデルであっても、モデル出力をうまく予測できることが示される。
論文 参考訳(メタデータ) (2022-02-01T18:15:24Z) - Evaluation of Tree Based Regression over Multiple Linear Regression for
Non-normally Distributed Data in Battery Performance [0.5735035463793008]
本研究では,機械学習モデル構築におけるデータ正規性の影響について検討する。
木に基づく回帰モデルと複数の線形回帰モデルは、それぞれ高度に歪んだ非正規データセットから構築される。
論文 参考訳(メタデータ) (2021-11-03T20:28:24Z) - Data Aggregation for Reducing Training Data in Symbolic Regression [0.0]
本研究は、トレーニングデータを削減する方法と、遺伝的プログラミングのランタイムについても論じる。
K平均クラスタリングとデータビンニングはデータアグリゲーションに使われ、最も単純なデータリダクション法としてランダムサンプリングと比較される。
遺伝的プログラミングの性能は、ランダムな森林と線形回帰と比較される。
論文 参考訳(メタデータ) (2021-08-24T11:58:17Z) - How to distribute data across tasks for meta-learning? [59.608652082495624]
タスクごとのデータポイントの最適な数は予算に依存しますが、それは大きな予算のためのユニークな一定の値に収束します。
この結果から,データ収集の簡便かつ効率的な手順が示唆された。
論文 参考訳(メタデータ) (2021-03-15T15:38:47Z) - How Important is the Train-Validation Split in Meta-Learning? [155.5088631672781]
メタラーニングにおける一般的な実践は、前者がデータの1つの分割に対してタスクに適応し、その結果の予測器が別の分割に対して評価される列車バリデーション分割(emphtrain-val method)を実行することである。
有病率にもかかわらず、列車の改札の重要性は理論上も実際上もよく理解されていない。
そこで本研究では,実際のメタ学習タスクとシミュレーションの両方において,トレイン・トレイン法がトレイン・ヴァル法より優れていることを示す。
論文 参考訳(メタデータ) (2020-10-12T16:48:42Z) - AutoSimulate: (Quickly) Learning Synthetic Data Generation [70.82315853981838]
目的の新たな微分可能近似に基づく最適な合成データ生成法を提案する。
提案手法は,学習データ生成の高速化(最大50Times$)と,実世界のテストデータセットの精度向上(+8.7%$)を実現している。
論文 参考訳(メタデータ) (2020-08-16T11:36:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。