論文の概要: Time and the Value of Data
- arxiv url: http://arxiv.org/abs/2203.09118v1
- Date: Thu, 17 Mar 2022 06:53:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-19 04:01:03.590267
- Title: Time and the Value of Data
- Title(参考訳): 時間とデータの価値
- Authors: Ehsan Valavi, Joel Hestness, Newsha Ardalani, Marco Iansiti
- Abstract要約: マネージャは、より多くのデータを集めることで、機械学習モデルの精度が継続的に向上する、とよく考えます。
我々は、データが時間とともに関連性を失うとき、古い(無関係な)データの無限の供給を回避せずに、最近の限られた量のデータを集めることが最適であると主張している。
- 参考スコア(独自算出の注目度): 0.3010893618491329
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Managers often believe that collecting more data will continually improve the
accuracy of their machine learning models. However, we argue in this paper that
when data lose relevance over time, it may be optimal to collect a limited
amount of recent data instead of keeping around an infinite supply of older
(less relevant) data. In addition, we argue that increasing the stock of data
by including older datasets may, in fact, damage the model's accuracy.
Expectedly, the model's accuracy improves by increasing the flow of data
(defined as data collection rate); however, it requires other tradeoffs in
terms of refreshing or retraining machine learning models more frequently.
Using these results, we investigate how the business value created by machine
learning models scales with data and when the stock of data establishes a
sustainable competitive advantage. We argue that data's time-dependency weakens
the barrier to entry that the stock of data creates. As a result, a competing
firm equipped with a limited (yet sufficient) amount of recent data can develop
more accurate models. This result, coupled with the fact that older datasets
may deteriorate models' accuracy, suggests that created business value doesn't
scale with the stock of available data unless the firm offloads less relevant
data from its data repository. Consequently, a firm's growth policy should
incorporate a balance between the stock of historical data and the flow of new
data.
We complement our theoretical results with an experiment. In the experiment,
we empirically measure the loss in the accuracy of a next word prediction model
trained on datasets from various time periods. Our empirical measurements
confirm the economic significance of the value decline over time. For example,
100MB of text data, after seven years, becomes as valuable as 50MB of current
data for the next word prediction task.
- Abstract(参考訳): マネージャはしばしば、より多くのデータを集めることで、機械学習モデルの精度が継続的に向上すると考えている。
しかし、この論文では、データが時間とともに関連性を失う場合、古い(関係のない)データを無限に供給する代わりに、限られた量の最近のデータを集めるのが最適であると主張する。
さらに、古いデータセットを含むことでデータの在庫を増やすことは、実際にモデルの精度を損なう可能性があると論じる。
予想通り、モデルの精度はデータフロー(データ収集レートとして定義される)を増加させることで向上するが、機械学習モデルのリフレッシュや再トレーニングという面では、他のトレードオフが必要になる。
これらの結果を用いて,機械学習モデルが生み出すビジネス価値がデータとどのようにスケールするか,そしてデータの蓄積が持続的な競争優位性を確立するときについて検討する。
データの時間依存性は、データの在庫が生み出す参入障壁を弱めると主張する。
その結果、最近の限られた(十分な)量のデータを備えた競合企業がより正確なモデルを開発することができる。
この結果は、古いデータセットがモデルの精度を低下させる可能性があるという事実と相まって、企業がデータレポジトリからあまり関連のないデータをオフロードしない限り、生成したビジネス価値が利用可能なデータのストックにスケールしないことを示唆している。
したがって、企業の成長政策は、履歴データの在庫と新たなデータの流れのバランスを組み込むべきである。
我々は理論結果を実験で補完する。
実験では,様々な時間からデータセット上で学習した次の単語予測モデルの精度の損失を実証的に測定する。
実証的な測定は、時間とともに価値が低下することの経済的重要性を確認する。
例えば、7年後の100MBのテキストデータは、次のワード予測タスクの50MBの現在のデータと同じくらいの価値を持つ。
関連論文リスト
- The Data Addition Dilemma [4.869513274920574]
医療タスクのための多くの機械学習では、標準データセットは、多くの、基本的に異なるソースにまたがるデータを集約することによって構築される。
しかし、いつより多くのデータを追加することが助けになるのか、いつ、実際の設定で望ましいモデル結果の進行を妨げるのか?
この状況をtextitData Addition Dilemma と認識し、このマルチソーススケーリングコンテキストにトレーニングデータを追加すると、全体的な精度が低下し、不確実なフェアネスの結果が減少し、最悪のサブグループのパフォーマンスが低下することを示した。
論文 参考訳(メタデータ) (2024-08-08T01:42:31Z) - F-FOMAML: GNN-Enhanced Meta-Learning for Peak Period Demand Forecasting with Proxy Data [65.6499834212641]
本稿では,需要予測をメタラーニング問題として定式化し,F-FOMAMLアルゴリズムを開発した。
タスク固有のメタデータを通してドメインの類似性を考慮することにより、トレーニングタスクの数が増加するにつれて過剰なリスクが減少する一般化を改善した。
従来の最先端モデルと比較して,本手法では需要予測精度が著しく向上し,内部自動販売機データセットでは平均絶対誤差が26.24%,JD.comデータセットでは1.04%削減された。
論文 参考訳(メタデータ) (2024-06-23T21:28:50Z) - TimeGPT in Load Forecasting: A Large Time Series Model Perspective [38.92798207166188]
機械学習モデルは、負荷予測に大きな進歩を遂げているが、過去の負荷データが不足している場合に、その予測精度は制限されている。
本稿では,負荷予測における時系列モデルの可能性について考察する。
論文 参考訳(メタデータ) (2024-04-07T09:05:09Z) - Quilt: Robust Data Segment Selection against Concept Drifts [30.62320149405819]
継続的機械学習パイプラインは、モデルが定期的にデータストリームでトレーニングされる産業環境で一般的である。
概念ドリフトは、データXとラベルy、P(X, y)の結合分布が時間とともに変化し、おそらくモデルの精度が低下するデータストリームで発生する。
既存のコンセプトドリフト適応アプローチは、主にモデルを新しいデータに更新することに集中し、ドリフトした履歴データを破棄する傾向がある。
モデル精度を最大化するデータセグメントを識別および選択するためのデータ中心フレームワークであるQultを提案する。
論文 参考訳(メタデータ) (2023-12-15T11:10:34Z) - Scaling Laws Do Not Scale [54.72120385955072]
最近の研究によると、データセットのサイズが大きくなると、そのデータセットでトレーニングされたモデルのパフォーマンスが向上する。
このスケーリング法則の関係は、モデルのアウトプットの質を異なる集団がどのように認識するかと一致しないパフォーマンスを測定するために使われる指標に依存する、と我々は主張する。
異なるコミュニティは、互いに緊張関係にある価値を持ち、モデル評価に使用されるメトリクスについて、困難で、潜在的に不可能な選択をもたらす可能性がある。
論文 参考訳(メタデータ) (2023-07-05T15:32:21Z) - Scaling Data-Constrained Language Models [137.17302576977346]
データ制約付きシステムにおける言語モデルのスケーリングについて検討する。
固定された計算予算に対する制約付きデータでは、反復するデータの最大4つのエポックなトレーニングは、ユニークなデータに比べて損失に対する無視可能な変化をもたらす。
本稿では,繰り返しトークンと過剰パラメータの値の減少を考慮に入れた計算最適性のスケーリング法則を提案し,実証的に検証する。
論文 参考訳(メタデータ) (2023-05-25T17:18:55Z) - An Investigation of Smart Contract for Collaborative Machine Learning
Model Training [3.5679973993372642]
協調機械学習(CML)はビッグデータ時代において様々な分野に浸透してきた。
MLモデルのトレーニングには大量の高品質なデータが必要であるため、データのプライバシに関する懸念を取り除く必要がある。
ブロックチェーンに基づいて、スマートコントラクトはデータ保存とバリデーションの自動実行を可能にする。
論文 参考訳(メタデータ) (2022-09-12T04:25:01Z) - How Much More Data Do I Need? Estimating Requirements for Downstream
Tasks [99.44608160188905]
小さなトレーニングデータセットと学習アルゴリズムがあれば、ターゲットの検証やテストのパフォーマンスに到達するのに、どれくらいのデータが必要か?
データ要求を過大評価または過小評価すると、十分な予算で回避できる相当なコストが発生する。
本ガイドラインを用いることで,機械学習システムのデータ要求を正確に推定し,開発時間とデータ取得コストの双方で節約することができる。
論文 参考訳(メタデータ) (2022-07-04T21:16:05Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z) - Data Appraisal Without Data Sharing [28.41079503636652]
セキュアなマルチパーティ計算によるデータ共有を必要としない手法を開発した。
実験の結果、影響関数は高品質な評価と必要な計算の間に魅力的なトレードオフをもたらすことがわかった。
論文 参考訳(メタデータ) (2020-12-11T15:45:19Z) - DeGAN : Data-Enriching GAN for Retrieving Representative Samples from a
Trained Classifier [58.979104709647295]
我々は、トレーニングされたネットワークの将来の学習タスクのために、利用可能なデータの豊富さと関連するデータの欠如の間のギャップを埋める。
利用可能なデータは、元のトレーニングデータセットまたは関連するドメインデータセットの不均衡なサブセットである可能性があるため、代表サンプルを検索するために使用します。
関連ドメインからのデータを活用して最先端のパフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2019-12-27T02:05:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。