論文の概要: VeML: An End-to-End Machine Learning Lifecycle for Large-scale and
High-dimensional Data
- arxiv url: http://arxiv.org/abs/2304.13037v1
- Date: Tue, 25 Apr 2023 07:32:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-27 16:51:17.740988
- Title: VeML: An End-to-End Machine Learning Lifecycle for Large-scale and
High-dimensional Data
- Title(参考訳): veml:大規模高次元データのためのエンドツーエンド機械学習ライフサイクル
- Authors: Van-Duc Le
- Abstract要約: 本稿では、エンド・ツー・エンドの機械学習ライフサイクルに特化したバージョン管理システムであるVeMLを紹介する。
特に大規模かつ高次元のデータセットにおいて、MLライフサイクルを構築するための高コストに対処する。
大規模・高次元データの類似性を効率的に計算するために,コアセットに基づくアルゴリズムを設計する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: An end-to-end machine learning (ML) lifecycle consists of many iterative
processes, from data preparation and ML model design to model training and then
deploying the trained model for inference. When building an end-to-end
lifecycle for an ML problem, many ML pipelines must be designed and executed
that produce a huge number of lifecycle versions. Therefore, this paper
introduces VeML, a Version management system dedicated to end-to-end ML
Lifecycle. Our system tackles several crucial problems that other systems have
not solved. First, we address the high cost of building an ML lifecycle,
especially for large-scale and high-dimensional dataset. We solve this problem
by proposing to transfer the lifecycle of similar datasets managed in our
system to the new training data. We design an algorithm based on the core set
to compute similarity for large-scale, high-dimensional data efficiently.
Another critical issue is the model accuracy degradation by the difference
between training data and testing data during the ML lifetime, which leads to
lifecycle rebuild. Our system helps to detect this mismatch without getting
labeled data from testing data and rebuild the ML lifecycle for a new data
version. To demonstrate our contributions, we conduct experiments on
real-world, large-scale datasets of driving images and spatiotemporal sensor
data and show promising results.
- Abstract(参考訳): エンドツーエンドの機械学習(ML)ライフサイクルは、データ準備やMLモデル設計からモデルトレーニング、そして推論のためのトレーニングされたモデルのデプロイに至るまで、多くの反復プロセスで構成されている。
ML問題のためのエンドツーエンドライフサイクルを構築する場合、多くのMLパイプラインを設計して実行し、多数のライフサイクルバージョンを生成する必要がある。
そこで本稿では,エンドツーエンドMLライフサイクル専用のバージョン管理システムであるVeMLを紹介する。
我々のシステムは、他のシステムが解決していないいくつかの重要な問題に取り組む。
まず、特に大規模かつ高次元のデータセットにおいて、MLライフサイクルを構築するための高コストに対処する。
我々は、システム内で管理されている類似データセットのライフサイクルを、新しいトレーニングデータに転送することで、この問題を解決する。
大規模・高次元データの類似性を効率的に計算するためのコアセットに基づくアルゴリズムを設計する。
もうひとつの重要な問題は、トレーニングデータとML寿命中のテストデータの違いによるモデルの精度低下であり、リカバリにつながる。
このシステムは、テストデータからラベル付きデータを取得し、新しいデータバージョンのmlライフサイクルを再構築することなく、このミスマッチを検出するのに役立ちます。
本研究は,運転画像と時空間センサデータを用いた実世界の大規模データセット実験を行い,有望な結果を示す。
関連論文リスト
- Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Scaling Retrieval-Based Language Models with a Trillion-Token Datastore [85.4310806466002]
検索ベースLMが使用するデータストアのサイズを増大させることで,言語モデリングや下流タスクを一元的に改善できることがわかった。
データストア、モデル、事前学習データサイズで計算最適スケーリング曲線をプロットすることにより、より大きなデータストアを使用することで、同じトレーニング計算予算のモデル性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2024-07-09T08:27:27Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z) - In Situ Framework for Coupling Simulation and Machine Learning with
Application to CFD [51.04126395480625]
近年、流体力学計算を容易にする機械学習(ML)の多くの成功例が報告されている。
シミュレーションが大きくなるにつれて、従来のオフライン学習のための新しいトレーニングデータセットの生成は、I/Oとストレージのボトルネックを生み出します。
この作業は、この結合を単純化し、異種クラスタでのその場トレーニングと推論を可能にするソリューションを提供する。
論文 参考訳(メタデータ) (2023-06-22T14:07:54Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z) - SimbaML: Connecting Mechanistic Models and Machine Learning with
Augmented Data [0.0]
SimbaMLは、通常の微分方程式に基づくモデルからリアルな合成データセットを生成するオープンソースツールである。
SimbaMLは、合成データから実世界のデータへの変換学習を便利に調査することができる。
論文 参考訳(メタデータ) (2023-04-08T12:50:50Z) - REIN: A Comprehensive Benchmark Framework for Data Cleaning Methods in
ML Pipelines [0.0]
我々は,データクリーニング手法が各種機械学習モデルに与える影響を徹底的に調査するために,REIN1と呼ばれるベンチマークを導入する。
ベンチマークを通じて、MLパイプラインにおいて、データのクリーニングが必要なステップである場所や場所など、重要な研究課題に対する回答を提供する。
論文 参考訳(メタデータ) (2023-02-09T15:37:39Z) - Designing Data: Proactive Data Collection and Iteration for Machine
Learning [12.295169687537395]
データ収集の多様性の欠如は、機械学習(ML)アプリケーションに重大な障害を引き起こしている。
データセットが実世界の変動性を反映しているかどうかを評価するためには、データ収集、イテレーション、モデルのトレーニングを追跡および管理する新しい方法が必要である。
論文 参考訳(メタデータ) (2023-01-24T21:40:29Z) - Data Debugging with Shapley Importance over End-to-End Machine Learning
Pipelines [27.461398584509755]
DataScopeは、エンドツーエンドの機械学習パイプライン上でトレーニング例のShapley値を効率的に計算する最初のシステムである。
以上の結果から,DataScopeは最先端のモンテカルロ法よりも最大4桁高速であることがわかった。
論文 参考訳(メタデータ) (2022-04-23T19:29:23Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。