論文の概要: Demystifying a Dark Art: Understanding Real-World Machine Learning Model
Development
- arxiv url: http://arxiv.org/abs/2005.01520v1
- Date: Mon, 4 May 2020 14:33:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 01:31:21.304046
- Title: Demystifying a Dark Art: Understanding Real-World Machine Learning Model
Development
- Title(参考訳): demystifying a dark art: 現実世界の機械学習モデル開発を理解する
- Authors: Angela Lee, Doris Xin, Doris Lee, Aditya Parameswaran
- Abstract要約: 機械学習の追跡と共有のためのオープンソースのプラットフォームOpenMLで、ユーザ生成475万以上を分析します。
イテレーションを繰り返すと、ユーザが手動、自動化、あるいは混合のアプローチを採用することがよくあります。
- 参考スコア(独自算出の注目度): 2.422369741135428
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is well-known that the process of developing machine learning (ML)
workflows is a dark-art; even experts struggle to find an optimal workflow
leading to a high accuracy model. Users currently rely on empirical
trial-and-error to obtain their own set of battle-tested guidelines to inform
their modeling decisions. In this study, we aim to demystify this dark art by
understanding how people iterate on ML workflows in practice. We analyze over
475k user-generated workflows on OpenML, an open-source platform for tracking
and sharing ML workflows. We find that users often adopt a manual, automated,
or mixed approach when iterating on their workflows. We observe that manual
approaches result in fewer wasted iterations compared to automated approaches.
Yet, automated approaches often involve more preprocessing and hyperparameter
options explored, resulting in higher performance overall--suggesting potential
benefits for a human-in-the-loop ML system that appropriately recommends a
clever combination of the two strategies.
- Abstract(参考訳): 機械学習(ML)ワークフローを開発するプロセスがダークアートであることはよく知られている。
現在、ユーザーは経験的な試行錯誤を頼りに、自身のモデリング決定を知らせるために、独自の戦闘テストガイドラインを入手している。
本研究では,機械学習のワークフローを実際にどのように繰り返していくかを理解することによって,このダークアートのデミスティフィケーションを目指す。
OpenMLは、MLワークフローを追跡し、共有するためのオープンソースのプラットフォームです。
ユーザはワークフローを繰り返すときに、手動、自動化、あるいは混合のアプローチを採用することが多いのです。
手動のアプローチが自動化アプローチに比べて無駄なイテレーションを少なくするのを観察する。
しかし、自動化されたアプローチには、より事前処理とハイパーパラメータの選択肢がしばしば必要であり、結果として、この2つの戦略の巧妙な組み合わせを適切に推奨する、ヒューマン・イン・ザ・ループmlシステム全体のパフォーマンスが向上する可能性がある。
関連論文リスト
- Couler: Unified Machine Learning Workflow Optimization in Cloud [6.769259207650922]
Coulerは、クラウドにおけるMLワークフローの統一最適化のために設計されたシステムである。
大規模言語モデル(LLM)をワークフロー生成に統合し、さまざまなワークフローエンジンに統一されたプログラミングインターフェースを提供する。
Couerは、CPU/メモリ使用率を15%以上改善し、ワークフロー完了率を約17%向上させた。
論文 参考訳(メタデータ) (2024-03-12T12:47:32Z) - Machine Learning Insides OptVerse AI Solver: Design Principles and
Applications [74.67495900436728]
本稿では,Huawei CloudのOpsVerse AIソルバに機械学習(ML)技術を統合するための総合的研究について述べる。
本稿では,実世界の多面構造を反映した生成モデルを用いて,複雑なSATインスタンスとMILPインスタンスを生成する手法を紹介する。
本稿では,解解器性能を著しく向上させる,最先端パラメータチューニングアルゴリズムの導入について詳述する。
論文 参考訳(メタデータ) (2024-01-11T15:02:15Z) - Power-up! What Can Generative Models Do for Human Computation Workflows? [13.484359389266864]
クラウドソーシングの一環としての大規模言語モデル(LLM)の調査は、まだ未調査の領域である。
実証的な観点から、LLMがクラウドソーシングの有効性をどのように改善できるかについては、現時点ではほとんど分かっていない。
論文 参考訳(メタデータ) (2023-07-05T12:35:29Z) - Benchmarking Automated Machine Learning Methods for Price Forecasting
Applications [58.720142291102135]
自動機械学習(AutoML)ソリューションで手作業で作成したMLパイプラインを置換する可能性を示す。
CRISP-DMプロセスに基づいて,手動MLパイプラインを機械学習と非機械学習に分割した。
本稿では、価格予測の産業利用事例として、ドメイン知識とAutoMLを組み合わせることで、ML専門家への依存が弱まることを示す。
論文 参考訳(メタデータ) (2023-04-28T10:27:38Z) - Reasonable Scale Machine Learning with Open-Source Metaflow [2.637746074346334]
既存のツールを再購入しても、現在の生産性の問題は解決しない、と私たちは主張します。
私たちは、データ実践者の生産性を高めるために明示的に設計された、MLプロジェクトのためのオープンソースのフレームワークであるMetaflowを紹介します。
論文 参考訳(メタデータ) (2023-03-21T11:28:09Z) - OmniForce: On Human-Centered, Large Model Empowered and Cloud-Edge
Collaborative AutoML System [85.8338446357469]
我々は人間中心のAutoMLシステムであるOmniForceを紹介した。
我々は、OmniForceがAutoMLシステムを実践し、オープン環境シナリオにおける適応型AIを構築する方法について説明する。
論文 参考訳(メタデータ) (2023-03-01T13:35:22Z) - Learning to Optimize Permutation Flow Shop Scheduling via Graph-based
Imitation Learning [70.65666982566655]
置換フローショップスケジューリング(PFSS)は製造業で広く使われている。
我々は,より安定かつ正確に収束を加速する専門家主導の模倣学習を通じてモデルを訓練することを提案する。
我々のモデルのネットワークパラメータはわずか37%に減少し、エキスパートソリューションに対する我々のモデルの解のギャップは平均6.8%から1.3%に減少する。
論文 参考訳(メタデータ) (2022-10-31T09:46:26Z) - Scanflow: A multi-graph framework for Machine Learning workflow
management, supervision, and debugging [0.0]
本稿では,エンドツーエンドの機械学習ワークフロー管理を支援するコンテナ化指向グラフフレームワークを提案する。
このフレームワークは、コンテナ内でMLを定義してデプロイし、メタデータを追跡し、本番環境での振る舞いを確認し、学習された知識と人為的な知識を使用してモデルを改善する。
論文 参考訳(メタデータ) (2021-11-04T17:01:12Z) - Automatic Componentwise Boosting: An Interpretable AutoML System [1.1709030738577393]
本稿では,高度にスケーラブルなコンポーネントワイドブースティングアルゴリズムを用いて適用可能な,解釈可能な付加モデルを構築するAutoMLシステムを提案する。
我々のシステムは、部分的な効果やペアの相互作用を可視化するなど、簡単なモデル解釈のためのツールを提供する。
解釈可能なモデル空間に制限があるにもかかわらず、我々のシステムは、ほとんどのデータセットにおける予測性能の点で競争力がある。
論文 参考訳(メタデータ) (2021-09-12T18:34:33Z) - Automated Machine Learning Techniques for Data Streams [91.3755431537592]
本稿では、最先端のオープンソースAutoMLツールを調査し、ストリームから収集したデータに適用し、時間とともにパフォーマンスがどのように変化するかを測定する。
この結果から,既製のAutoMLツールで十分な結果が得られることが示されたが,概念ドリフトや検出,適応といった手法が適用されれば,予測精度を時間とともに維持することが可能になる。
論文 参考訳(メタデータ) (2021-06-14T11:42:46Z) - A Survey on Large-scale Machine Learning [67.6997613600942]
機械学習はデータに対する深い洞察を与え、マシンが高品質な予測を行うことを可能にする。
ほとんどの高度な機械学習アプローチは、大規模なデータを扱う場合の膨大な時間コストに悩まされる。
大規模機械学習は、ビッグデータからパターンを、同等のパフォーマンスで効率的に学習することを目的としている。
論文 参考訳(メタデータ) (2020-08-10T06:07:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。