論文の概要: Modeling Quality and Machine Learning Pipelines through Extended Feature
Models
- arxiv url: http://arxiv.org/abs/2207.07528v1
- Date: Fri, 15 Jul 2022 15:20:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-18 16:50:11.448860
- Title: Modeling Quality and Machine Learning Pipelines through Extended Feature
Models
- Title(参考訳): 拡張特徴モデルによる品質と機械学習パイプラインのモデリング
- Authors: Giordano d'Aloisio, Antinisca Di Marco and Giovanni Stilo (University
of L'Aquila)
- Abstract要約: 本稿では,機能モデルメタモデルを適切に拡張した品質MLパイプラインのための新しいエンジニアリング手法を提案する。
提案されたアプローチでは、MLパイプライン、その品質要件(パイプライン全体と単一フェーズ)、各パイプラインフェーズを実装するアルゴリズムの品質特性をモデル化することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recently increased complexity of Machine Learning (ML) methods, led to
the necessity to lighten both the research and industry development processes.
ML pipelines have become an essential tool for experts of many domains, data
scientists and researchers, allowing them to easily put together several ML
models to cover the full analytic process starting from raw datasets. Over the
years, several solutions have been proposed to automate the building of ML
pipelines, most of them focused on semantic aspects and characteristics of the
input dataset. However, an approach taking into account the new quality
concerns needed by ML systems (like fairness, interpretability, privacy, etc.)
is still missing. In this paper, we first identify, from the literature, key
quality attributes of ML systems. Further, we propose a new engineering
approach for quality ML pipeline by properly extending the Feature Models
meta-model. The presented approach allows to model ML pipelines, their quality
requirements (on the whole pipeline and on single phases), and quality
characteristics of algorithms used to implement each pipeline phase. Finally,
we demonstrate the expressiveness of our model considering the classification
problem.
- Abstract(参考訳): 近年、機械学習(ml)手法の複雑さが高まり、研究プロセスと産業開発プロセスの両方を軽量化する必要性が高まった。
MLパイプラインは、多くのドメイン、データサイエンティスト、研究者の専門家にとって不可欠なツールとなり、生のデータセットから始まる完全な分析プロセスをカバーするために、いくつかのMLモデルを簡単に組み立てることが可能になった。
長年にわたり、MLパイプラインの構築を自動化するいくつかのソリューションが提案され、その多くは入力データセットのセマンティックな側面と特性に焦点を当てている。
しかし、MLシステムに必要な新しい品質上の懸念(公平性、解釈可能性、プライバシなど)を考慮しているアプローチはまだ欠けている。
本稿では,文献からMLシステムのキー品質特性を最初に同定する。
さらに,機能モデルメタモデルを適切に拡張した品質MLパイプラインの新たなエンジニアリング手法を提案する。
提案されたアプローチでは、MLパイプライン、その品質要件(パイプライン全体と単一フェーズ)、各パイプラインフェーズを実装するアルゴリズムの品質特性をモデル化することができる。
最後に,分類問題を考慮したモデルの表現性を示す。
関連論文リスト
- AutoML-Agent: A Multi-Agent LLM Framework for Full-Pipeline AutoML [56.565200973244146]
自動機械学習(Automated Machine Learning, ML)は、開発パイプライン内のタスクを自動化することによって、AI開発を加速する。
近年の作業では,そのような負担を軽減するために,大規模言語モデル(LLM)の利用が始まっている。
本稿では,フルパイプのAutoMLに適した新しいマルチエージェントフレームワークであるAutoML-Agentを提案する。
論文 参考訳(メタデータ) (2024-10-03T20:01:09Z) - SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - EDALearn: A Comprehensive RTL-to-Signoff EDA Benchmark for Democratized
and Reproducible ML for EDA Research [5.093676641214663]
我々はEDALearnを紹介した。EDALearnは、EDAの機械学習タスクに特化した、最初の包括的なオープンソースベンチマークスイートである。
このベンチマークスイートは、合成から物理実装までのエンドツーエンドのフローを示し、さまざまなステージにわたるデータ収集を強化する。
私たちの貢献はML-EDAドメインのさらなる進歩を促進することを目的としています。
論文 参考訳(メタデータ) (2023-12-04T06:51:46Z) - Benchmarking Automated Machine Learning Methods for Price Forecasting
Applications [58.720142291102135]
自動機械学習(AutoML)ソリューションで手作業で作成したMLパイプラインを置換する可能性を示す。
CRISP-DMプロセスに基づいて,手動MLパイプラインを機械学習と非機械学習に分割した。
本稿では、価格予測の産業利用事例として、ドメイン知識とAutoMLを組み合わせることで、ML専門家への依存が弱まることを示す。
論文 参考訳(メタデータ) (2023-04-28T10:27:38Z) - OmniForce: On Human-Centered, Large Model Empowered and Cloud-Edge
Collaborative AutoML System [85.8338446357469]
我々は人間中心のAutoMLシステムであるOmniForceを紹介した。
我々は、OmniForceがAutoMLシステムを実践し、オープン環境シナリオにおける適応型AIを構築する方法について説明する。
論文 参考訳(メタデータ) (2023-03-01T13:35:22Z) - DiffML: End-to-end Differentiable ML Pipelines [12.869023436690894]
DiffMLは、MLモデル自体だけでなく、パイプライン全体の共同トレーニングを可能にする。
私たちの中核的な考え方は、すべてのパイプラインステップを微分可能な方法で定式化することです。
これは自明な問題であり、多くの新しい研究課題を提起する。
論文 参考訳(メタデータ) (2022-07-04T09:03:02Z) - Data Debugging with Shapley Importance over End-to-End Machine Learning
Pipelines [27.461398584509755]
DataScopeは、エンドツーエンドの機械学習パイプライン上でトレーニング例のShapley値を効率的に計算する最初のシステムである。
以上の結果から,DataScopeは最先端のモンテカルロ法よりも最大4桁高速であることがわかった。
論文 参考訳(メタデータ) (2022-04-23T19:29:23Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - Production Machine Learning Pipelines: Empirical Analysis and
Optimization Opportunities [5.510431861706128]
Google の 3000 の生産 ML パイプラインの実績グラフを分析し、トレーニングされた 450,000 モデルで構成され、4 ヶ月以上の期間にわたって。
分析の結果,様々な粒度の産業用MLパイプラインの特徴,構成要素,およびトポロジが明らかになった。
従来のデータ管理のアイデアを活用して、最適化のための豊富な機会を特定します。
論文 参考訳(メタデータ) (2021-03-30T00:46:29Z) - A Rigorous Machine Learning Analysis Pipeline for Biomedical Binary
Classification: Application in Pancreatic Cancer Nested Case-control Studies
with Implications for Bias Assessments [2.9726886415710276]
バイナリ分類にフォーカスした、厳格で厳格なML分析パイプラインをレイアウトし、組み立てました。
この'自動'だがカスタマイズ可能なパイプラインは、a)探索分析、b)データのクリーニングと変換、c)特徴選択、d)9つの確立されたMLアルゴリズムによるモデルトレーニングを含む。
本パイプラインは,癌に対する確立された,新たに同定されたリスクファクターの疫学的検討に適用し,MLアルゴリズムによって異なるバイアス源がどのように扱われるかを評価する。
論文 参考訳(メタデータ) (2020-08-28T19:58:05Z) - A Survey on Large-scale Machine Learning [67.6997613600942]
機械学習はデータに対する深い洞察を与え、マシンが高品質な予測を行うことを可能にする。
ほとんどの高度な機械学習アプローチは、大規模なデータを扱う場合の膨大な時間コストに悩まされる。
大規模機械学習は、ビッグデータからパターンを、同等のパフォーマンスで効率的に学習することを目的としている。
論文 参考訳(メタデータ) (2020-08-10T06:07:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。