論文の概要: How Do Model Export Formats Impact the Development of ML-Enabled Systems? A Case Study on Model Integration
- arxiv url: http://arxiv.org/abs/2502.00429v1
- Date: Sat, 01 Feb 2025 13:34:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:05:03.310058
- Title: How Do Model Export Formats Impact the Development of ML-Enabled Systems? A Case Study on Model Integration
- Title(参考訳): モデル輸出フォーマットはML対応システムの開発にどのように影響を与えるか? : モデル統合を事例として
- Authors: Shreyas Kumar Parida, Ilias Gerostathopoulos, Justus Bogner,
- Abstract要約: ONNXは、ほとんどのケースで最も効率的な統合とポータビリティを提供する。
SavedModelとTorchScriptはPythonベースのシステムで非常に便利だった。
PickleとJoblibは、Pythonベースのシステムでさえ、最も統合するのが難しかった。
- 参考スコア(独自算出の注目度): 7.715865994986415
- License:
- Abstract: Machine learning (ML) models are often integrated into ML-enabled systems to provide software functionality that would otherwise be impossible. This integration requires the selection of an appropriate ML model export format, for which many options are available. These formats are crucial for ensuring a seamless integration, and choosing a suboptimal one can negatively impact system development. However, little evidence is available to guide practitioners during the export format selection. We therefore evaluated various model export formats regarding their impact on the development of ML-enabled systems from an integration perspective. Based on the results of a preliminary questionnaire survey (n=17), we designed an extensive embedded case study with two ML-enabled systems in three versions with different technologies. We then analyzed the effect of five popular export formats, namely ONNX, Pickle, TensorFlow's SavedModel, PyTorch's TorchScript, and Joblib. In total, we studied 30 units of analysis (2 systems x 3 tech stacks x 5 formats) and collected data via structured field notes. The holistic qualitative analysis of the results indicated that ONNX offered the most efficient integration and portability across most cases. SavedModel and TorchScript were very convenient to use in Python-based systems, but otherwise required workarounds (TorchScript more than SavedModel). SavedModel also allowed the easy incorporation of preprocessing logic into a single file, which made it scalable for complex deep learning use cases. Pickle and Joblib were the most challenging to integrate, even in Python-based systems. Regarding technical support, all model export formats had strong technical documentation and strong community support across platforms such as Stack Overflow and Reddit. Practitioners can use our findings to inform the selection of ML export formats suited to their context.
- Abstract(参考訳): 機械学習(ML)モデルは、しばしばML対応システムに統合され、そうでなければ不可能なソフトウェア機能を提供する。
この統合には、多くのオプションが利用可能な適切なMLモデルのエクスポートフォーマットを選択する必要がある。
これらのフォーマットはシームレスな統合を保証するために不可欠であり、最適以下のフォーマットを選択することは、システム開発に悪影響を及ぼす可能性がある。
しかし、エクスポートフォーマットの選択の間、実践者のガイドとなる証拠はほとんどない。
そこで我々は,ML対応システムの開発における各種モデルエクスポートフォーマットの影響を統合の観点から評価した。
予備調査 (n=17) の結果に基づき, ML対応システム2種類と, 異なる技術を持つ3種類のシステムを用いた広範囲なケーススタディを考案した。
次に、ONNX、Pickle、TensorFlowのSaveedModel、PyTorchのTorchScript、Joblibの5つの人気のあるエクスポートフォーマットの効果を分析した。
本研究では,30単位の分析単位(システム x 3 技術スタック x 5 フォーマット)と,構造化フィールドノートによるデータ収集について検討した。
結果の全体的質的分析から、ONNXはほとんどのケースにおいて最も効率的な統合性とポータビリティを提供していたことが示唆された。
SavedModelとTorchScriptはPythonベースのシステムで非常に便利だったが、そうでなければ回避策を必要とした(SavedModelよりTorchScriptの方が優れている)。
SavedModelはまた、ロジックを単一のファイルに簡単に組み込むことができ、複雑なディープラーニングのユースケースにスケーラブルになった。
PickleとJoblibは、Pythonベースのシステムでさえ、最も統合するのが難しかった。
技術的なサポートについては、すべてのモデルエクスポートフォーマットが、Stack OverflowやRedditといったプラットフォーム間で強力な技術ドキュメントと強力なコミュニティサポートを持っていた。
実践者は、自分たちの状況に合ったMLエクスポートフォーマットの選択を通知するために、私たちの発見を利用することができます。
関連論文リスト
- SWE-Fixer: Training Open-Source LLMs for Effective and Efficient GitHub Issue Resolution [56.9361004704428]
大規模言語モデル(LLM)は、様々な複雑なタスクにまたがる顕著な習熟度を示している。
SWE-Fixerは、GitHubの問題を効果的かつ効率的に解決するために設計された、新しいオープンソースフレームワークである。
我々は,SWE-Bench LiteとVerifiedベンチマークに対するアプローチを評価し,オープンソースモデル間の最先端性能を実現する。
論文 参考訳(メタデータ) (2025-01-09T07:54:24Z) - PyMilo: A Python Library for ML I/O [0.0]
PyMiloは、透過的な非実行可能なフォーマットでMLモデルをシリアライズし、簡単で安全なモデル交換を可能にする。
このパッケージは、トレーニング済みのMLモデルのエクスポートとインポートのためのシームレスでエンドツーエンドのソリューションを提供することを目的としている。
論文 参考訳(メタデータ) (2024-12-31T16:27:46Z) - Mixture-Models: a one-stop Python Library for Model-based Clustering
using various Mixture Models [4.60168321737677]
textttMixture-Modelsは、Gaussian Mixture Models(GMM)とその変種を適合させるオープンソースのPythonライブラリである。
様々な第1/第2次最適化ルーチンを使用して、これらのモデルの実装と分析を合理化する。
このライブラリは、BIC、AIC、ログライクな推定など、ユーザフレンドリーなモデル評価ツールを提供する。
論文 参考訳(メタデータ) (2024-02-08T19:34:24Z) - ESPnet-SPK: full pipeline speaker embedding toolkit with reproducible recipes, self-supervised front-ends, and off-the-shelf models [51.35570730554632]
ESPnet-SPKは、話者埋め込み抽出器を訓練するためのツールキットである。
我々は、x-vectorから最近のSKA-TDNNまで、いくつかのモデルを提供している。
開発モデルと他のドメインとの橋渡しも目指しています。
論文 参考訳(メタデータ) (2024-01-30T18:18:27Z) - AutoMix: Automatically Mixing Language Models [62.51238143437967]
大規模言語モデル(LLM)は、さまざまなサイズと構成のクラウドAPIプロバイダから利用可能になった。
より小さなLMからの出力の近似精度に基づいて,クエリを大規模LMに戦略的にルーティングする手法であるAutomixを提案する。
論文 参考訳(メタデータ) (2023-10-19T17:57:39Z) - Macaw-LLM: Multi-Modal Language Modeling with Image, Audio, Video, and
Text Integration [50.94902442781148]
視覚情報,音声情報,テキスト情報をシームレスに統合する新しい多モード大言語モデル(LLM)を提案する。
Macaw-LLMは、マルチモーダルデータを符号化するモダリティモジュール、事前訓練されたLLMを利用する認知モジュール、多様な表現を調和させるアライメントモジュールの3つの主要コンポーネントから構成される。
我々は,69K画像インスタンスと50Kビデオインスタンスを含む,大規模なマルチモーダル・インストラクション・データセットを構築した。
論文 参考訳(メタデータ) (2023-06-15T12:45:25Z) - PiML Toolbox for Interpretable Machine Learning Model Development and
Diagnostics [10.635578367440162]
PiMLは、機械学習モデルの開発とモデル診断を解釈可能なPythonツールボックスである。
ローコードモードとハイコードモードの両方で、データパイプライン、モデルのトレーニングとチューニング、モデルの解釈と説明を含む機械学習で設計されている。
論文 参考訳(メタデータ) (2023-05-07T08:19:07Z) - DIETERpy: a Python framework for The Dispatch and Investment Evaluation
Tool with Endogenous Renewables [62.997667081978825]
DIETERはオープンソースの電力セクターモデルであり、可変再生可能エネルギー源の非常に高いシェアで将来の設定を分析するように設計されている。
システム全体のコストを最小化し、様々な世代の固定および可変コスト、柔軟性、セクター結合オプションを含む。
我々は、GAMS(General Algebraic Modeling System)で記述された既存のモデルバージョンの上に構築されたDIETERpyを紹介し、それをPythonフレームワークで強化する。
論文 参考訳(メタデータ) (2020-10-02T09:27:33Z) - MLModelCI: An Automatic Cloud Platform for Efficient MLaaS [15.029094196394862]
当社はこのプラットフォームを,Apache 2.0ライセンス下でGitHub上でオープンソースプロジェクトとしてリリースしています。
私たちのシステムは、現在のMLトレーニングとサービスシステムのギャップを埋めます。
論文 参考訳(メタデータ) (2020-06-09T07:48:20Z) - CodeReef: an open platform for portable MLOps, reusable automation
actions and reproducible benchmarking [0.2148535041822524]
CodeReef - クロスプラットフォームMLOps(MLSysOps)を実現するために必要なすべてのコンポーネントを共有するオープンプラットフォームを提供する。
CodeReefソリューションも導入しています – 非仮想化、ポータブル、カスタマイズ可能なアーカイブファイルとしてモデルをパッケージ化し、共有する手段です。
論文 参考訳(メタデータ) (2020-01-22T09:52:51Z) - Multi-layer Optimizations for End-to-End Data Analytics [71.05611866288196]
代替アプローチを実現するフレームワークであるIFAQ(Iterative Functional Aggregate Queries)を紹介する。
IFAQは、特徴抽出クエリと学習タスクを、IFAQのドメイン固有言語で与えられた1つのプログラムとして扱う。
IFAQ の Scala 実装が mlpack,Scikit,特殊化を数桁で上回り,線形回帰木モデルや回帰木モデルを複数の関係データセット上で処理可能であることを示す。
論文 参考訳(メタデータ) (2020-01-10T16:14:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。