Fugu-MT 論文翻訳(概要): How Do Model Export Formats Impact the Development of ML-Enabled Systems? A Case Study on Model Integration

論文の概要: How Do Model Export Formats Impact the Development of ML-Enabled Systems? A Case Study on Model Integration

arxiv url: http://arxiv.org/abs/2502.00429v1
Date: Sat, 01 Feb 2025 13:34:40 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-05 15:21:53.846352
Title: How Do Model Export Formats Impact the Development of ML-Enabled Systems? A Case Study on Model Integration
Title（参考訳）: モデル輸出フォーマットはML対応システムの開発にどのように影響を与えるか? : モデル統合を事例として
Authors: Shreyas Kumar Parida, Ilias Gerostathopoulos, Justus Bogner,
Abstract要約: ONNXは、ほとんどのケースで最も効率的な統合とポータビリティを提供する。 SavedModelとTorchScriptはPythonベースのシステムで非常に便利だった。 PickleとJoblibは、Pythonベースのシステムでさえ、最も統合するのが難しかった。
参考スコア（独自算出の注目度）: 7.715865994986415
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Machine learning (ML) models are often integrated into ML-enabled systems to provide software functionality that would otherwise be impossible. This integration requires the selection of an appropriate ML model export format, for which many options are available. These formats are crucial for ensuring a seamless integration, and choosing a suboptimal one can negatively impact system development. However, little evidence is available to guide practitioners during the export format selection. We therefore evaluated various model export formats regarding their impact on the development of ML-enabled systems from an integration perspective. Based on the results of a preliminary questionnaire survey (n=17), we designed an extensive embedded case study with two ML-enabled systems in three versions with different technologies. We then analyzed the effect of five popular export formats, namely ONNX, Pickle, TensorFlow's SavedModel, PyTorch's TorchScript, and Joblib. In total, we studied 30 units of analysis (2 systems x 3 tech stacks x 5 formats) and collected data via structured field notes. The holistic qualitative analysis of the results indicated that ONNX offered the most efficient integration and portability across most cases. SavedModel and TorchScript were very convenient to use in Python-based systems, but otherwise required workarounds (TorchScript more than SavedModel). SavedModel also allowed the easy incorporation of preprocessing logic into a single file, which made it scalable for complex deep learning use cases. Pickle and Joblib were the most challenging to integrate, even in Python-based systems. Regarding technical support, all model export formats had strong technical documentation and strong community support across platforms such as Stack Overflow and Reddit. Practitioners can use our findings to inform the selection of ML export formats suited to their context.
Abstract（参考訳）: 機械学習(ML)モデルは、しばしばML対応システムに統合され、そうでなければ不可能なソフトウェア機能を提供する。この統合には、多くのオプションが利用可能な適切なMLモデルのエクスポートフォーマットを選択する必要がある。これらのフォーマットはシームレスな統合を保証するために不可欠であり、最適以下のフォーマットを選択することは、システム開発に悪影響を及ぼす可能性がある。しかし、エクスポートフォーマットの選択の間、実践者のガイドとなる証拠はほとんどない。そこで我々は,ML対応システムの開発における各種モデルエクスポートフォーマットの影響を統合の観点から評価した。予備調査 (n=17) の結果に基づき, ML対応システム2種類と, 異なる技術を持つ3種類のシステムを用いた広範囲なケーススタディを考案した。次に、ONNX、Pickle、TensorFlowのSaveedModel、PyTorchのTorchScript、Joblibの5つの人気のあるエクスポートフォーマットの効果を分析した。本研究では,30単位の分析単位(システム x 3 技術スタック x 5 フォーマット)と,構造化フィールドノートによるデータ収集について検討した。結果の全体的質的分析から、ONNXはほとんどのケースにおいて最も効率的な統合性とポータビリティを提供していたことが示唆された。 SavedModelとTorchScriptはPythonベースのシステムで非常に便利だったが、そうでなければ回避策を必要とした(SavedModelよりTorchScriptの方が優れている)。 SavedModelはまた、ロジックを単一のファイルに簡単に組み込むことができ、複雑なディープラーニングのユースケースにスケーラブルになった。 PickleとJoblibは、Pythonベースのシステムでさえ、最も統合するのが難しかった。技術的なサポートについては、すべてのモデルエクスポートフォーマットが、Stack OverflowやRedditといったプラットフォーム間で強力な技術ドキュメントと強力なコミュニティサポートを持っていた。実践者は、自分たちの状況に合ったMLエクスポートフォーマットの選択を通知するために、私たちの発見を利用することができます。

関連論文リスト

Unifying Multimodal Large Language Model Capabilities and Modalities via Model Merging [103.98582374569789]
モデルマージは、複数のエキスパートモデルを単一のモデルにまとめることを目的としており、ストレージとサービスコストを削減している。これまでの研究は主に、コードと数学のタスクに視覚分類モデルやLLM(Large Language Models)を統合することに焦点を当ててきた。本稿では,VQA,Geometry,Chart,OCR,Gundingといった複数のタスクを含むMLLMのモデルマージベンチマークを紹介する。
論文参考訳（メタデータ） (2025-05-26T12:23:14Z)
SWE-Fixer: Training Open-Source LLMs for Effective and Efficient GitHub Issue Resolution [56.9361004704428]
大規模言語モデル(LLM)は、様々な複雑なタスクにまたがる顕著な習熟度を示している。 SWE-Fixerは、GitHubの問題を効果的かつ効率的に解決するために設計された、新しいオープンソースフレームワークである。我々は,SWE-Bench LiteとVerifiedベンチマークに対するアプローチを評価し,オープンソースモデル間の最先端性能を実現する。
論文参考訳（メタデータ） (2025-01-09T07:54:24Z)
PyMilo: A Python Library for ML I/O [0.0]
PyMiloは、透過的な非実行可能なフォーマットでMLモデルをシリアライズし、簡単で安全なモデル交換を可能にする。このパッケージは、トレーニング済みのMLモデルのエクスポートとインポートのためのシームレスでエンドツーエンドのソリューションを提供することを目的としている。
論文参考訳（メタデータ） (2024-12-31T16:27:46Z)
UltraEval: A Lightweight Platform for Flexible and Comprehensive Evaluation for LLMs [74.1976921342982]
本稿では,ユーザフレンドリな評価フレームワークであるUltraEvalを紹介し,その軽量性,包括性,モジュール性,効率性を特徴とする。その結果のコンポーザビリティにより、統一された評価ワークフロー内で、さまざまなモデル、タスク、プロンプト、ベンチマーク、メトリクスを自由に組み合わせることができる。
論文参考訳（メタデータ） (2024-04-11T09:17:12Z)
pyvene: A Library for Understanding and Improving PyTorch Models via Interventions [79.72930339711478]
$textbfpyvene$は、さまざまなPyTorchモジュールに対するカスタマイズ可能な介入をサポートするオープンソースライブラリである。私たちは、$textbfpyvene$が、ニューラルモデルへの介入を実行し、他のモデルとインターバルされたモデルを共有するための統一されたフレームワークを提供する方法を示します。
論文参考訳（メタデータ） (2024-03-12T16:46:54Z)
Mixture-Models: a one-stop Python Library for Model-based Clustering using various Mixture Models [4.60168321737677]
textttMixture-Modelsは、Gaussian Mixture Models(GMM)とその変種を適合させるオープンソースのPythonライブラリである。様々な第1/第2次最適化ルーチンを使用して、これらのモデルの実装と分析を合理化する。このライブラリは、BIC、AIC、ログライクな推定など、ユーザフレンドリーなモデル評価ツールを提供する。
論文参考訳（メタデータ） (2024-02-08T19:34:24Z)
ESPnet-SPK: full pipeline speaker embedding toolkit with reproducible recipes, self-supervised front-ends, and off-the-shelf models [51.35570730554632]
ESPnet-SPKは、話者埋め込み抽出器を訓練するためのツールキットである。我々は、x-vectorから最近のSKA-TDNNまで、いくつかのモデルを提供している。開発モデルと他のドメインとの橋渡しも目指しています。
論文参考訳（メタデータ） (2024-01-30T18:18:27Z)
ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。 LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文参考訳（メタデータ） (2023-11-16T12:03:21Z)
AutoMix: Automatically Mixing Language Models [62.51238143437967]
大規模言語モデル(LLM)は、さまざまなサイズと構成のクラウドAPIプロバイダから利用可能になった。より小さなLMからの出力の近似精度に基づいて,クエリを大規模LMに戦略的にルーティングする手法であるAutomixを提案する。
論文参考訳（メタデータ） (2023-10-19T17:57:39Z)
Macaw-LLM: Multi-Modal Language Modeling with Image, Audio, Video, and Text Integration [50.94902442781148]
視覚情報,音声情報,テキスト情報をシームレスに統合する新しい多モード大言語モデル(LLM)を提案する。 Macaw-LLMは、マルチモーダルデータを符号化するモダリティモジュール、事前訓練されたLLMを利用する認知モジュール、多様な表現を調和させるアライメントモジュールの3つの主要コンポーネントから構成される。我々は,69K画像インスタンスと50Kビデオインスタンスを含む,大規模なマルチモーダル・インストラクション・データセットを構築した。
論文参考訳（メタデータ） (2023-06-15T12:45:25Z)
PiML Toolbox for Interpretable Machine Learning Model Development and Diagnostics [10.635578367440162]
PiMLは、機械学習モデルの開発とモデル診断を解釈可能なPythonツールボックスである。ローコードモードとハイコードモードの両方で、データパイプライン、モデルのトレーニングとチューニング、モデルの解釈と説明を含む機械学習で設計されている。
論文参考訳（メタデータ） (2023-05-07T08:19:07Z)
DIETERpy: a Python framework for The Dispatch and Investment Evaluation Tool with Endogenous Renewables [62.997667081978825]
DIETERはオープンソースの電力セクターモデルであり、可変再生可能エネルギー源の非常に高いシェアで将来の設定を分析するように設計されている。システム全体のコストを最小化し、様々な世代の固定および可変コスト、柔軟性、セクター結合オプションを含む。我々は、GAMS(General Algebraic Modeling System)で記述された既存のモデルバージョンの上に構築されたDIETERpyを紹介し、それをPythonフレームワークで強化する。
論文参考訳（メタデータ） (2020-10-02T09:27:33Z)
MLModelCI: An Automatic Cloud Platform for Efficient MLaaS [15.029094196394862]
当社はこのプラットフォームを,Apache 2.0ライセンス下でGitHub上でオープンソースプロジェクトとしてリリースしています。私たちのシステムは、現在のMLトレーニングとサービスシステムのギャップを埋めます。
論文参考訳（メタデータ） (2020-06-09T07:48:20Z)
CodeReef: an open platform for portable MLOps, reusable automation actions and reproducible benchmarking [0.2148535041822524]
CodeReef - クロスプラットフォームMLOps(MLSysOps)を実現するために必要なすべてのコンポーネントを共有するオープンプラットフォームを提供する。 CodeReefソリューションも導入しています – 非仮想化、ポータブル、カスタマイズ可能なアーカイブファイルとしてモデルをパッケージ化し、共有する手段です。
論文参考訳（メタデータ） (2020-01-22T09:52:51Z)
Multi-layer Optimizations for End-to-End Data Analytics [71.05611866288196]
代替アプローチを実現するフレームワークであるIFAQ(Iterative Functional Aggregate Queries)を紹介する。 IFAQは、特徴抽出クエリと学習タスクを、IFAQのドメイン固有言語で与えられた1つのプログラムとして扱う。 IFAQ の Scala 実装が mlpack,Scikit,特殊化を数桁で上回り,線形回帰木モデルや回帰木モデルを複数の関係データセット上で処理可能であることを示す。
論文参考訳（メタデータ） (2020-01-10T16:14:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。