Fugu-MT 論文翻訳(概要): Is Your Training Pipeline Production-Ready? A Case Study in the Healthcare Domain

論文の概要: Is Your Training Pipeline Production-Ready? A Case Study in the Healthcare Domain

arxiv url: http://arxiv.org/abs/2506.06946v1
Date: Sat, 07 Jun 2025 23:00:13 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-10 16:33:10.57937
Title: Is Your Training Pipeline Production-Ready? A Case Study in the Healthcare Domain
Title（参考訳）: トレーニングパイプラインは生産可能か? : 医療領域を事例として
Authors: Daniel Lawand, Lucas Quaresma, Roberto Bolgheroni, Alfredo Goldman, Renato Cordeiro Ferreira,
Abstract要約: SPIRAはML-Enabled System(MLES)を作成し、音声分析によって呼吸不全を診断するプロジェクトである。 SPIRAのトレーニングパイプラインの最初のバージョンでは、重要なソフトウェア品質特性が欠けていた。本稿では,MLESの概要を述べるとともに,継続的トレーニングサブシステムのアーキテクチャの3つのバージョンを比較した。
参考スコア（独自算出の注目度）: 1.7702475609045947
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Deploying a Machine Learning (ML) training pipeline into production requires robust software engineering practices. This differs significantly from experimental workflows. This experience report investigates this challenge in SPIRA, a project whose goal is to create an ML-Enabled System (MLES) to pre-diagnose insufficiency respiratory via speech analysis. The first version of SPIRA's training pipeline lacked critical software quality attributes. This paper presents an overview of the MLES, then compares three versions of the architecture of the Continuous Training subsystem, which evolved from a Big Ball of Mud, to a Modular Monolith, towards Microservices. By adopting different design principles and patterns to enhance its maintainability, robustness, and extensibility. In this way, the paper seeks to offer insights for both ML Engineers tasked to productionize ML training pipelines and Data Scientists seeking to adopt MLOps practices.
Abstract（参考訳）: 機械学習(ML)トレーニングパイプラインを本番環境にデプロイするには、堅牢なソフトウェアエンジニアリングプラクティスが必要です。これは実験的なワークフローとは大きく異なる。本経験報告では, ML-Enabled System (MLES) の構築を目標とするSPIRAにおけるこの課題について, 音声分析による術前呼吸不全を診断するプロジェクトについて検討する。 SPIRAのトレーニングパイプラインの最初のバージョンでは、重要なソフトウェア品質特性が欠けていた。本稿では,MLESの概要を述べるとともに,Mudのビッグボールからモジュラモノリスへと進化した,継続的トレーニングサブシステムのアーキテクチャの3つのバージョンをマイクロサービスに比較する。保守性、堅牢性、拡張性を高めるために、異なる設計原則とパターンを採用する。このようにして、この論文は、MLトレーニングパイプラインの生産を担当するMLエンジニアと、MLOpsプラクティスの採用を目指すデータサイエンティストの両方に、洞察を提供することを目指している。

関連論文リスト

From Prompt to Pipeline: Large Language Models for Scientific Workflow Development in Bioinformatics [2.2160604288512324]
本研究では,現代大規模言語モデル(LLM)が正確な,完全かつ有用なバイオインフォマティクスタスクの生成を支援することができるかどうかを考察する。各種SNP解析、RNA-seq、DNAメチル化、データ検索プラットフォームを用いてこれらのモデルを評価する。その結果,Gemini 2.5 Flash は Galaxy の生成に優れており,DeepSeek-V3 は Nextflow で強く機能していることがわかった。
論文参考訳（メタデータ） (2025-07-27T04:08:11Z)
Leveraging Machine Learning and Enhanced Parallelism Detection for BPMN Model Generation from Text [75.77648333476776]
本稿では、テキストからBPMNモデルを抽出する自動パイプラインについて紹介する。この研究の重要な貢献は、新たに注釈付けされたデータセットの導入である。モデルトレーニング用の32のパラレルゲートウェイを含む15の注釈付き文書でデータセットを増強する。
論文参考訳（メタデータ） (2025-07-11T07:25:55Z)
Evaluating Large Language Models for Real-World Engineering Tasks [75.97299249823972]
本稿では,実運用指向のエンジニアリングシナリオから得られた100以上の質問をキュレートしたデータベースを提案する。このデータセットを用いて、4つの最先端の大規模言語モデル(LLM)を評価する。以上の結果から,LLMは時間的および構造的推論において強みを示すが,抽象的推論や形式的モデリング,文脈に敏感な工学的論理にはかなり苦労することがわかった。
論文参考訳（メタデータ） (2025-05-12T14:05:23Z)
On Domain-Specific Post-Training for Multimodal Large Language Models [72.67107077850939]
本稿では,MLLMのドメイン適応をポストトレーニングにより体系的に検討する。データ合成、トレーニングパイプライン、タスク評価に重点を置いています。バイオメディシン、食品、リモートセンシングなどの高インパクト領域で実験を行う。
論文参考訳（メタデータ） (2024-11-29T18:42:28Z)
Machine Learning Operations: A Mapping Study [0.0]
この記事では、MLOpsパイプラインのいくつかのコンポーネントに存在する問題について論じる。 MLOpsシステムで発生する課題を、異なる焦点領域に分類するために、システマティックマッピング研究が実施されている。この研究の主な価値は、MLOpsの独特な課題と、私たちの研究で概説された推奨された解決策をマッピングすることです。
論文参考訳（メタデータ） (2024-09-28T17:17:40Z)
Instrumentation and Analysis of Native ML Pipelines via Logical Query Plans [3.2362171533623054]
私たちは、データサイエンティストが機械学習パイプラインを開発し、検証し、監視し、分析するのを支援するために、高度に自動化されたソフトウェアプラットフォームを構想しています。一般的なライブラリに依存したMLパイプラインコードから"論理クエリプラン"を抽出する。これらの計画に基づいて、パイプラインのセマンティクスとインスツルメンタを自動で推論し、MLパイプラインを書き換えて、データサイエンティストが手動でアノテートしたり、コードを書き換えたりすることなく、さまざまなユースケースを可能にします。
論文参考訳（メタデータ） (2024-07-10T11:35:02Z)
From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems [59.40480894948944]
大規模言語モデル (LLM) は、物理世界の意思決定問題を解くことができる。このモデルの下で、LLM Plannerは、プロンプトを介して言語ベースのサブゴールを反復的に生成することにより、部分的に観測可能なマルコフ決定プロセス(POMDP)をナビゲートする。我々は,事前学習したLLMプランナーが,文脈内学習を通じてベイズ的集計模倣学習(BAIL)を効果的に行うことを証明した。
論文参考訳（メタデータ） (2024-05-30T09:42:54Z)
From Summary to Action: Enhancing Large Language Models for Complex Tasks with Open World APIs [62.496139001509114]
大規模な現実世界のAPIを制御するために設計された新しいツール呼び出しパイプラインを導入します。このパイプラインは人間のタスク解決プロセスを反映し、複雑な実際のユーザクエリに対処する。 ToolBenchベンチマークにおけるSum2Actパイプラインの実証的な評価は、大幅なパフォーマンス向上を示している。
論文参考訳（メタデータ） (2024-02-28T08:42:23Z)
Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文参考訳（メタデータ） (2024-02-12T18:21:14Z)
MLOps: A Step Forward to Enterprise Machine Learning [0.0]
この研究は、MLOps、そのメリット、困難、進化、および重要な基盤技術に関する詳細なレビューを提示する。 MLOpsワークフローは、モデルとデータ探索とデプロイメントの両方に必要なさまざまなツールとともに、詳細に説明されている。この記事では、さまざまな成熟度の高い自動パイプラインを使用して、MLプロジェクトのエンドツーエンド生産にも光を当てます。
論文参考訳（メタデータ） (2023-05-27T20:44:14Z)
Reasonable Scale Machine Learning with Open-Source Metaflow [2.637746074346334]
既存のツールを再購入しても、現在の生産性の問題は解決しない、と私たちは主張します。私たちは、データ実践者の生産性を高めるために明示的に設計された、MLプロジェクトのためのオープンソースのフレームワークであるMetaflowを紹介します。
論文参考訳（メタデータ） (2023-03-21T11:28:09Z)
Operationalizing Machine Learning: An Interview Study [13.300075655862573]
私たちは18人の機械学習エンジニア(MLE)と半構造化インタビューを行い、多くのアプリケーションで作業しています。私たちのインタビューでは、運用MLデプロイメントの成功を管理する変数として、Velocity、Validation、Versioningの3つを公開しています。 ML実験の成功、デプロイメント、運用パフォーマンスの維持に関する一般的なプラクティスを要約します。
論文参考訳（メタデータ） (2022-09-16T16:59:36Z)
Modeling Quality and Machine Learning Pipelines through Extended Feature Models [0.0]
本稿では,機能モデルメタモデルを適切に拡張した品質MLパイプラインのための新しいエンジニアリング手法を提案する。提案されたアプローチでは、MLパイプライン、その品質要件(パイプライン全体と単一フェーズ)、各パイプラインフェーズを実装するアルゴリズムの品質特性をモデル化することができる。
論文参考訳（メタデータ） (2022-07-15T15:20:28Z)
CodeRL: Mastering Code Generation through Pretrained Models and Deep Reinforcement Learning [92.36705236706678]
CodeRLは、事前訓練されたLMと深層強化学習によるプログラム合成タスクのための新しいフレームワークである。推論中、我々は重要なサンプリング戦略を持つ新しい生成手順を導入する。モデルバックボーンについては,CodeT5のエンコーダデコーダアーキテクチャを拡張し,学習目標を拡張した。
論文参考訳（メタデータ） (2022-07-05T02:42:15Z)
Pushing the Limits of Simple Pipelines for Few-Shot Learning: External Data and Fine-Tuning Make a Difference [74.80730361332711]
コンピュータビジョンにおいて、ほとんどショット学習は重要かつトピック的な問題である。単純なトランスフォーマーベースのパイプラインは、標準ベンチマークで驚くほど優れたパフォーマンスが得られることを示す。
論文参考訳（メタデータ） (2022-04-15T02:55:58Z)
SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文参考訳（メタデータ） (2021-12-22T14:45:37Z)
Machine Learning Pipelines: Provenance, Reproducibility and FAIR Data Principles [0.0]
マシンラーニングパイプラインのエンドツーエンドをサポートするための、私たちの目標と最初のステップについて説明します。ソースコードとデータセットの可用性を超えて、どの要因がML実験に影響を与えるかを検討する。 ML実験にFAIRデータプラクティスを適用する方法を提案する。
論文参考訳（メタデータ） (2020-06-22T10:17:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。