論文の概要: Operationalizing Machine Learning: An Interview Study
- arxiv url: http://arxiv.org/abs/2209.09125v1
- Date: Fri, 16 Sep 2022 16:59:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 20:23:52.423174
- Title: Operationalizing Machine Learning: An Interview Study
- Title(参考訳): 機械学習の運用:インタビュー研究
- Authors: Shreya Shankar, Rolando Garcia, Joseph M. Hellerstein, Aditya G.
Parameswaran
- Abstract要約: 私たちは18人の機械学習エンジニア(MLE)と半構造化インタビューを行い、多くのアプリケーションで作業しています。
私たちのインタビューでは、運用MLデプロイメントの成功を管理する変数として、Velocity、Validation、Versioningの3つを公開しています。
ML実験の成功、デプロイメント、運用パフォーマンスの維持に関する一般的なプラクティスを要約します。
- 参考スコア(独自算出の注目度): 13.300075655862573
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Organizations rely on machine learning engineers (MLEs) to operationalize ML,
i.e., deploy and maintain ML pipelines in production. The process of
operationalizing ML, or MLOps, consists of a continual loop of (i) data
collection and labeling, (ii) experimentation to improve ML performance, (iii)
evaluation throughout a multi-staged deployment process, and (iv) monitoring of
performance drops in production. When considered together, these
responsibilities seem staggering -- how does anyone do MLOps, what are the
unaddressed challenges, and what are the implications for tool builders?
We conducted semi-structured ethnographic interviews with 18 MLEs working
across many applications, including chatbots, autonomous vehicles, and finance.
Our interviews expose three variables that govern success for a production ML
deployment: Velocity, Validation, and Versioning. We summarize common practices
for successful ML experimentation, deployment, and sustaining production
performance. Finally, we discuss interviewees' pain points and anti-patterns,
with implications for tool design.
- Abstract(参考訳): 組織はMLを運用するために機械学習エンジニア(MLE)に依存している。
mlまたはmlopsを運用する過程は、連続したループからなる
i) データ収集とラベル付け
(ii)ml性能を向上させるための実験
(iii)多段階展開プロセス全体の評価、及び
(4)プロダクションにおけるパフォーマンス低下のモニタリング。
まとめて考えると、これらの責任は停滞しているように思える -- MLOpsをどのようにやるのか、未解決の課題は何なのか、ツールビルダーにどのような影響があるのか?
チャットボット,自律走行車,金融など,さまざまなアプリケーションにまたがる18人のMLEを対象に,半構造化エスノグラフィーインタビューを行った。
私たちのインタビューでは、運用MLデプロイメントの成功を管理する変数として、Velocity、Validation、Versioningの3つを公開しています。
ML実験の成功、デプロイメント、運用パフォーマンスの維持に関する一般的なプラクティスを要約します。
最後に, 面接者の痛点とアンチパターン, ツールデザインとの関連について考察する。
関連論文リスト
- From Summary to Action: Enhancing Large Language Models for Complex
Tasks with Open World APIs [62.496139001509114]
大規模な現実世界のAPIを制御するために設計された新しいツール呼び出しパイプラインを導入します。
このパイプラインは人間のタスク解決プロセスを反映し、複雑な実際のユーザクエリに対処する。
ToolBenchベンチマークにおけるSum2Actパイプラインの実証的な評価は、大幅なパフォーマンス向上を示している。
論文 参考訳(メタデータ) (2024-02-28T08:42:23Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - TaskBench: Benchmarking Large Language Models for Task Automation [85.3879908356586]
タスク自動化における大規模言語モデルの能力を評価するためにTaskBenchを導入します。
高品質な評価データセットを生成するために,ツールグラフの概念を導入する。
また,タスク分解,ツールの実行,パラメータ予測など,さまざまな側面からLCMの能力を評価するためのTaskEvalを提案する。
論文 参考訳(メタデータ) (2023-11-30T18:02:44Z) - Benchmarking Large Language Models As AI Research Agents [105.65277755304277]
我々は,AI研究エージェントをベンチマークするMLタスクスイートであるMLAgentBenchを提案する。
我々は, GPT-4をベースとした研究エージェントが, MLAgentBenchの多くのタスクにおいて, 魅力的なMLモデルを構築できることを発見した。
長期計画や幻覚など,LSMをベースとした研究エージェントにとって重要な課題をいくつか挙げる。
論文 参考訳(メタデータ) (2023-10-05T04:06:12Z) - MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language
Models [75.85429963948769]
最初の総合的MLLM評価ベンチマークMMEを示す。
知覚能力と認知能力の両方を合計14のサブタスクで測定する。
総計30個のMLLMをMMEで総合的に評価した。
論文 参考訳(メタデータ) (2023-06-23T09:22:36Z) - Reasonable Scale Machine Learning with Open-Source Metaflow [2.637746074346334]
既存のツールを再購入しても、現在の生産性の問題は解決しない、と私たちは主張します。
私たちは、データ実践者の生産性を高めるために明示的に設計された、MLプロジェクトのためのオープンソースのフレームワークであるMetaflowを紹介します。
論文 参考訳(メタデータ) (2023-03-21T11:28:09Z) - ICL-D3IE: In-Context Learning with Diverse Demonstrations Updating for
Document Information Extraction [56.790794611002106]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて、文脈内学習による顕著な結果を示している。
ICL-D3IEと呼ばれるシンプルだが効果的なテキスト内学習フレームワークを提案する。
具体的には、ハードトレーニング文書から最も困難で独特なセグメントをハードデモとして抽出する。
論文 参考訳(メタデータ) (2023-03-09T06:24:50Z) - Machine Learning for Software Engineering: A Tertiary Study [13.832268599253412]
機械学習(ML)技術は、ソフトウェアエンジニアリング(SE)ライフサイクルアクティビティの有効性を高める。
2009~2022年に発行されたML for SEで, 体系的, 品質評価, 要約, 分類を行い, 初等研究6,117件について検討した。
MLに最も取り組まれているSE領域は、ソフトウェアの品質とテストである。
論文 参考訳(メタデータ) (2022-11-17T09:19:53Z) - Machine Learning Operations (MLOps): Overview, Definition, and
Architecture [0.0]
機械学習オペレーション(MLOps)のパラダイムは、この問題に対処する。
MLOpsはいまだ曖昧な用語であり、研究者や専門家にとっての結果は曖昧である。
必要なコンポーネントや役割、関連するアーキテクチャや原則をまとめて紹介します。
論文 参考訳(メタデータ) (2022-05-04T19:38:48Z) - Characterizing and Detecting Mismatch in Machine-Learning-Enabled
Systems [1.4695979686066065]
機械学習システムの開発と展開は依然として課題だ。
本論文では,エンドツーエンドのML対応システム開発における知見とその意義について報告する。
論文 参考訳(メタデータ) (2021-03-25T19:40:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。