Fugu-MT 論文翻訳(概要): Operationalizing Machine Learning: An Interview Study

論文の概要: Operationalizing Machine Learning: An Interview Study

arxiv url: http://arxiv.org/abs/2209.09125v1
Date: Fri, 16 Sep 2022 16:59:36 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-20 20:23:52.423174
Title: Operationalizing Machine Learning: An Interview Study
Title（参考訳）: 機械学習の運用:インタビュー研究
Authors: Shreya Shankar, Rolando Garcia, Joseph M. Hellerstein, Aditya G. Parameswaran
Abstract要約: 私たちは18人の機械学習エンジニア(MLE)と半構造化インタビューを行い、多くのアプリケーションで作業しています。私たちのインタビューでは、運用MLデプロイメントの成功を管理する変数として、Velocity、Validation、Versioningの3つを公開しています。 ML実験の成功、デプロイメント、運用パフォーマンスの維持に関する一般的なプラクティスを要約します。
参考スコア（独自算出の注目度）: 13.300075655862573
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Organizations rely on machine learning engineers (MLEs) to operationalize ML, i.e., deploy and maintain ML pipelines in production. The process of operationalizing ML, or MLOps, consists of a continual loop of (i) data collection and labeling, (ii) experimentation to improve ML performance, (iii) evaluation throughout a multi-staged deployment process, and (iv) monitoring of performance drops in production. When considered together, these responsibilities seem staggering -- how does anyone do MLOps, what are the unaddressed challenges, and what are the implications for tool builders? We conducted semi-structured ethnographic interviews with 18 MLEs working across many applications, including chatbots, autonomous vehicles, and finance. Our interviews expose three variables that govern success for a production ML deployment: Velocity, Validation, and Versioning. We summarize common practices for successful ML experimentation, deployment, and sustaining production performance. Finally, we discuss interviewees' pain points and anti-patterns, with implications for tool design.
Abstract（参考訳）: 組織はMLを運用するために機械学習エンジニア(MLE)に依存している。 mlまたはmlopsを運用する過程は、連続したループからなる i) データ収集とラベル付け (ii)ml性能を向上させるための実験 (iii)多段階展開プロセス全体の評価、及び (4)プロダクションにおけるパフォーマンス低下のモニタリング。まとめて考えると、これらの責任は停滞しているように思える -- MLOpsをどのようにやるのか、未解決の課題は何なのか、ツールビルダーにどのような影響があるのか? チャットボット,自律走行車,金融など,さまざまなアプリケーションにまたがる18人のMLEを対象に,半構造化エスノグラフィーインタビューを行った。私たちのインタビューでは、運用MLデプロイメントの成功を管理する変数として、Velocity、Validation、Versioningの3つを公開しています。 ML実験の成功、デプロイメント、運用パフォーマンスの維持に関する一般的なプラクティスを要約します。最後に, 面接者の痛点とアンチパターン, ツールデザインとの関連について考察する。

関連論文リスト

ML-Dev-Bench: Comparative Analysis of AI Agents on ML development workflows [1.3654846342364308]
本稿ではML-Dev-Benchについて述べる。ML-Dev-Benchは機械学習開発タスクにおけるエージェント機能のテストを目的としたベンチマークである。我々は、30のタスクの多様なセットでReAct、Openhands、AIDEの3つのエージェントを評価します。コミュニティの利益のためのベンチマークをオープンソースにしています。
論文参考訳（メタデータ） (2025-02-03T00:04:49Z)
EmbodiedEval: Evaluate Multimodal LLMs as Embodied Agents [57.4686961979566]
EmbodiedEvalは、組み込みタスクを持つMLLMの総合的かつインタラクティブな評価ベンチマークである。多様性が大幅に向上した既存のAIタスクの幅広い範囲をカバーする。 EmbodiedEval における最先端MLLM の評価を行い,人体作業における人体レベルと比較して有意に不足していることがわかった。
論文参考訳（メタデータ） (2025-01-21T03:22:10Z)
Large Language Models for Constructing and Optimizing Machine Learning Workflows: A Survey [3.340984908213717]
複雑なタスクに対処するための効果的な機械学習(ML)を構築することは、Automatic ML(AutoML)コミュニティの主要な焦点である。最近、MLへのLLM(Large Language Models)の統合は、MLパイプラインのさまざまなステージを自動化し、拡張する大きな可能性を示している。
論文参考訳（メタデータ） (2024-11-11T21:54:26Z)
Maintainability Challenges in ML: A Systematic Literature Review [5.669063174637433]
本研究の目的は,機械学習ワークフローのさまざまな段階における保守性課題を特定し,合成することである。 13,000件以上の論文を審査し、56件を質的に分析した。
論文参考訳（メタデータ） (2024-08-17T13:24:15Z)
SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文参考訳（メタデータ） (2024-07-16T04:41:58Z)
Chain of Tools: Large Language Model is an Automatic Multi-tool Learner [54.992464510992605]
Automatic Tool Chain(ATC)は、大規模言語モデル(LLM)がマルチツールユーザとして機能することを可能にするフレームワークである。次に,ツールの範囲を拡大するために,ブラックボックス探索法を提案する。包括的な評価のために、ToolFlowという挑戦的なベンチマークを構築しました。
論文参考訳（メタデータ） (2024-05-26T11:40:58Z)
From Summary to Action: Enhancing Large Language Models for Complex Tasks with Open World APIs [62.496139001509114]
大規模な現実世界のAPIを制御するために設計された新しいツール呼び出しパイプラインを導入します。このパイプラインは人間のタスク解決プロセスを反映し、複雑な実際のユーザクエリに対処する。 ToolBenchベンチマークにおけるSum2Actパイプラインの実証的な評価は、大幅なパフォーマンス向上を示している。
論文参考訳（メタデータ） (2024-02-28T08:42:23Z)
Interactive Planning Using Large Language Models for Partially Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。 LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文参考訳（メタデータ） (2023-12-11T22:54:44Z)
TaskBench: Benchmarking Large Language Models for Task Automation [82.2932794189585]
タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
論文参考訳（メタデータ） (2023-11-30T18:02:44Z)
MLAgentBench: Evaluating Language Agents on Machine Learning Experimentation [96.71370747681078]
我々は,CIFAR-10におけるモデル性能の改善から,BabyLMのような最近の研究課題まで,13のタスクからなるMLAgentBenchを紹介した。各タスクに対して、エージェントはファイルの読み書き、コードの実行、出力の検査などのアクションを実行することができる。我々は、Claude v1.0、Claude v2.1、Claude v3 Opus、GPT-4、GPT-4-turbo、Gemini-Pro、Mixtralに基づいてベンチマークエージェントをベンチマークし、Claude v3 Opusエージェントが成功率の点で最高であることを示す。
論文参考訳（メタデータ） (2023-10-05T04:06:12Z)
Reasonable Scale Machine Learning with Open-Source Metaflow [2.637746074346334]
既存のツールを再購入しても、現在の生産性の問題は解決しない、と私たちは主張します。私たちは、データ実践者の生産性を高めるために明示的に設計された、MLプロジェクトのためのオープンソースのフレームワークであるMetaflowを紹介します。
論文参考訳（メタデータ） (2023-03-21T11:28:09Z)
Machine Learning Operations (MLOps): Overview, Definition, and Architecture [0.0]
機械学習オペレーション(MLOps)のパラダイムは、この問題に対処する。 MLOpsはいまだ曖昧な用語であり、研究者や専門家にとっての結果は曖昧である。必要なコンポーネントや役割、関連するアーキテクチャや原則をまとめて紹介します。
論文参考訳（メタデータ） (2022-05-04T19:38:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。