論文の概要: Managing ML Pipelines: Feature Stores and the Coming Wave of Embedding
Ecosystems
- arxiv url: http://arxiv.org/abs/2108.05053v1
- Date: Wed, 11 Aug 2021 06:36:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-12 13:18:01.756477
- Title: Managing ML Pipelines: Feature Stores and the Coming Wave of Embedding
Ecosystems
- Title(参考訳): mlパイプラインの管理 - 機能ストアと組み込みエコシステムの新たな波
- Authors: Laurel Orr, Atindriyo Sanyal, Xiao Ling, Karan Goel, and Megan
Leszczynski
- Abstract要約: 近年、モデル開発は自己監督型埋め込みをモデル機能として利用することへと移行している。
これらの埋め込みとそれらを使用する下流システムを管理することは、埋め込みトレーニングデータの管理、埋め込み品質の測定、埋め込みを使用する下流モデル監視に関する新たな課題をもたらす。
このチュートリアルの目標は、機能ストアシステムを導入し、これらの新しい組み込み中心のパイプラインを管理する上での課題と現在のソリューションについて議論することにあります。
- 参考スコア(独自算出の注目度): 5.131021957341543
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The industrial machine learning pipeline requires iterating on model
features, training and deploying models, and monitoring deployed models at
scale. Feature stores were developed to manage and standardize the engineer's
workflow in this end-to-end pipeline, focusing on traditional tabular feature
data. In recent years, however, model development has shifted towards using
self-supervised pretrained embeddings as model features. Managing these
embeddings and the downstream systems that use them introduces new challenges
with respect to managing embedding training data, measuring embedding quality,
and monitoring downstream models that use embeddings. These challenges are
largely unaddressed in standard feature stores. Our goal in this tutorial is to
introduce the feature store system and discuss the challenges and current
solutions to managing these new embedding-centric pipelines.
- Abstract(参考訳): 産業用機械学習パイプラインは、モデル機能の反復、モデルのトレーニングとデプロイ、大規模にデプロイされたモデルの監視を必要とする。
このエンドツーエンドパイプラインでエンジニアのワークフローを管理し標準化するためにフィーチャーストアが開発された。
しかし、近年、モデル開発は自己教師付き事前学習型埋め込みをモデル機能として利用することへと移行している。
これらの組込みとそれを使用する下流システムを管理することは、組込みトレーニングデータの管理、組込み品質の測定、組込みを使用する下流モデル監視に関する新たな課題をもたらす。
これらの課題は、標準のフィーチャーストアではほとんど解決されていない。
このチュートリアルの目標は、フィーチャーストアシステムを紹介し、これら新しい組み込み中心のパイプラインを管理するための課題と現在のソリューションについて論じることです。
関連論文リスト
- Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Modyn: Data-Centric Machine Learning Pipeline Orchestration [1.4448995242976572]
Modynは、データ中心のエンドツーエンド機械学習プラットフォームである。
データ中心のエンドツーエンド機械学習プラットフォームであるModynを紹介します。
論文 参考訳(メタデータ) (2023-12-11T09:50:52Z) - Cross-modal Prompts: Adapting Large Pre-trained Models for Audio-Visual
Downstream Tasks [55.36987468073152]
本稿では,DG-SCT(Dual-Guided Space-Channel-Temporal)アテンション機構を提案する。
DG-SCTモジュールはトレーニング可能なクロスモーダル・インタラクション・レイヤを事前トレーニングされたオーディオ・ビジュアル・エンコーダに組み込む。
提案手法は, AVE, AVVP, AVS, AVQA, AVQAを含む複数のダウンストリームタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2023-11-09T05:24:20Z) - An Empirical Study of Pre-Trained Model Reuse in the Hugging Face Deep
Learning Model Registry [2.1346819928536687]
機械学習エンジニアが大規模事前学習モデル(PTM)の再利用を開始
私たちは、最も人気のあるPTMエコシステムであるHugging Faceの実践者12人にインタビューして、PTM再利用のプラクティスと課題を学びました。
PTM再利用の3つの課題は、属性の欠如、クレームと実際のパフォーマンスの相違、モデルリスクである。
論文 参考訳(メタデータ) (2023-03-05T02:28:15Z) - Let Offline RL Flow: Training Conservative Agents in the Latent Space of
Normalizing Flows [58.762959061522736]
オフライン強化学習は、追加の環境相互作用なしに、事前に記録された、固定されたデータセット上でポリシーをトレーニングすることを目的としている。
我々は、最近、潜在行動空間における学習ポリシーを基礎として、生成モデルの構築に正規化フローの特別な形式を用いる。
提案手法が最近提案したアルゴリズムより優れていることを示すため,様々な移動タスクとナビゲーションタスクについて評価を行った。
論文 参考訳(メタデータ) (2022-11-20T21:57:10Z) - Modeling Quality and Machine Learning Pipelines through Extended Feature
Models [0.0]
本稿では,機能モデルメタモデルを適切に拡張した品質MLパイプラインのための新しいエンジニアリング手法を提案する。
提案されたアプローチでは、MLパイプライン、その品質要件(パイプライン全体と単一フェーズ)、各パイプラインフェーズを実装するアルゴリズムの品質特性をモデル化することができる。
論文 参考訳(メタデータ) (2022-07-15T15:20:28Z) - Distilling Model Failures as Directions in Latent Space [87.30726685335098]
本稿では,モデルの故障モードを自動的に抽出するスケーラブルな方法を提案する。
線形分類器を用いて一貫したエラーパターンを識別し、これらの障害モードを特徴空間内の方向として自然な表現を誘導する。
このフレームワークにより、トレーニングデータセット内の課題のあるサブポピュレーションを発見し、自動的にキャプションし、これらのサブポピュレーションにおけるモデルのパフォーマンスを改善することができることを示す。
論文 参考訳(メタデータ) (2022-06-29T16:35:24Z) - Closing the Loop: A Framework for Trustworthy Machine Learning in Power
Systems [0.0]
エネルギーセクターの深い脱炭には、再生可能エネルギー資源の大量侵入と膨大なグリッドアセット調整が必要である。
機械学習(ML)は、今後数十年で電力システムが変化していくにつれて、これらの課題を克服するのに役立つ。
物理シミュレーションデータから学習した信頼性の高いMLモデル構築に関わる5つの課題を概説する。
論文 参考訳(メタデータ) (2022-03-14T21:30:43Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - Monitoring and explainability of models in production [58.720142291102135]
デプロイされたモデルを監視することは、高品質の機械学習対応サービスの継続的なプロビジョニングに不可欠である。
これらの領域でソリューションの実装を成功させる上での課題を,オープンソースツールを使用した本番環境対応ソリューションの最近の例で論じる。
論文 参考訳(メタデータ) (2020-07-13T10:37:05Z) - Online Constrained Model-based Reinforcement Learning [13.362455603441552]
主要な要件は、限られた時間とリソース予算内に留まりながら、継続的な状態とアクションスペースを扱う能力である。
本稿では,ガウス過程回帰と回帰水平制御を組み合わせたモデルに基づくアプローチを提案する。
本研究では,自動走行作業におけるオンライン学習のメリットを実証する。
論文 参考訳(メタデータ) (2020-04-07T15:51:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。