論文の概要: Managed Geo-Distributed Feature Store: Architecture and System Design
- arxiv url: http://arxiv.org/abs/2305.20077v1
- Date: Wed, 31 May 2023 17:51:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 14:44:53.857701
- Title: Managed Geo-Distributed Feature Store: Architecture and System Design
- Title(参考訳): Managed Geo-Distributed Feature Store: アーキテクチャとシステム設計
- Authors: Anya Li, Bhala Ranganathan, Feng Pan, Mickey Zhang, Qianjun Xu, Runhan
Li, Sethu Raman, Shail Paragbhai Shah, Vivienne Tang (Microsoft)
- Abstract要約: 企業は機械学習を使って現実世界の問題を解決する。
機能ストアがなければ、さまざまなビジネスグループにまたがるさまざまなチームが、上記のプロセスを独立して維持することになります。
本稿では,管理機能ストアを構成するコアアーキテクチャコンポーネントを抽出し,そのようなシステム構築における設計学習を共有することを目的とする。
- 参考スコア(独自算出の注目度): 1.1809647985607934
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Companies are using machine learning to solve real-world problems and are
developing hundreds to thousands of features in the process. They are building
feature engineering pipelines as part of MLOps life cycle to transform data
from various data sources and materialize the same for future consumption.
Without feature stores, different teams across various business groups would
maintain the above process independently, which can lead to conflicting and
duplicated features in the system. Data scientists find it hard to search for
and reuse existing features and it is painful to maintain version control.
Furthermore, feature correctness violations related to online (inferencing) -
offline (training) skews and data leakage are common. Although the machine
learning community has extensively discussed the need for feature stores and
their purpose, this paper aims to capture the core architectural components
that make up a managed feature store and to share the design learning in
building such a system.
- Abstract(参考訳): 企業は機械学習を使って現実世界の問題を解決する。
彼らは、mlopsライフサイクルの一部として機能エンジニアリングパイプラインを構築し、さまざまなデータソースからデータを変換し、将来の消費のためにそれを実現する。
フィーチャーストアがなければ、さまざまなビジネスグループにまたがるさまざまなチームが、上記のプロセスを独立して維持することになる。
データサイエンティストは既存の機能の検索と再利用が困難であり、バージョン管理を維持するのが困難である。
さらに、オンライン(参照)オフライン(トレーニング)スキューやデータ漏洩に関連する特徴補正違反が一般的である。
機械学習コミュニティは、機能ストアの必要性とその目的を広く議論してきたが、本論文は、マネージド機能ストアを構成するコアアーキテクチャコンポーネントを捉え、そのようなシステム構築における設計学習を共有することを目的としている。
関連論文リスト
- Stalactite: Toolbox for Fast Prototyping of Vertical Federated Learning Systems [37.11550251825938]
本稿では,VFL(Vertical Federated Learning)システムのためのオープンソースのフレームワークであるemphStalactiteを紹介する。
VFLはデータサンプルが複数のデータ所有者にまたがる機能によって分割されるFLの一種である。
実世界のレコメンデーションデータセットでその使い方を実証する。
論文 参考訳(メタデータ) (2024-09-23T21:29:03Z) - Empowering Private Tutoring by Chaining Large Language Models [87.76985829144834]
本研究は,最先端の大規模言語モデル(LLM)を活用した,本格的な知的チューリングシステムの開発を探求する。
このシステムは、相互に接続された3つのコアプロセス(相互作用、反射、反応)に分けられる。
各プロセスは LLM ベースのツールと動的に更新されたメモリモジュールによって実装される。
論文 参考訳(メタデータ) (2023-09-15T02:42:03Z) - Machine Learning-Enabled Software and System Architecture Frameworks [48.87872564630711]
データサイエンスと機械学習に関連する関心事、例えばデータサイエンティストやデータエンジニアの利害関係者は、まだ既存のアーキテクチャフレームワークには含まれていない。
10か国25以上の組織から61名の被験者を対象に調査を行った。
論文 参考訳(メタデータ) (2023-08-09T21:54:34Z) - Scalable Collaborative Learning via Representation Sharing [53.047460465980144]
フェデレートラーニング(FL)とスプリットラーニング(SL)は、データを(デバイス上で)プライベートにしながら協調学習を可能にする2つのフレームワークである。
FLでは、各データ保持者がモデルをローカルにトレーニングし、集約のために中央サーバにリリースする。
SLでは、クライアントは個々のカット層アクティベーション(スマッシュされたデータ)をサーバにリリースし、そのレスポンス(推論とバックの伝搬の両方)を待つ必要があります。
本研究では, クライアントがオンライン知識蒸留を通じて, 対照的な損失を生かして協調する, プライバシ保護機械学習の新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-11-20T10:49:22Z) - Applied Federated Learning: Architectural Design for Robust and
Efficient Learning in Privacy Aware Settings [0.8454446648908585]
古典的な機械学習パラダイムは、中央にユーザーデータの集約を必要とする。
データの集中化は、内部および外部のセキュリティインシデントのリスクを高めることを含むリスクを引き起こす。
差分プライバシーによるフェデレーション学習は、サーバ側の集中化落とし穴を避けるように設計されている。
論文 参考訳(メタデータ) (2022-06-02T00:30:04Z) - ATEK: Augmenting Transformers with Expert Knowledge for Indoor Layout
Synthesis [10.213825064088503]
本稿では,例えばエルゴノミクスに関する知識と,一般的なTransformerアーキテクチャに基づくデータ駆動型ジェネレータを組み合わせる手法を提案する。
この知識を用いることで、データセットにこれらの特性が存在しない場合でも、合成されたレイアウトは望ましい特性を示すためにバイアスを受けることができる。
本研究の目的は、設計者やアマチュアのための新しいツールを内部レイアウト作成の問題に対して提供し、モデリングのための生成機械学習を改善することである。
論文 参考訳(メタデータ) (2022-02-01T02:25:04Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - From Distributed Machine Learning to Federated Learning: A Survey [49.7569746460225]
分散学習は、分散データとコンピューティングリソースを利用するための効率的なアプローチとして現れる。
本論文では,連合学習システムの機能構造と関連手法の分類法を提案する。
本稿では,flシステムの分散トレーニング,データ通信,セキュリティについて述べる。
論文 参考訳(メタデータ) (2021-04-29T14:15:11Z) - Federated Learning: A Signal Processing Perspective [144.63726413692876]
フェデレーションラーニングは、データを明示的に交換することなく、ローカルデータセットを保持する複数のエッジデバイスでモデルをトレーニングするための新しい機械学習パラダイムです。
本稿では、信号処理ツールを用いて扱うのが自然である主な課題をカプセル化し、強調する、連合学習のための統一的な体系的フレームワークを提供する。
論文 参考訳(メタデータ) (2021-03-31T15:14:39Z) - Collective Knowledge: organizing research projects as a database of
reusable components and portable workflows with common APIs [0.2538209532048866]
この記事では、集合的知識フレームワーク(CKまたはcKnowledge)のモチベーションと概要について述べる。
CKの概念は、研究プロジェクトを研究成果物をカプセル化した再利用可能なコンポーネントに分解することである。
長期的な目標は、研究者と実践者を結びつけて、すべての知識を共有し再利用することで、イノベーションを加速させることである。
論文 参考訳(メタデータ) (2020-11-02T17:42:59Z) - MLCask: Efficient Management of Component Evolution in Collaborative
Data Analytics Pipelines [29.999324319722508]
マシンラーニングパイプラインのデプロイ時に発生する2つの大きな課題に対処し、エンドツーエンド分析システムMLCaskのバージョニング設計で対処する。
我々は,再利用可能な履歴記録とパイプライン互換性情報を用いて,パイプライン探索木を刈り取ることで,メートル法駆動のマージ操作を定義し,高速化する。
MLCaskの有効性は、いくつかの実世界の展開事例に関する広範な研究を通じて評価される。
論文 参考訳(メタデータ) (2020-10-17T13:34:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。