Fugu-MT 論文翻訳(概要): Managed Geo-Distributed Feature Store: Architecture and System Design

論文の概要: Managed Geo-Distributed Feature Store: Architecture and System Design

arxiv url: http://arxiv.org/abs/2305.20077v1
Date: Wed, 31 May 2023 17:51:30 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-01 14:44:53.857701
Title: Managed Geo-Distributed Feature Store: Architecture and System Design
Title（参考訳）: Managed Geo-Distributed Feature Store: アーキテクチャとシステム設計
Authors: Anya Li, Bhala Ranganathan, Feng Pan, Mickey Zhang, Qianjun Xu, Runhan Li, Sethu Raman, Shail Paragbhai Shah, Vivienne Tang (Microsoft)
Abstract要約: 企業は機械学習を使って現実世界の問題を解決する。機能ストアがなければ、さまざまなビジネスグループにまたがるさまざまなチームが、上記のプロセスを独立して維持することになります。本稿では,管理機能ストアを構成するコアアーキテクチャコンポーネントを抽出し,そのようなシステム構築における設計学習を共有することを目的とする。
参考スコア（独自算出の注目度）: 1.1809647985607934
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Companies are using machine learning to solve real-world problems and are developing hundreds to thousands of features in the process. They are building feature engineering pipelines as part of MLOps life cycle to transform data from various data sources and materialize the same for future consumption. Without feature stores, different teams across various business groups would maintain the above process independently, which can lead to conflicting and duplicated features in the system. Data scientists find it hard to search for and reuse existing features and it is painful to maintain version control. Furthermore, feature correctness violations related to online (inferencing) - offline (training) skews and data leakage are common. Although the machine learning community has extensively discussed the need for feature stores and their purpose, this paper aims to capture the core architectural components that make up a managed feature store and to share the design learning in building such a system.
Abstract（参考訳）: 企業は機械学習を使って現実世界の問題を解決する。彼らは、mlopsライフサイクルの一部として機能エンジニアリングパイプラインを構築し、さまざまなデータソースからデータを変換し、将来の消費のためにそれを実現する。フィーチャーストアがなければ、さまざまなビジネスグループにまたがるさまざまなチームが、上記のプロセスを独立して維持することになる。データサイエンティストは既存の機能の検索と再利用が困難であり、バージョン管理を維持するのが困難である。さらに、オンライン(参照)オフライン(トレーニング)スキューやデータ漏洩に関連する特徴補正違反が一般的である。機械学習コミュニティは、機能ストアの必要性とその目的を広く議論してきたが、本論文は、マネージド機能ストアを構成するコアアーキテクチャコンポーネントを捉え、そのようなシステム構築における設計学習を共有することを目的としている。

関連論文リスト

GenAI for Systems: Recurring Challenges and Design Principles from Software to Silicon [62.2138479061386]
ジェネレーティブAIは、コンピュータシステムの設計、最適化、構築方法を変えようとしているが、ソフトウェア、アーキテクチャ、チップデザインコミュニティの間で研究は断片化されている。本稿では、ハードウェア設計空間探索からRTL合成、物理レイアウト、検証に至るまで、コード生成と分散ランタイムから生成モデルがどのように適用されているかを検討する。
論文参考訳（メタデータ） (2026-02-16T22:45:33Z)
Model management to support systems engineering workflows using ontology-based knowledge graphs [0.09134244356393663]
本稿では,実行ワークフローから生成されたアーティファクトをモデル化するフレームワークを提案する。基本的なワークフローの概念、関連する形式主義、アーティファクトは、OMLで定義されたオントロジーで正式に定義される。また,システム設計や実装,アーティファクトストレージなどにおいて,システム工学を支援するツールの開発も行った。その結果,本提案は,ストレージやバージョニングといった基本的な問題に対処するだけでなく,関連する情報にアクセスするのに要する時間を短縮した。
論文参考訳（メタデータ） (2025-12-10T12:45:16Z)
A Scalable and Interoperable Platform for Transforming Building Information with Brick Ontology [0.0]
本稿では,自動化構築における一般的な課題に対処するためのプラットフォームを提案する。提案されたプラットフォーム開発の全体的な目標は、プロセスの半自動化である。開発プラットフォーム内の履歴データのシームレスでオフラインの統合は、データセキュリティのリスクを最小限にする。
論文参考訳（メタデータ） (2025-09-18T00:24:57Z)
Digital Asset Data Lakehouse. The concept based on a blockchain research center [0.0]
本稿では、堅牢でスケーラブルでセキュアなデータ管理プラットフォームへの需要を満たすために設計された、新しいソフトウェアアーキテクチャを紹介する。我々は、そのコンポーネントやインタラクションを含むアーキテクチャ設計の詳細を説明し、ブロックチェーンデータとデジタル資産の管理における一般的な課題にどのように対処するかを議論する。この結果から,提案アーキテクチャは分散データ管理の効率性とスケーラビリティを向上するだけでなく,研究領域におけるイノベーションの新たな道を開くことが示唆された。
論文参考訳（メタデータ） (2025-03-20T09:12:39Z)
What is a Feature, Really? Toward a Unified Understanding Across SE Disciplines [0.7125007887148752]
ソフトウェア工学において、'フィーチャー'の概念は要求工学(RE)やソフトウェア製品ライン(SPL)といった分野で矛盾なく定義される。本稿では、実世界のプロジェクト間で機能がどのように記述され、実装され、管理されるかを研究するための実証的、データ駆動型アプローチを提案する。
論文参考訳（メタデータ） (2025-02-14T09:08:53Z)
Stalactite: Toolbox for Fast Prototyping of Vertical Federated Learning Systems [37.11550251825938]
本稿では,VFL(Vertical Federated Learning)システムのためのオープンソースのフレームワークであるemphStalactiteを紹介する。 VFLはデータサンプルが複数のデータ所有者にまたがる機能によって分割されるFLの一種である。実世界のレコメンデーションデータセットでその使い方を実証する。
論文参考訳（メタデータ） (2024-09-23T21:29:03Z)
Empowering Private Tutoring by Chaining Large Language Models [87.76985829144834]
本研究は,最先端の大規模言語モデル(LLM)を活用した,本格的な知的チューリングシステムの開発を探求する。このシステムは、相互に接続された3つのコアプロセス(相互作用、反射、反応)に分けられる。各プロセスは LLM ベースのツールと動的に更新されたメモリモジュールによって実装される。
論文参考訳（メタデータ） (2023-09-15T02:42:03Z)
Machine Learning-Enabled Software and System Architecture Frameworks [48.87872564630711]
データサイエンスと機械学習に関連する関心事、例えばデータサイエンティストやデータエンジニアの利害関係者は、まだ既存のアーキテクチャフレームワークには含まれていない。 10か国25以上の組織から61名の被験者を対象に調査を行った。
論文参考訳（メタデータ） (2023-08-09T21:54:34Z)
Scalable Collaborative Learning via Representation Sharing [53.047460465980144]
フェデレートラーニング(FL)とスプリットラーニング(SL)は、データを(デバイス上で)プライベートにしながら協調学習を可能にする2つのフレームワークである。 FLでは、各データ保持者がモデルをローカルにトレーニングし、集約のために中央サーバにリリースする。 SLでは、クライアントは個々のカット層アクティベーション(スマッシュされたデータ)をサーバにリリースし、そのレスポンス(推論とバックの伝搬の両方)を待つ必要があります。本研究では, クライアントがオンライン知識蒸留を通じて, 対照的な損失を生かして協調する, プライバシ保護機械学習の新しいアプローチを提案する。
論文参考訳（メタデータ） (2022-11-20T10:49:22Z)
Applied Federated Learning: Architectural Design for Robust and Efficient Learning in Privacy Aware Settings [0.8454446648908585]
古典的な機械学習パラダイムは、中央にユーザーデータの集約を必要とする。データの集中化は、内部および外部のセキュリティインシデントのリスクを高めることを含むリスクを引き起こす。差分プライバシーによるフェデレーション学習は、サーバ側の集中化落とし穴を避けるように設計されている。
論文参考訳（メタデータ） (2022-06-02T00:30:04Z)
Kubric: A scalable dataset generator [73.78485189435729]
KubricはPythonフレームワークで、PyBulletやBlenderとインターフェースして写真リアリスティックなシーンを生成する。本研究では,3次元NeRFモデルの研究から光フロー推定まで,13種類の異なるデータセットを提示することで,Kubricの有効性を実証する。
論文参考訳（メタデータ） (2022-03-07T18:13:59Z)
ATEK: Augmenting Transformers with Expert Knowledge for Indoor Layout Synthesis [10.213825064088503]
本稿では,例えばエルゴノミクスに関する知識と,一般的なTransformerアーキテクチャに基づくデータ駆動型ジェネレータを組み合わせる手法を提案する。この知識を用いることで、データセットにこれらの特性が存在しない場合でも、合成されたレイアウトは望ましい特性を示すためにバイアスを受けることができる。本研究の目的は、設計者やアマチュアのための新しいツールを内部レイアウト作成の問題に対して提供し、モデリングのための生成機械学習を改善することである。
論文参考訳（メタデータ） (2022-02-01T02:25:04Z)
SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文参考訳（メタデータ） (2021-12-22T14:45:37Z)
From Distributed Machine Learning to Federated Learning: A Survey [49.7569746460225]
分散学習は、分散データとコンピューティングリソースを利用するための効率的なアプローチとして現れる。本論文では,連合学習システムの機能構造と関連手法の分類法を提案する。本稿では,flシステムの分散トレーニング,データ通信,セキュリティについて述べる。
論文参考訳（メタデータ） (2021-04-29T14:15:11Z)
Federated Learning: A Signal Processing Perspective [144.63726413692876]
フェデレーションラーニングは、データを明示的に交換することなく、ローカルデータセットを保持する複数のエッジデバイスでモデルをトレーニングするための新しい機械学習パラダイムです。本稿では、信号処理ツールを用いて扱うのが自然である主な課題をカプセル化し、強調する、連合学習のための統一的な体系的フレームワークを提供する。
論文参考訳（メタデータ） (2021-03-31T15:14:39Z)
Collective Knowledge: organizing research projects as a database of reusable components and portable workflows with common APIs [0.2538209532048866]
この記事では、集合的知識フレームワーク(CKまたはcKnowledge)のモチベーションと概要について述べる。 CKの概念は、研究プロジェクトを研究成果物をカプセル化した再利用可能なコンポーネントに分解することである。長期的な目標は、研究者と実践者を結びつけて、すべての知識を共有し再利用することで、イノベーションを加速させることである。
論文参考訳（メタデータ） (2020-11-02T17:42:59Z)
MLCask: Efficient Management of Component Evolution in Collaborative Data Analytics Pipelines [29.999324319722508]
マシンラーニングパイプラインのデプロイ時に発生する2つの大きな課題に対処し、エンドツーエンド分析システムMLCaskのバージョニング設計で対処する。我々は,再利用可能な履歴記録とパイプライン互換性情報を用いて,パイプライン探索木を刈り取ることで,メートル法駆動のマージ操作を定義し,高速化する。 MLCaskの有効性は、いくつかの実世界の展開事例に関する広範な研究を通じて評価される。
論文参考訳（メタデータ） (2020-10-17T13:34:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。