論文の概要: FeatInsight: An Online ML Feature Management System on 4Paradigm Sage-Studio Platform
- arxiv url: http://arxiv.org/abs/2504.00786v1
- Date: Tue, 01 Apr 2025 13:39:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:18:30.608112
- Title: FeatInsight: An Online ML Feature Management System on 4Paradigm Sage-Studio Platform
- Title(参考訳): FeatInsight: 4Paradigm Sage-Studioプラットフォーム上のオンラインML機能管理システム
- Authors: Xin Tong, Xuanhe Zhou, Bingsheng He, Guoliang Li, Zirui Tang, Wei Zhou, Fan Wu, Mian Lu, Yuqiang Chen,
- Abstract要約: FeatInsightは、機能設計、ストレージ、可視化、計算、検証、系統管理を含む、機能ライフサイクル全体をサポートするシステムである。
FeatInsightは4ParadigmのSage Studioプラットフォーム上で100以上の現実シナリオにデプロイされている。
- 参考スコア(独自算出の注目度): 41.020058596549035
- License:
- Abstract: Feature management is essential for many online machine learning applications and can often become the performance bottleneck (e.g., taking up to 70% of the overall latency in sales prediction service). Improper feature configurations (e.g., introducing too many irrelevant features) can severely undermine the model's generalization capabilities. However, managing online ML features is challenging due to (1) large-scale, complex raw data (e.g., the 2018 PHM dataset contains 17 tables and dozens to hundreds of columns), (2) the need for high-performance, consistent computation of interdependent features with complex patterns, and (3) the requirement for rapid updates and deployments to accommodate real-time data changes. In this demo, we present FeatInsight, a system that supports the entire feature lifecycle, including feature design, storage, visualization, computation, verification, and lineage management. FeatInsight (with OpenMLDB as the execution engine) has been deployed in over 100 real-world scenarios on 4Paradigm's Sage Studio platform, handling up to a trillion-dimensional feature space and enabling millisecond-level feature updates. We demonstrate how FeatInsight enhances feature design efficiency (e.g., for online product recommendation) and improve feature computation performance (e.g., for online fraud detection). The code is available at https://github.com/4paradigm/FeatInsight.
- Abstract(参考訳): 機能管理は、多くのオンライン機械学習アプリケーションにとって不可欠であり、しばしばパフォーマンスボトルネックとなる(例えば、セールス予測サービスの全体的なレイテンシの70%を占める)。
不適切な機能設定(例えば、あまりにも多くの無関係な機能の導入)は、モデルの一般化能力を著しく損なう可能性がある。
しかし、(1)大規模で複雑な生データ(例えば、2018 PHMデータセットには17のテーブルと数十の列から数百の列が含まれている)、(2)複雑なパターンによる相互依存機能の高性能で一貫した計算の必要性、(3)リアルタイムデータ変更に対応するための迅速な更新とデプロイメントの必要性など、オンラインML機能の管理は困難である。
このデモでは、機能設計、ストレージ、可視化、計算、検証、系統管理を含む、機能ライフサイクル全体をサポートするシステムであるFeatInsightを紹介します。
FeatInsight(実行エンジンはOpenMLDB)は4ParadigmのSage Studioプラットフォーム上で100以上の現実シナリオにデプロイされており、最大1兆次元の機能空間を処理し、ミリ秒レベルの機能更新を可能にする。
FeatInsightが機能設計効率(オンライン製品レコメンデーションなど)を向上し,機能計算性能(オンライン不正検出など)を向上させる方法を示す。
コードはhttps://github.com/4paradigm/FeatInsightで入手できる。
関連論文リスト
- AdaF^2M^2: Comprehensive Learning and Responsive Leveraging Features in Recommendation System [16.364341783911414]
本稿では,モデルに依存しないフレームワークであるAdaF2M2を提案する。
AdaF2M2でベースモデルを固定することにより、複数のレコメンデーションシナリオでオンラインA/Bテストを行い、ユーザアクティブ日とアプリ期間で+1.37%、+1.89%の累積的な改善を実現した。
論文 参考訳(メタデータ) (2025-01-27T06:49:27Z) - OpenMLDB: A Real-Time Relational Data Feature Computation System for Online ML [35.15348680407141]
本稿では,4ParadigmのSageOneプラットフォームにデプロイされた機能計算システムであるOpenMLDBを提案する。
技術的には、OpenMLDBは最初、オフラインおよびオンラインステージにわたる一貫した計算結果に統一的なクエリプランジェネレータを使用する。
OpenMLDBは、長いウィンドウ計算によるパフォーマンスボトルネックを解決するオンライン実行エンジンを提供する。
論文 参考訳(メタデータ) (2025-01-15T05:20:01Z) - On The Planning Abilities of OpenAI's o1 Models: Feasibility, Optimality, and Generalizability [59.72892401927283]
さまざまなベンチマークタスクでOpenAIのo1モデルの計画能力を評価する。
その結果,o1-preview は GPT-4 よりもタスク制約に順応していることがわかった。
論文 参考訳(メタデータ) (2024-09-30T03:58:43Z) - Coarse Correspondences Boost Spatial-Temporal Reasoning in Multimodal Language Model [51.83436609094658]
本稿では,2次元画像を入力として,MLLMの時空間推論を強化する軽量な手法である粗対応を導入する。
本手法は,映像のフレーム間や異なる視点における主物体の対応性を特定するために,軽量な追跡モデルを用いている。
この単純なトレーニングフリーアプローチは、4つのベンチマークでGPT4-V/Oに一定の利得をもたらすことを実証する。
論文 参考訳(メタデータ) (2024-08-01T17:57:12Z) - Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows? [73.81908518992161]
我々は、プロのデータサイエンスとエンジニアリングに焦点を当てた最初のマルチモーダルエージェントベンチマークであるSpider2-Vを紹介する。
Spider2-Vは、本物のコンピュータ環境における現実世界のタスクを特徴とし、20のエンタープライズレベルのプロフェッショナルアプリケーションを組み込んでいる。
これらのタスクは、エンタープライズデータソフトウェアシステムにおいて、コードを書き、GUIを管理することで、マルチモーダルエージェントがデータ関連のタスクを実行する能力を評価する。
論文 参考訳(メタデータ) (2024-07-15T17:54:37Z) - MAVIS: Mathematical Visual Instruction Tuning with an Automatic Data Engine [85.80851893886161]
MLLMのための数学的なVISual命令チューニングパイプラインであるMAVISを提案する。
我々はMAVIS-Captionを用いて、図形視覚符号化の改善に適したコントラスト学習により、数学固有の視覚エンコーダ(CLIP-Math)を微調整する。
第3に、ロバストな問題解決スキルの指導チューニングを行うためにMAVIS-Instructを採用し、結果のモデルをMAVIS-7Bと呼ぶ。
論文 参考訳(メタデータ) (2024-07-11T17:59:47Z) - FeatNavigator: Automatic Feature Augmentation on Tabular Data [29.913561808461612]
FeatNavigatorは、機械学習(ML)モデルのためのリレーショナルテーブルで高品質な機能を探求し、統合するフレームワークである。
FeatNavigatorは、MLモデルのパフォーマンスが最大40.1%向上する5つのパブリックデータセットにおいて、最先端のソリューションよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-13T18:44:48Z) - Unified Embedding: Battle-Tested Feature Representations for Web-Scale
ML Systems [29.53535556926066]
高品質な機能埋め込みを効率よく効果的に学習することは、Webスケールの機械学習システムの性能にとって重要である。
この作業では、シンプルだが効果的に機能するフレームワークであるFeature Multiplexingを導入し、1つの表現空間を多くの異なる分類的特徴にまたがって使用する。
機能構成の簡略化,動的データ分散への適応性の向上,最新のハードウェアとの互換性の3つの大きなメリットを生かした,Unified Embeddingと呼ばれる高度に実践的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-20T05:35:40Z) - Matryoshka Representation Learning [43.62026091806627]
Matryoshka Representation Learningは、下流タスクの計算制約に適応するために、単一の埋め込みを可能にする。
MRLは、独立に訓練された低次元表現と同じくらい正確でリッチな粗大な表現を学習する。
MRLは、視覚(ViT、ResNet)、視覚+言語(ALIGN)、言語(BERT)といった、Webスケールのデータセットにシームレスに拡張する。
論文 参考訳(メタデータ) (2022-05-26T04:33:56Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。