論文の概要: Drifter: Efficient Online Feature Monitoring for Improved Data Integrity
in Large-Scale Recommendation Systems
- arxiv url: http://arxiv.org/abs/2309.08617v2
- Date: Thu, 21 Sep 2023 02:16:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-22 18:22:48.956218
- Title: Drifter: Efficient Online Feature Monitoring for Improved Data Integrity
in Large-Scale Recommendation Systems
- Title(参考訳): drifter: 大規模レコメンデーションシステムにおけるデータ完全性向上のための効率的なオンライン機能監視
- Authors: Bla\v{z} \v{S}krlj, Nir Ki-Tov, Lee Edelist, Natalia Silberstein, Hila
Weisman-Zohar, Bla\v{z} Mramor, Davorin Kopi\v{c}, Naama Ziporin
- Abstract要約: オンライン機能監視と検証のための効率的で軽量なシステムであるDrifterを紹介した。
Rock Drifterは、アジャイルで応答性があり、適応可能なデータ品質監視を提供することによって、既存のメソッドの制限に対処する。
Rock Drifterは非常にスケーラブルでリソース効率が良いため、2スレッドしか必要とせず、1本番環境当たりのRAMは1ギガバイト以下である。
- 参考スコア(独自算出の注目度): 0.7045006997351929
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-world production systems often grapple with maintaining data quality in
large-scale, dynamic streams. We introduce Drifter, an efficient and
lightweight system for online feature monitoring and verification in
recommendation use cases. Drifter addresses limitations of existing methods by
delivering agile, responsive, and adaptable data quality monitoring, enabling
real-time root cause analysis, drift detection and insights into problematic
production events. Integrating state-of-the-art online feature ranking for
sparse data and anomaly detection ideas, Drifter is highly scalable and
resource-efficient, requiring only two threads and less than a gigabyte of RAM
per production deployments that handle millions of instances per minute.
Evaluation on real-world data sets demonstrates Drifter's effectiveness in
alerting and mitigating data quality issues, substantially improving
reliability and performance of real-time live recommender systems.
- Abstract(参考訳): 実世界のプロダクションシステムは、大規模でダイナミックなストリームにおけるデータ品質の維持に苦しむことが多い。
本稿では,オンライン機能監視および検証のための効率的で軽量なシステムであるdrifterを推奨ユースケースで紹介する。
drifterは、アジャイルでレスポンシブで適応可能なデータ品質の監視を提供することで、既存の方法の制限に対処し、リアルタイムの根本原因分析、ドリフト検出、問題のあるプロダクションイベントへの洞察を可能にする。
スパースデータと異常検出のアイデアのための最先端のオンライン機能ランキングを統合することで、drifterは高度にスケーラブルでリソース効率が良く、1分間に数百万のインスタンスを処理する運用毎に2スレッドと1ギガバイト未満のramを必要とする。
実世界のデータセットの評価は、データ品質の問題の警告と緩和におけるDrifterの有効性を示し、リアルタイムライブレコメンデータシステムの信頼性と性能を大幅に向上させる。
関連論文リスト
- A Scalable Approach to Covariate and Concept Drift Management via Adaptive Data Segmentation [0.562479170374811]
多くの現実世界のアプリケーションでは、継続的機械学習(ML)システムは不可欠だが、データドリフトが困難である。
伝統的なドリフト適応法は典型的にはアンサンブル技術を用いてモデルを更新し、しばしばドリフトされた歴史データを破棄する。
ドリフトしたデータをモデルトレーニングプロセスに明示的に組み込むことは、モデルの精度と堅牢性を大幅に向上させる、と我々は主張する。
論文 参考訳(メタデータ) (2024-11-23T17:35:23Z) - SUDS: A Strategy for Unsupervised Drift Sampling [0.5437605013181142]
監視された機械学習は、データ分散が時間とともに変化するコンセプトドリフトに遭遇し、パフォーマンスが低下する。
本稿では,既存のドリフト検出アルゴリズムを用いて,同種サンプルを選択する新しい手法であるドリフトサンプリング戦略(SUDS)を提案する。
本研究は, 動的環境におけるラベル付きデータ利用の最適化におけるSUDSの有効性を示すものである。
論文 参考訳(メタデータ) (2024-11-05T10:55:29Z) - Data-Aware Training Quality Monitoring and Certification for Reliable Deep Learning [13.846014191157405]
我々は、ニューラルネットワークトレーニングのリアルタイム、データ認識認証、監視のための新しいフレームワークであるYESトレーニングバウンドを紹介する。
我々は,YESバウンダリが,最適地域におけるトレーニング損失高原の特定など,従来の局所最適化の視点を超えた洞察を提供することを示した。
私たちはリアルタイム評価のための強力なツールを提供し、ディープラーニングにおける品質保証をトレーニングするための新しい標準を設定しています。
論文 参考訳(メタデータ) (2024-10-14T18:13:22Z) - D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning [99.33607114541861]
ロボット操作と移動環境の現実的なシミュレーションに焦点を当てたオフラインRLのための新しいベンチマークを提案する。
提案するベンチマークでは、状態ベースドメインと画像ベースドメインを対象とし、オフラインRLとオンライン微調整評価の両方をサポートしている。
論文 参考訳(メタデータ) (2024-08-15T22:27:00Z) - Digital Twin-Assisted Data-Driven Optimization for Reliable Edge Caching in Wireless Networks [60.54852710216738]
我々はD-RECと呼ばれる新しいデジタルツインアシスト最適化フレームワークを導入し、次世代無線ネットワークにおける信頼性の高いキャッシュを実現する。
信頼性モジュールを制約付き決定プロセスに組み込むことで、D-RECは、有利な制約に従うために、アクション、報酬、状態を適応的に調整することができる。
論文 参考訳(メタデータ) (2024-06-29T02:40:28Z) - Unsupervised Domain Adaptation for Self-Driving from Past Traversal
Features [69.47588461101925]
本研究では,新しい運転環境に3次元物体検出器を適応させる手法を提案する。
提案手法は,空間的量子化履歴特徴を用いたLiDARに基づく検出モデルを強化する。
実世界のデータセットの実験では、大幅な改善が示されている。
論文 参考訳(メタデータ) (2023-09-21T15:00:31Z) - Uncovering Drift in Textual Data: An Unsupervised Method for Detecting
and Mitigating Drift in Machine Learning Models [9.035254826664273]
機械学習におけるドリフト(drift)とは、モデルが動作しているデータやコンテキストの統計的性質が時間とともに変化し、性能が低下する現象を指す。
提案手法では, 目標分布として生産データのサンプルを符号化し, モデルトレーニングデータを基準分布として符号化する。
また,ドリフトの根本原因である生産データのサブセットも同定する。
これらの高ドリフトサンプルを用いて再トレーニングしたモデルでは、オンライン顧客エクスペリエンスの品質指標のパフォーマンスが改善された。
論文 参考訳(メタデータ) (2023-09-07T16:45:42Z) - Reliable and Interpretable Drift Detection in Streams of Short Texts [2.4603302139672008]
データドリフトは、機械学習モデルの性能劣化につながる重要な要因の1つだ。
本稿では,大規模タスク指向対話システムにおけるモデルに依存しない変更点の検出と解釈のためのエンドツーエンドフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-28T15:14:54Z) - Efficient Graph Neural Network Inference at Large Scale [54.89457550773165]
グラフニューラルネットワーク(GNN)は、幅広いアプリケーションで優れた性能を示している。
既存のスケーラブルなGNNは、線形伝搬を利用して特徴を前処理し、トレーニングと推論の手順を高速化する。
本稿では,そのトポロジ情報に基づいて各ノードに対してパーソナライズされた伝搬順序を生成する適応的伝搬順序法を提案する。
論文 参考訳(メタデータ) (2022-11-01T14:38:18Z) - Efficient and Robust LiDAR-Based End-to-End Navigation [132.52661670308606]
我々は,LiDARをベースとした効率的なエンドツーエンドナビゲーションフレームワークを提案する。
本稿では,スパース畳み込みカーネル最適化とハードウェア対応モデル設計に基づくFast-LiDARNetを提案する。
次に,単一の前方通過のみから予測の不確かさを直接推定するハイブリッド・エビデンシャル・フュージョンを提案する。
論文 参考訳(メタデータ) (2021-05-20T17:52:37Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。