論文の概要: Kamae: Bridging Spark and Keras for Seamless ML Preprocessing
- arxiv url: http://arxiv.org/abs/2507.06021v1
- Date: Tue, 08 Jul 2025 14:30:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:38.163066
- Title: Kamae: Bridging Spark and Keras for Seamless ML Preprocessing
- Title(参考訳): Kamae: シームレスML前処理のためのSparkとKeraのブリッジ
- Authors: George Barrowclough, Marian Andrecki, James Shinner, Daniele Donghi,
- Abstract要約: KamaeはPythonライブラリで、PySparkの前処理パイプラインを同等のKerasモデルに変換することでギャップを埋める。
このフレームワークは、MovieLensデータセットやExpediaのLearning-to-Rankパイプラインなど、現実世界のユースケースで説明されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In production recommender systems, feature preprocessing must be faithfully replicated across training and inference environments. This often requires duplicating logic between offline and online environments, increasing engineering effort and introducing risks of dataset shift. We present Kamae, an open-source Python library that bridges this gap by translating PySpark preprocessing pipelines into equivalent Keras models. Kamae provides a suite of configurable Spark transformers and estimators, each mapped to a corresponding Keras layer, enabling consistent, end-to-end preprocessing across the ML lifecycle. Framework's utility is illustrated on real-world use cases, including MovieLens dataset and Expedia's Learning-to-Rank pipelines. The code is available at https://github.com/ExpediaGroup/kamae.
- Abstract(参考訳): プロダクションレコメンデータシステムでは、機能前処理はトレーニングと推論環境間で忠実に複製されなければならない。
これはしばしば、オフライン環境とオンライン環境の間のロジックの重複、エンジニアリングの労力の増加、データセットシフトのリスクの導入を必要とする。
我々は、PySparkプリプロセスパイプラインを同等のKerasモデルに変換することで、このギャップを埋めるオープンソースのPythonライブラリであるKamaeを紹介します。
Kamaeは、設定可能なSpark変換器と推定器のスイートを提供し、それぞれが対応するKeras層にマッピングされ、MLライフサイクル全体で一貫したエンドツーエンドの事前処理を可能にする。
フレームワークのユーティリティは、MovieLensデータセットやExpediaのLearning-to-Rankパイプラインなど、現実世界のユースケースで説明されている。
コードはhttps://github.com/ExpediaGroup/kamae.comで入手できる。
関連論文リスト
- PyPulse: A Python Library for Biosignal Imputation [58.35269251730328]
PyPulseは,臨床およびウェアラブルの両方のセンサ設定において生体信号の計算を行うPythonパッケージである。
PyPulseのフレームワークは、非機械学習バイオリサーバーを含む幅広いユーザーベースに対して、使い勝手の良いモジュラーで拡張可能なフレームワークを提供する。
PyPulseはMITライセンスでGithubとPyPIでリリースしました。
論文 参考訳(メタデータ) (2024-12-09T11:00:55Z) - KerasCV and KerasNLP: Vision and Language Power-Ups [9.395199188271254]
KerasCVとKerasNLPはコンピュータビジョンと自然言語処理のためのKeras APIの拡張である。
これらのドメインパッケージは、使いやすさとパフォーマンスを重視した高速な実験を可能にするように設計されている。
ライブラリは完全にオープンソース(Apache 2.0ライセンス)で、GitHubから入手できる。
論文 参考訳(メタデータ) (2024-05-30T16:58:34Z) - torchgfn: A PyTorch GFlowNet library [56.071033896777784]
torchgfnはPyTorchライブラリで、このニーズに対処することを目指している。
環境のためのシンプルなAPIと、サンプルと損失のための有用な抽象化を提供する。
論文 参考訳(メタデータ) (2023-05-24T00:20:59Z) - DADApy: Distance-based Analysis of DAta-manifolds in Python [51.37841707191944]
DADApyは、高次元データの分析と特徴付けのためのピソンソフトウェアパッケージである。
固有次元と確率密度を推定し、密度に基づくクラスタリングを行い、異なる距離メトリクスを比較する方法を提供する。
論文 参考訳(メタデータ) (2022-05-04T08:41:59Z) - PyHHMM: A Python Library for Heterogeneous Hidden Markov Models [63.01207205641885]
PyHHMM は Heterogeneous-Hidden Markov Models (HHMM) のオブジェクト指向Python実装である。
PyHHMMは、異種観測モデル、データ推論の欠如、異なるモデルの順序選択基準、半教師付きトレーニングなど、同様のフレームワークではサポートされない機能を強調している。
PyHHMMは、numpy、scipy、scikit-learn、およびシーボーンPythonパッケージに依存しており、Apache-2.0ライセンスの下で配布されている。
論文 参考訳(メタデータ) (2022-01-12T07:32:36Z) - SuperSuit: Simple Microwrappers for Reinforcement Learning Environments [0.0]
SuperSuitはPythonライブラリで、すべての人気のあるラッパーとラッパーが含まれており、観察/アクション/リワードに関数を簡単に適用できる。
これは、標準のGym環境仕様と、マルチエージェント環境のためのPettingZoo仕様と互換性がある。
論文 参考訳(メタデータ) (2020-08-17T00:30:06Z) - Picasso: A Sparse Learning Library for High Dimensional Data Analysis in
R and Python [77.33905890197269]
本稿では,様々なスパース学習問題に対して,経路座標を統一的に最適化する新しいライブラリについて述べる。
ライブラリはR++でコード化されており、ユーザフレンドリーなスパース実験を行っている。
論文 参考訳(メタデータ) (2020-06-27T02:39:24Z) - torchgpipe: On-the-fly Pipeline Parallelism for Training Giant Models [19.024035785367044]
我々は,GPipe によるチェックポインティングによるマイクロバッチパイプライン並列化を実現するために,PyTorch で用意されたライブラリを設計,実装した。
このような環境下でパイプライン並列性を完全に活用するには各コンポーネントが必要であることを示し、ライブラリの効率性を実証する。
論文 参考訳(メタデータ) (2020-04-21T11:27:00Z) - Multi-layer Optimizations for End-to-End Data Analytics [71.05611866288196]
代替アプローチを実現するフレームワークであるIFAQ(Iterative Functional Aggregate Queries)を紹介する。
IFAQは、特徴抽出クエリと学習タスクを、IFAQのドメイン固有言語で与えられた1つのプログラムとして扱う。
IFAQ の Scala 実装が mlpack,Scikit,特殊化を数桁で上回り,線形回帰木モデルや回帰木モデルを複数の関係データセット上で処理可能であることを示す。
論文 参考訳(メタデータ) (2020-01-10T16:14:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。