Fugu-MT 論文翻訳(概要): Kamae: Bridging Spark and Keras for Seamless ML Preprocessing

論文の概要: Kamae: Bridging Spark and Keras for Seamless ML Preprocessing

arxiv url: http://arxiv.org/abs/2507.06021v1
Date: Tue, 08 Jul 2025 14:30:10 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-09 16:34:38.163066
Title: Kamae: Bridging Spark and Keras for Seamless ML Preprocessing
Title（参考訳）: Kamae: シームレスML前処理のためのSparkとKeraのブリッジ
Authors: George Barrowclough, Marian Andrecki, James Shinner, Daniele Donghi,
Abstract要約: KamaeはPythonライブラリで、PySparkの前処理パイプラインを同等のKerasモデルに変換することでギャップを埋める。このフレームワークは、MovieLensデータセットやExpediaのLearning-to-Rankパイプラインなど、現実世界のユースケースで説明されている。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: In production recommender systems, feature preprocessing must be faithfully replicated across training and inference environments. This often requires duplicating logic between offline and online environments, increasing engineering effort and introducing risks of dataset shift. We present Kamae, an open-source Python library that bridges this gap by translating PySpark preprocessing pipelines into equivalent Keras models. Kamae provides a suite of configurable Spark transformers and estimators, each mapped to a corresponding Keras layer, enabling consistent, end-to-end preprocessing across the ML lifecycle. Framework's utility is illustrated on real-world use cases, including MovieLens dataset and Expedia's Learning-to-Rank pipelines. The code is available at https://github.com/ExpediaGroup/kamae.
Abstract（参考訳）: プロダクションレコメンデータシステムでは、機能前処理はトレーニングと推論環境間で忠実に複製されなければならない。これはしばしば、オフライン環境とオンライン環境の間のロジックの重複、エンジニアリングの労力の増加、データセットシフトのリスクの導入を必要とする。我々は、PySparkプリプロセスパイプラインを同等のKerasモデルに変換することで、このギャップを埋めるオープンソースのPythonライブラリであるKamaeを紹介します。 Kamaeは、設定可能なSpark変換器と推定器のスイートを提供し、それぞれが対応するKeras層にマッピングされ、MLライフサイクル全体で一貫したエンドツーエンドの事前処理を可能にする。フレームワークのユーティリティは、MovieLensデータセットやExpediaのLearning-to-Rankパイプラインなど、現実世界のユースケースで説明されている。コードはhttps://github.com/ExpediaGroup/kamae.comで入手できる。

関連論文リスト

stratum: A System Infrastructure for Massive Agent-Centric ML Workloads [8.123450153690424]
大規模言語モデル(LLM)は、完全な機械学習(ML)パイプラインを生成し、検証し、最適化する。既存のPythonベースのMLエコシステムは、Panda scikit-learnのようなライブラリを中心に構築されている。パイプライン実行を計画と推論から分離する統合システムインフラストラクチャである Stratum を提案する。
論文参考訳（メタデータ） (2026-03-03T23:43:12Z)
PyPulse: A Python Library for Biosignal Imputation [58.35269251730328]
PyPulseは,臨床およびウェアラブルの両方のセンサ設定において生体信号の計算を行うPythonパッケージである。 PyPulseのフレームワークは、非機械学習バイオリサーバーを含む幅広いユーザーベースに対して、使い勝手の良いモジュラーで拡張可能なフレームワークを提供する。 PyPulseはMITライセンスでGithubとPyPIでリリースしました。
論文参考訳（メタデータ） (2024-12-09T11:00:55Z)
Cuvis.Ai: An Open-Source, Low-Code Software Ecosystem for Hyperspectral Processing and Classification [0.4038539043067986]
cuvis.aiは、データ取得、前処理、モデルトレーニングのためのオープンソースでローコードなソフトウェアエコシステムである。パッケージはPythonで書かれており、一般的な機械学習ライブラリのラッパーを提供する。
論文参考訳（メタデータ） (2024-11-18T06:33:40Z)
KerasCV and KerasNLP: Vision and Language Power-Ups [9.395199188271254]
KerasCVとKerasNLPはコンピュータビジョンと自然言語処理のためのKeras APIの拡張である。これらのドメインパッケージは、使いやすさとパフォーマンスを重視した高速な実験を可能にするように設計されている。ライブラリは完全にオープンソース(Apache 2.0ライセンス)で、GitHubから入手できる。
論文参考訳（メタデータ） (2024-05-30T16:58:34Z)
pyvene: A Library for Understanding and Improving PyTorch Models via Interventions [79.72930339711478]
$textbfpyvene$は、さまざまなPyTorchモジュールに対するカスタマイズ可能な介入をサポートするオープンソースライブラリである。私たちは、$textbfpyvene$が、ニューラルモデルへの介入を実行し、他のモデルとインターバルされたモデルを共有するための統一されたフレームワークを提供する方法を示します。
論文参考訳（メタデータ） (2024-03-12T16:46:54Z)
torchgfn: A PyTorch GFlowNet library [56.071033896777784]
torchgfnはPyTorchライブラリで、このニーズに対処することを目指している。環境のためのシンプルなAPIと、サンプルと損失のための有用な抽象化を提供する。
論文参考訳（メタデータ） (2023-05-24T00:20:59Z)
DADApy: Distance-based Analysis of DAta-manifolds in Python [51.37841707191944]
DADApyは、高次元データの分析と特徴付けのためのピソンソフトウェアパッケージである。固有次元と確率密度を推定し、密度に基づくクラスタリングを行い、異なる距離メトリクスを比較する方法を提供する。
論文参考訳（メタデータ） (2022-05-04T08:41:59Z)
PyHHMM: A Python Library for Heterogeneous Hidden Markov Models [63.01207205641885]
PyHHMM は Heterogeneous-Hidden Markov Models (HHMM) のオブジェクト指向Python実装である。 PyHHMMは、異種観測モデル、データ推論の欠如、異なるモデルの順序選択基準、半教師付きトレーニングなど、同様のフレームワークではサポートされない機能を強調している。 PyHHMMは、numpy、scipy、scikit-learn、およびシーボーンPythonパッケージに依存しており、Apache-2.0ライセンスの下で配布されている。
論文参考訳（メタデータ） (2022-01-12T07:32:36Z)
PTRAIL -- A python package for parallel trajectory data preprocessing [2.348339658768759]
軌道データは、時間とともに空間における位置を変化させる物体の痕跡を表す。トラジェクトリデータを前処理するように特別に調整されたソフトウェアが必要である。提案するPTRAILは,数ステップの軌道前処理を行うピソンパッケージである。
論文参考訳（メタデータ） (2021-08-26T20:14:07Z)
SuperSuit: Simple Microwrappers for Reinforcement Learning Environments [0.0]
SuperSuitはPythonライブラリで、すべての人気のあるラッパーとラッパーが含まれており、観察/アクション/リワードに関数を簡単に適用できる。これは、標準のGym環境仕様と、マルチエージェント環境のためのPettingZoo仕様と互換性がある。
論文参考訳（メタデータ） (2020-08-17T00:30:06Z)
Picasso: A Sparse Learning Library for High Dimensional Data Analysis in R and Python [77.33905890197269]
本稿では,様々なスパース学習問題に対して,経路座標を統一的に最適化する新しいライブラリについて述べる。ライブラリはR++でコード化されており、ユーザフレンドリーなスパース実験を行っている。
論文参考訳（メタデータ） (2020-06-27T02:39:24Z)
torchgpipe: On-the-fly Pipeline Parallelism for Training Giant Models [19.024035785367044]
我々は,GPipe によるチェックポインティングによるマイクロバッチパイプライン並列化を実現するために,PyTorch で用意されたライブラリを設計,実装した。このような環境下でパイプライン並列性を完全に活用するには各コンポーネントが必要であることを示し、ライブラリの効率性を実証する。
論文参考訳（メタデータ） (2020-04-21T11:27:00Z)
Multi-layer Optimizations for End-to-End Data Analytics [71.05611866288196]
代替アプローチを実現するフレームワークであるIFAQ(Iterative Functional Aggregate Queries)を紹介する。 IFAQは、特徴抽出クエリと学習タスクを、IFAQのドメイン固有言語で与えられた1つのプログラムとして扱う。 IFAQ の Scala 実装が mlpack,Scikit,特殊化を数桁で上回り,線形回帰木モデルや回帰木モデルを複数の関係データセット上で処理可能であることを示す。
論文参考訳（メタデータ） (2020-01-10T16:14:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。