Fugu-MT 論文翻訳(概要): Kafka-ML: connecting the data stream with ML/AI frameworks

論文の概要: Kafka-ML: connecting the data stream with ML/AI frameworks

arxiv url: http://arxiv.org/abs/2006.04105v2
Date: Thu, 16 Jul 2020 14:27:06 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-24 08:29:44.043042
Title: Kafka-ML: connecting the data stream with ML/AI frameworks
Title（参考訳）: Kafka-ML: データストリームとML/AIフレームワークの接続
Authors: Cristian Mart\'in, Peter Langendoerfer, Pouya Soltani Zarrin, Manuel D\'iaz and Bartolom\'e Rubio
Abstract要約: 機械学習(ML)と人工知能(AI)は、アルゴリズムを通じてトレーニング、改善、予測を行うデータソースに依存している。 K Kafka-MLは、データストリーム(Apache Kafka)を通じてML/AIパイプラインの管理を可能にするオープンソースのフレームワークである。 K Kafka-ML自体とそのデプロイされたコンポーネントは、コンテナ化テクノロジを通じて完全に管理されている。
参考スコア（独自算出の注目度）: 0.15749416770494704
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Machine Learning (ML) and Artificial Intelligence (AI) have a dependency on data sources to train, improve and make predictions through their algorithms. With the digital revolution and current paradigms like the Internet of Things, this information is turning from static data into continuous data streams. However, most of the ML/AI frameworks used nowadays are not fully prepared for this revolution. In this paper, we proposed Kafka-ML, an open-source framework that enables the management of TensorFlow ML/AI pipelines through data streams (Apache Kafka). Kafka-ML provides an accessible and user-friendly Web User Interface where users can easily define ML models, to then train, evaluate and deploy them for inference. Kafka-ML itself and its deployed components are fully managed through containerization technologies, which ensure its portability and easy distribution and other features such as fault-tolerance and high availability. Finally, a novel approach has been introduced to manage and reuse data streams, which may lead to the (no) utilization of data storage and file systems.
Abstract（参考訳）: 機械学習(ML)と人工知能(AI)は、アルゴリズムを通じてトレーニング、改善、予測を行うデータソースに依存している。デジタル革命やモノのインターネットのような現在のパラダイムによって、この情報は静的データから連続的なデータストリームへと変わりつつある。しかし、現在使われているML/AIフレームワークのほとんどは、この革命に備えて完全には準備されていない。本稿では,データストリーム(Apache Kafka)を通じてTensorFlow ML/AIパイプラインの管理を可能にする,オープンソースのフレームワークであるKafka-MLを提案する。 Kafka-MLは、ユーザが簡単にMLモデルを定義し、推論のためにトレーニング、評価、デプロイできる、アクセシブルでユーザフレンドリなWebユーザインターフェースを提供する。 Kafka-ML自体とそのデプロイされたコンポーネントは、コンテナ化テクノロジを通じて完全に管理されており、ポータビリティと容易に配布できる他、フォールトトレランスや高可用性といった機能を備えている。最後に、データストリームの管理と再利用に新たなアプローチが導入され、データストレージとファイルシステム(no)の利用に繋がる可能性がある。

関連論文リスト

Beyond Next Token Probabilities: Learnable, Fast Detection of Hallucinations and Data Contamination on LLM Output Distributions [60.43398881149664]
LLM出力シグナチャの効率的な符号化を訓練した軽量アテンションベースアーキテクチャであるLOS-Netを紹介する。非常に低い検出レイテンシを維持しながら、さまざまなベンチマークやLLMで優れたパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-03-18T09:04:37Z)
Atlas: A Framework for ML Lifecycle Provenance & Transparency [3.408834854754518]
我々は、完全に検証可能な機械学習パイプラインを可能にするフレームワークであるAtlasを提案する。 Atlasは、モデルのアーティファクト認証とエンドツーエンドの血統メタデータの検証可能なレコードを収集している。プロトタイプ実装は、MLライフサイクルの透明性システムを構築するために、いくつかのオープンソースツールを統合している。
論文参考訳（メタデータ） (2025-02-26T21:18:03Z)
On the Cost of Model-Serving Frameworks: An Experimental Evaluation [2.6232657671486983]
実運用環境でモデルを効果的にデプロイし、管理するためには、サービング戦略が不可欠です。これらの戦略により、実際のアプリケーションでモデルが利用可能で、スケーラブルで、信頼性があり、パフォーマンスが保証される。 DL固有のフレームワーク(TensorFlow ServingとTorchServe)は、3つの汎用MLフレームワークよりも大幅にレイテンシが低いことを示す。
論文参考訳（メタデータ） (2024-11-15T16:36:21Z)
LML-DAP: Language Model Learning a Dataset for Data-Augmented Prediction [0.0]
本稿では,Large Language Models (LLMs) を用いた説明可能な手法によるタスク分類手法を提案する。分類は、データを手動で探索し、理解して分類を決定する人間に類似した手法を用いて、LLMによって行われる。システムはいくつかのテストケースで90%以上の精度を記録し、さまざまなシナリオで機械学習モデルを上回る性能と可能性を確認した。
論文参考訳（メタデータ） (2024-09-27T17:58:50Z)
MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文参考訳（メタデータ） (2023-08-25T01:41:04Z)
In Situ Framework for Coupling Simulation and Machine Learning with Application to CFD [51.04126395480625]
近年、流体力学計算を容易にする機械学習(ML)の多くの成功例が報告されている。シミュレーションが大きくなるにつれて、従来のオフライン学習のための新しいトレーニングデータセットの生成は、I/Oとストレージのボトルネックを生み出します。この作業は、この結合を単純化し、異種クラスタでのその場トレーニングと推論を可能にするソリューションを提供する。
論文参考訳（メタデータ） (2023-06-22T14:07:54Z)
Large Language Models for Automated Data Science: Introducing CAAFE for Context-Aware Automated Feature Engineering [52.09178018466104]
データセットのセマンティックな特徴を生成するために、コンテキスト認識自動特徴工学(CAAFE)を導入する。方法論的には単純だが、CAAFEは14のデータセットのうち11のパフォーマンスを改善している。我々は,AutoMLシステムの範囲をセマンティックなAutoMLに拡張できるコンテキスト認識ソリューションの重要性を強調した。
論文参考訳（メタデータ） (2023-05-05T09:58:40Z)
OmniForce: On Human-Centered, Large Model Empowered and Cloud-Edge Collaborative AutoML System [85.8338446357469]
我々は人間中心のAutoMLシステムであるOmniForceを紹介した。我々は、OmniForceがAutoMLシステムを実践し、オープン環境シナリオにおける適応型AIを構築する方法について説明する。
論文参考訳（メタデータ） (2023-03-01T13:35:22Z)
Federated Learning and Meta Learning: Approaches, Applications, and Directions [94.68423258028285]
本稿では,FL,メタラーニング,フェデレーションメタラーニング(FedMeta)について概観する。他のチュートリアルと異なり、私たちの目標はFL、メタラーニング、FedMetaの方法論をどのように設計、最適化、進化させ、無線ネットワーク上で応用するかを探ることです。
論文参考訳（メタデータ） (2022-10-24T10:59:29Z)
Walle: An End-to-End, General-Purpose, and Large-Scale Production System for Device-Cloud Collaborative Machine Learning [40.09527159285327]
We build the first end-to-end and general-purpose system, called Walle, for device-cloud collaborative machine learning (ML) Walleはデプロイメントプラットフォームで構成され、MLタスクを10億規模のデバイスに分散する。データパイプラインはタスク入力を効率的に準備し、計算コンテナはクロスプラットフォームで高性能な実行環境を提供する。我々はWalleを実践的なeコマースアプリケーションシナリオで評価し、その有効性、効率、スケーラビリティを実証する。
論文参考訳（メタデータ） (2022-05-30T03:43:35Z)
SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文参考訳（メタデータ） (2021-12-22T14:45:37Z)
Tribuo: Machine Learning with Provenance in Java [0.0]
トレーニング、型安全性、ランタイムチェック、自動記録をひとつのフレームワークに統合するJava MLライブラリであるTribuoを紹介します。 Tribuoのモデルと評価はすべて、トレーニングアルゴリズムとともに、入力データの完全な処理パイプラインを記録している。
論文参考訳（メタデータ） (2021-10-06T19:10:50Z)
Enabling Un-/Semi-Supervised Machine Learning for MDSE of the Real-World CPS/IoT Applications [0.5156484100374059]
我々は、スマートサイバー物理システム(CPS)とIoT(Internet of Things)の現実的なユースケースシナリオに対して、ドメイン固有モデル駆動ソフトウェアエンジニアリング(MDSE)をサポートする新しいアプローチを提案する。人工知能(AI)の本質において利用可能なデータの大部分はラベルが付けられていないと我々は主張する。したがって、教師なしおよび/または半教師なしのMLアプローチが実践的な選択である。提案手法は,既存の最先端MDSEツールと完全に実装され,CPS/IoTドメインを提供する。
論文参考訳（メタデータ） (2021-07-06T15:51:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。