論文の概要: Streaming Technologies and Serialization Protocols: Empirical Performance Analysis
- arxiv url: http://arxiv.org/abs/2407.13494v1
- Date: Thu, 18 Jul 2024 13:24:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-19 15:20:54.689387
- Title: Streaming Technologies and Serialization Protocols: Empirical Performance Analysis
- Title(参考訳): ストリーミング技術とシリアライズプロトコル:実証的パフォーマンス分析
- Authors: Samuel Jackson, Nathan Cummings, Saiful Khan,
- Abstract要約: リアルタイムデータ分析、可視化、AIおよび機械学習モデルのトレーニングには、高ボリュームデータのストリーミングが不可欠だ。
様々なストリーミング技術とシリアライズプロトコルが、異なるストリーミングニーズを満たすために開発されている。
- 参考スコア(独自算出の注目度): 0.70224924046445
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Efficiently streaming high-volume data is essential for real-time data analytics, visualization, and AI and machine learning model training. Various streaming technologies and serialization protocols have been developed to meet different streaming needs. Together, they perform differently across various tasks and datasets. Therefore, when developing a streaming system, it can be challenging to make an informed decision on the suitable combination, as we encountered when implementing streaming for the UKAEA's MAST data or SKA's radio astronomy data. This study addresses this gap by proposing an empirical study of widely used data streaming technologies and serialization protocols. We introduce an extensible and open-source software framework to benchmark their efficiency across various performance metrics. Our findings reveal significant performance differences and trade-offs between these technologies. These insights can help in choosing suitable streaming and serialization solutions for contemporary data challenges. We aim to provide the scientific community and industry professionals with the knowledge to optimize data streaming for better data utilization and real-time analysis.
- Abstract(参考訳): 高ボリュームデータを効率的にストリーミングすることは、リアルタイムデータ分析、可視化、AIおよび機械学習モデルのトレーニングに不可欠である。
様々なストリーミング技術とシリアライズプロトコルが、異なるストリーミングニーズを満たすために開発されている。
同時に、さまざまなタスクやデータセットにわたって異なるパフォーマンスを行う。
したがって、ストリーミングシステムを開発する際、UKAEAのMASTデータやSKAの電波天文学データのためにストリーミングを実装する際に遭遇したように、適切な組み合わせについて情報的決定を行うことは困難である。
本研究では、広く使われているデータストリーミング技術とシリアライズプロトコルを実証研究することで、このギャップに対処する。
さまざまなパフォーマンス指標にまたがって効率をベンチマークする拡張性のあるオープンソースのソフトウェアフレームワークを導入します。
以上の結果から,これらの技術間の性能差とトレードオフが明らかとなった。
これらの洞察は、現代のデータ課題に対して適切なストリーミングおよびシリアライズソリューションを選択するのに役立つ。
我々は、データ利用とリアルタイム分析を改善するためにデータストリーミングを最適化する知識を、科学コミュニティと業界専門家に提供することを目指している。
関連論文リスト
- Enabling High Data Throughput Reinforcement Learning on GPUs: A Domain Agnostic Framework for Data-Driven Scientific Research [90.91438597133211]
我々は、強化学習の適用において重要なシステムのボトルネックを克服するために設計されたフレームワークであるWarpSciを紹介する。
我々は、CPUとGPU間のデータ転送の必要性を排除し、数千のシミュレーションを同時実行可能にする。
論文 参考訳(メタデータ) (2024-08-01T21:38:09Z) - Towards an Integrated Performance Framework for Fire Science and Management Workflows [0.0]
本稿では,人工知能と機械学習(AI/ML)による性能評価と最適化手法を提案する。
パフォーマンスデータ収集、予測、最適化を対象とする、関連するAI/MLフレームワークが、ワイルドファイアサイエンスアプリケーションに適用される。
論文 参考訳(メタデータ) (2024-07-30T22:37:25Z) - Federated Learning Optimization: A Comparative Study of Data and Model Exchange Strategies in Dynamic Networks [3.4179091429029382]
デバイス間で生データ、合成データ、または(部分的な)モデル更新を交換する選択について検討する。
私たちが考慮した様々なシナリオにおいて、時間限定の知識伝達効率は9.08%まで異なる可能性がある。
論文 参考訳(メタデータ) (2024-06-16T03:46:23Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。
私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。
ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文 参考訳(メタデータ) (2022-07-20T17:47:54Z) - Distributed intelligence on the Edge-to-Cloud Continuum: A systematic
literature review [62.997667081978825]
このレビューは、現在利用可能な機械学習とデータ分析のための最先端ライブラリとフレームワークに関する包括的なビジョンを提供することを目的としている。
現在利用可能なEdge-to-Cloud Continuumに関する実験的な研究のための、主要なシミュレーション、エミュレーション、デプロイメントシステム、テストベッドも調査されている。
論文 参考訳(メタデータ) (2022-04-29T08:06:05Z) - Deep Reinforcement Learning Assisted Federated Learning Algorithm for
Data Management of IIoT [82.33080550378068]
産業用IoT(Industrial Internet of Things)の継続的な拡大により、IIoT機器は毎回大量のユーザデータを生成する。
IIoTの分野で、これらの時系列データを効率的かつ安全な方法で管理する方法は、依然として未解決の問題である。
本稿では,無線ネットワーク環境におけるIIoT機器データ管理におけるFL技術の適用について検討する。
論文 参考訳(メタデータ) (2022-02-03T07:12:36Z) - Dynamic Network-Assisted D2D-Aided Coded Distributed Learning [59.29409589861241]
本稿では,デバイス間のロードバランシングのための新しいデバイス・ツー・デバイス(D2D)支援型符号化学習手法(D2D-CFL)を提案する。
最小処理時間を達成するための最適圧縮率を導出し、収束時間との接続を確立する。
提案手法は,ユーザが継続的にトレーニングデータを生成するリアルタイム協調アプリケーションに有用である。
論文 参考訳(メタデータ) (2021-11-26T18:44:59Z) - Evaluation of Load Prediction Techniques for Distributed Stream
Processing [0.0]
分散ストリーム処理(DSP)システムは、連続データの大きなストリームを処理し、ほぼリアルタイムで結果を生成する。
DSPシステムにイベントが到着する速度は、時間とともに大きく変化する可能性がある。
入ってくるワークロードの事前知識は、リソース管理と最適化に対する積極的なアプローチを可能にする。
論文 参考訳(メタデータ) (2021-08-10T15:25:32Z) - From Data to Actions in Intelligent Transportation Systems: a
Prescription of Functional Requirements for Model Actionability [10.27718355111707]
この研究は、多種多様なソースから得られたデータが、その資産やシステム、プロセスの効率的な運用のために、データ駆動モデルを学び、適応するためにどのように使用できるかを説明することを目的としている。
ITSのデータモデリングパイプラインでは、データ融合、適応学習、モデル評価という3つの複合ステージに対して、特性、エンジニアリング要件、本質的な課題を定義します。
論文 参考訳(メタデータ) (2020-02-06T12:02:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。