論文の概要: Streaming Technologies and Serialization Protocols: Empirical Performance Analysis
- arxiv url: http://arxiv.org/abs/2407.13494v2
- Date: Mon, 4 Nov 2024 08:46:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 20:14:30.246590
- Title: Streaming Technologies and Serialization Protocols: Empirical Performance Analysis
- Title(参考訳): ストリーミング技術とシリアライズプロトコル:実証的パフォーマンス分析
- Authors: Samuel Jackson, Nathan Cummings, Saiful Khan,
- Abstract要約: リアルタイムデータ分析、可視化、マシンラーニングモデルのトレーニングには、効率的なデータストリーミングが不可欠だ。
様々なストリーミング技術とシリアライズプロトコルが、異なるストリーミング要件を満たすために開発されている。
これらの技術間の大きなパフォーマンス差とトレードオフを明らかにする。
- 参考スコア(独自算出の注目度): 0.70224924046445
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Efficient data streaming is essential for real-time data analytics, visualization, and machine learning model training, particularly when dealing with high-volume datasets. Various streaming technologies and serialization protocols have been developed to cater to different streaming requirements, each performing differently depending on specific tasks and datasets involved. This variety poses challenges in selecting the most appropriate combination, as encountered during the implementation of streaming system for the MAST fusion device data or SKA's radio astronomy data. To address this challenge, we conducted an empirical study on widely used data streaming technologies and serialization protocols. We also developed an extensible, open-source software framework to benchmark their efficiency across various performance metrics. Our study uncovers significant performance differences and trade-offs between these technologies, providing valuable insights that can guide the selection of optimal streaming and serialization solutions for modern data-intensive applications. Our goal is to equip the scientific community and industry professionals with the knowledge needed to enhance data streaming efficiency for improved data utilization and real-time analysis.
- Abstract(参考訳): 効率的なデータストリーミングは、特に高ボリュームデータセットを扱う場合、リアルタイムデータ分析、可視化、マシンラーニングモデルトレーニングに不可欠である。
さまざまなストリーミング技術とシリアライズプロトコルが開発され、さまざまなストリーミング要件に対応し、それぞれが関連する特定のタスクやデータセットによって異なるパフォーマンスを実現している。
この多様性は、MAST融合デバイスデータやSKAの電波天文学データに対するストリーミングシステムの実装中に遭遇したように、最も適切な組み合わせを選択する上での課題である。
この課題に対処するために、広く使われているデータストリーミング技術とシリアライズプロトコルに関する実証的研究を行った。
また、さまざまなパフォーマンス指標間で効率をベンチマークする拡張性のあるオープンソースのソフトウェアフレームワークも開発しました。
本研究は,現代のデータ集約型アプリケーションにおいて,最適なストリーミングおよびシリアライズソリューションの選択を導くための貴重な洞察を提供するため,これらの技術間の重要なパフォーマンス差とトレードオフを明らかにする。
我々の目標は、データ利用とリアルタイム分析を改善するためにデータストリーミング効率を向上させるために必要な知識を、科学コミュニティと業界専門家に提供することです。
関連論文リスト
- Enabling High Data Throughput Reinforcement Learning on GPUs: A Domain Agnostic Framework for Data-Driven Scientific Research [90.91438597133211]
我々は、強化学習の適用において重要なシステムのボトルネックを克服するために設計されたフレームワークであるWarpSciを紹介する。
我々は、CPUとGPU間のデータ転送の必要性を排除し、数千のシミュレーションを同時実行可能にする。
論文 参考訳(メタデータ) (2024-08-01T21:38:09Z) - Towards an Integrated Performance Framework for Fire Science and Management Workflows [0.0]
本稿では,人工知能と機械学習(AI/ML)による性能評価と最適化手法を提案する。
パフォーマンスデータ収集、予測、最適化を対象とする、関連するAI/MLフレームワークが、ワイルドファイアサイエンスアプリケーションに適用される。
論文 参考訳(メタデータ) (2024-07-30T22:37:25Z) - Federated Learning Optimization: A Comparative Study of Data and Model Exchange Strategies in Dynamic Networks [3.4179091429029382]
デバイス間で生データ、合成データ、または(部分的な)モデル更新を交換する選択について検討する。
私たちが考慮した様々なシナリオにおいて、時間限定の知識伝達効率は9.08%まで異なる可能性がある。
論文 参考訳(メタデータ) (2024-06-16T03:46:23Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。
私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。
ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文 参考訳(メタデータ) (2022-07-20T17:47:54Z) - Distributed intelligence on the Edge-to-Cloud Continuum: A systematic
literature review [62.997667081978825]
このレビューは、現在利用可能な機械学習とデータ分析のための最先端ライブラリとフレームワークに関する包括的なビジョンを提供することを目的としている。
現在利用可能なEdge-to-Cloud Continuumに関する実験的な研究のための、主要なシミュレーション、エミュレーション、デプロイメントシステム、テストベッドも調査されている。
論文 参考訳(メタデータ) (2022-04-29T08:06:05Z) - Deep Reinforcement Learning Assisted Federated Learning Algorithm for
Data Management of IIoT [82.33080550378068]
産業用IoT(Industrial Internet of Things)の継続的な拡大により、IIoT機器は毎回大量のユーザデータを生成する。
IIoTの分野で、これらの時系列データを効率的かつ安全な方法で管理する方法は、依然として未解決の問題である。
本稿では,無線ネットワーク環境におけるIIoT機器データ管理におけるFL技術の適用について検討する。
論文 参考訳(メタデータ) (2022-02-03T07:12:36Z) - Dynamic Network-Assisted D2D-Aided Coded Distributed Learning [59.29409589861241]
本稿では,デバイス間のロードバランシングのための新しいデバイス・ツー・デバイス(D2D)支援型符号化学習手法(D2D-CFL)を提案する。
最小処理時間を達成するための最適圧縮率を導出し、収束時間との接続を確立する。
提案手法は,ユーザが継続的にトレーニングデータを生成するリアルタイム協調アプリケーションに有用である。
論文 参考訳(メタデータ) (2021-11-26T18:44:59Z) - Evaluation of Load Prediction Techniques for Distributed Stream
Processing [0.0]
分散ストリーム処理(DSP)システムは、連続データの大きなストリームを処理し、ほぼリアルタイムで結果を生成する。
DSPシステムにイベントが到着する速度は、時間とともに大きく変化する可能性がある。
入ってくるワークロードの事前知識は、リソース管理と最適化に対する積極的なアプローチを可能にする。
論文 参考訳(メタデータ) (2021-08-10T15:25:32Z) - From Data to Actions in Intelligent Transportation Systems: a
Prescription of Functional Requirements for Model Actionability [10.27718355111707]
この研究は、多種多様なソースから得られたデータが、その資産やシステム、プロセスの効率的な運用のために、データ駆動モデルを学び、適応するためにどのように使用できるかを説明することを目的としている。
ITSのデータモデリングパイプラインでは、データ融合、適応学習、モデル評価という3つの複合ステージに対して、特性、エンジニアリング要件、本質的な課題を定義します。
論文 参考訳(メタデータ) (2020-02-06T12:02:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。