論文の概要: A Comparative Study of Delta Parquet, Iceberg, and Hudi for Automotive Data Engineering Use Cases
- arxiv url: http://arxiv.org/abs/2508.13396v1
- Date: Mon, 18 Aug 2025 23:06:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.738298
- Title: A Comparative Study of Delta Parquet, Iceberg, and Hudi for Automotive Data Engineering Use Cases
- Title(参考訳): 自動車データ工学におけるデルタパケット, アイスバーグ, フーディの比較検討
- Authors: Dinesh Eswararaj, Ajay Babu Nellipudi, Vandana Kollati,
- Abstract要約: 最新のデータレイクハウスフォーマットであるDelta Parquet、Apache Iceberg、Apache Hudiは、ACIDトランザクション、スキーマ適用、リアルタイムの取り込みなどの機能を提供する。
本研究では,実時間時系列自動車テレメトリデータを用いたDelta Parquet, Iceberg, Hudiの比較分析を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The automotive industry generates vast amounts of data from sensors, telemetry, diagnostics, and real-time operations. Efficient data engineering is critical to handle challenges of latency, scalability, and consistency. Modern data lakehouse formats Delta Parquet, Apache Iceberg, and Apache Hudi offer features such as ACID transactions, schema enforcement, and real-time ingestion, combining the strengths of data lakes and warehouses to support complex use cases. This study presents a comparative analysis of Delta Parquet, Iceberg, and Hudi using real-world time-series automotive telemetry data with fields such as vehicle ID, timestamp, location, and event metrics. The evaluation considers modeling strategies, partitioning, CDC support, query performance, scalability, data consistency, and ecosystem maturity. Key findings show Delta Parquet provides strong ML readiness and governance, Iceberg delivers high performance for batch analytics and cloud-native workloads, while Hudi is optimized for real-time ingestion and incremental processing. Each format exhibits tradeoffs in query efficiency, time-travel, and update semantics. The study offers insights for selecting or combining formats to support fleet management, predictive maintenance, and route optimization. Using structured datasets and realistic queries, the results provide practical guidance for scaling data pipelines and integrating machine learning models in automotive applications.
- Abstract(参考訳): 自動車産業は、センサー、テレメトリ、診断、リアルタイム操作から膨大な量のデータを生成する。
レイテンシ、スケーラビリティ、一貫性といった課題に対処するためには、効率的なデータエンジニアリングが不可欠です。
最新のデータレイクハウスフォーマットであるDelta Parquet、Apache Iceberg、Apache Hudiは、ACIDトランザクション、スキーマ強制、リアルタイムの取り込みなどの機能を提供する。
本研究では、車両ID、タイムスタンプ、位置情報、イベントメトリクスなどのフィールドを用いた実世界の時系列自動車テレメトリデータを用いて、Delta Parquet、Iceberg、Hudiの比較分析を行った。
この評価では、モデリング戦略、パーティショニング、CDCサポート、クエリパフォーマンス、スケーラビリティ、データの一貫性、エコシステムの成熟度について検討している。
主要な発見は、Delta Parquetが強力なMLの準備とガバナンスを提供し、Icebergはバッチ分析とクラウドネイティブワークロードにハイパフォーマンスを提供し、Hudiはリアルタイムの取り込みとインクリメンタル処理に最適化されていることを示している。
各フォーマットは、クエリ効率、時間トラバー、セマンティクスの更新におけるトレードオフを示す。
この研究は、フリート管理、予測メンテナンス、ルート最適化をサポートするフォーマットの選択または組み合わせに関する洞察を提供する。
構造化データセットと現実的なクエリを使用して、データパイプラインのスケーリングと機械学習モデルを自動車アプリケーションに統合するための実践的なガイダンスを提供する。
関連論文リスト
- Text embedding models can be great data engineers [0.0]
テキスト埋め込みによる自動データエンジニアリングパイプラインであるADEPTを提案する。
ADEPTは、さまざまなデータセットセットにおいて、最も優れた既存のベンチマークよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-05-20T18:12:19Z) - Data Scaling Laws for End-to-End Autonomous Driving [83.85463296830743]
16時間から8192時間に及ぶ内部駆動データセット上での簡易エンド・ツー・エンド駆動アーキテクチャの性能評価を行った。
具体的には、目標の性能向上を達成するために、どの程度のトレーニングデータが必要かを調査する。
論文 参考訳(メタデータ) (2025-04-06T03:23:48Z) - Enhancing Pavement Sensor Data Acquisition for AI-Driven Transportation Research [1.22995445255292]
本稿では,交通センサデータ管理のための包括的ガイドラインを提案する。
アーカイブされた静的データとリアルタイムデータストリームの両方をカバーする。
この提案は、I-65とI-69グリーンフィールドを含むINDOTの現実世界のケーススタディに適用された。
論文 参考訳(メタデータ) (2025-02-20T03:37:46Z) - Data-Juicer 2.0: Cloud-Scale Adaptive Data Processing for and with Foundation Models [64.28420991770382]
Data-Juicer 2.0は、テキスト、画像、ビデオ、オーディオのモダリティにまたがるデータ処理オペレーターがバックアップするデータ処理システムである。
データ分析、アノテーション、基礎モデルポストトレーニングなど、より重要なタスクをサポートする。
さまざまな研究分野やAlibaba Cloud PAIのような現実世界の製品で広く採用されている。
論文 参考訳(メタデータ) (2024-12-23T08:29:57Z) - Reconsidering utility: unveiling the limitations of synthetic mobility data generation algorithms in real-life scenarios [49.1574468325115]
実世界の応用性の観点から,5つの最先端合成手法の有用性を評価した。
我々は、GPS追跡タクシーのような細粒度都市の動きを符号化するいわゆる旅行データに焦点を当てる。
あるモデルは妥当な時間内にデータを生成することができず、別のモデルはマップマッチングの要件を満たすためにあまりに多くのジャンプを生成する。
論文 参考訳(メタデータ) (2024-07-03T16:08:05Z) - Data-Copilot: Bridging Billions of Data and Humans with Autonomous Workflow [49.28944613907541]
金融、気象学、エネルギーといった産業は毎日大量のデータを生み出している。
本研究では,データ分析エージェントであるData-Copilotを提案する。
論文 参考訳(メタデータ) (2023-06-12T16:12:56Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - Real-Time Forecasting of Dockless Scooter-Sharing Demand: A
Spatio-Temporal Multi-Graph Transformer Approach [5.6973480878880824]
本稿では,S-TMGT (S-Temporal Multi-Graph Transformer) という新しいディープラーニングアーキテクチャを提案する。
提案したモデルは、マイクロモビリティーオペレーターが最適な車両再バランススキームを開発し、ドックレススクーターシェアリングオペレーションをよりよく管理するために都市を案内するのに役立つ。
論文 参考訳(メタデータ) (2021-11-02T03:48:48Z) - Predicting Take-over Time for Autonomous Driving with Real-World Data:
Robust Data Augmentation, Models, and Evaluation [11.007092387379076]
我々は、運転者向けカメラビューで動作するコンピュータビジョンアルゴリズムによって作成される中高レベルの機能で動作するテイクオーバー時間(TOT)モデルを開発し、訓練する。
拡張データでサポートされたTOTモデルを用いて,遅延なく連続的なテイクオーバー時間を推定できることを示す。
論文 参考訳(メタデータ) (2021-07-27T16:39:50Z) - From Data to Actions in Intelligent Transportation Systems: a
Prescription of Functional Requirements for Model Actionability [10.27718355111707]
この研究は、多種多様なソースから得られたデータが、その資産やシステム、プロセスの効率的な運用のために、データ駆動モデルを学び、適応するためにどのように使用できるかを説明することを目的としている。
ITSのデータモデリングパイプラインでは、データ融合、適応学習、モデル評価という3つの複合ステージに対して、特性、エンジニアリング要件、本質的な課題を定義します。
論文 参考訳(メタデータ) (2020-02-06T12:02:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。