論文の概要: A systematic data characteristic understanding framework towards physical-sensor big data challenges
- arxiv url: http://arxiv.org/abs/2501.12720v1
- Date: Wed, 22 Jan 2025 08:49:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-23 13:27:52.541212
- Title: A systematic data characteristic understanding framework towards physical-sensor big data challenges
- Title(参考訳): 物理センサによるビッグデータ問題への体系的データ特徴理解フレームワーク
- Authors: Zhipeng Ma, Bo Nørregaard Jørgensen, Zheng Grace Ma,
- Abstract要約: センサネットワークの最近の進歩とIoTの普及により、物理的なセンサーデータの収集が大規模に行われている。
ビッグデータの課題を明らかにし、データ品質を向上させるためには、データ特性を定量的に公開することが不可欠である。
本稿では,6Vsモデルに基づくデータ特性の体系化フレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.9672182825841383
- License:
- Abstract: Big data present new opportunities for modern society while posing challenges for data scientists. Recent advancements in sensor networks and the widespread adoption of IoT have led to the collection of physical-sensor data on an enormous scale. However, significant challenges arise in high-quality big data analytics. To uncover big data challenges and enhance data quality, it is essential to quantitatively unveil data characteristics. Furthermore, the existing studies lack analysis of the specific time-related characteristics. Enhancing the efficiency and precision of data analytics through the big data lifecycle requires a comprehensive understanding of data characteristics to address the hidden big data challenges. To fill in the research gap, this paper proposes a systematic data characteristic framework based on a 6Vs model. The framework aims to unveil the data characteristics in terms of data volume, variety, velocity, veracity, value, and variability through a set of statistical indicators. This model improves the objectivity of data characteristic understanding by relying solely on data-driven indicators. The indicators related to time-related characteristics in physical-sensor data are also included. Furthermore, the big data challenges are linked to each dimension of the 6Vs model to gain a quantitative understanding of the data challenges. Finally, a pipeline is developed to implement the proposed framework, and two case studies are conducted to illustrate the process of understanding the physical-sensor data characteristics and making recommendations for data preprocessing to address the big data challenges. The proposed framework is able to analyze the characteristics of all physical-sensor data, therefore, identifying potential challenges in subsequent analytics, and providing recommendations for data preprocessing.
- Abstract(参考訳): ビッグデータは、データサイエンティストに挑戦しながら、現代社会に新たな機会を与えます。
センサネットワークの最近の進歩とIoTの普及により、物理的なセンサーデータの収集が大規模に行われている。
しかし、高品質なビッグデータ分析では大きな課題が生じる。
ビッグデータの課題を明らかにし、データ品質を向上させるためには、データ特性を定量的に公開することが不可欠である。
さらに、既存の研究では、特定の時間的特性の分析が欠如している。
ビッグデータライフサイクルを通じて、データ分析の効率性と精度を高めるには、隠れたビッグデータの課題に対処するために、データ特性の包括的な理解が必要である。
研究のギャップを埋めるために,本研究では,6Vsモデルに基づくデータ特性の体系化フレームワークを提案する。
このフレームワークは、データ量、多様性、速度、妥当性、値、変数といった点において、統計指標のセットを通じてデータ特性を明らかにすることを目的としている。
このモデルは、データ駆動型指標のみに依存することにより、データ特性理解の客観性を向上させる。
また、物理センサデータの時間関連特性に関する指標も含んでいる。
さらに、ビッグデータの課題は、データ課題の定量的理解を得るために、6Vモデルの各次元に関連付けられている。
最後に、提案したフレームワークを実装するためのパイプラインを開発し、物理センサデータの特徴を理解するプロセスと、ビッグデータの課題に対処するためのデータ前処理の推奨を行うための2つのケーススタディを行った。
提案したフレームワークは、すべての物理センサデータの特徴を分析し、その後の分析における潜在的な課題を特定し、データ前処理のためのレコメンデーションを提供する。
関連論文リスト
- Best Practices and Lessons Learned on Synthetic Data [83.63271573197026]
AIモデルの成功は、大規模で多様な、高品質なデータセットの可用性に依存している。
合成データは、現実世界のパターンを模倣する人工データを生成することによって、有望なソリューションとして現れてきた。
論文 参考訳(メタデータ) (2024-04-11T06:34:17Z) - Computationally and Memory-Efficient Robust Predictive Analytics Using Big Data [0.0]
本研究では、データ不確実性、ストレージ制限、ビッグデータを用いた予測データ駆動モデリングの課題をナビゲートする。
本稿では,ロバスト主成分分析(RPCA)を有効ノイズ低減と外乱除去に利用し,最適センサ配置(OSP)を効率的なデータ圧縮・記憶に活用する。
論文 参考訳(メタデータ) (2024-03-27T22:39:08Z) - Data Augmentation in Human-Centric Vision [54.97327269866757]
本研究では,人間中心型視覚タスクにおけるデータ拡張手法の包括的分析を行う。
それは、人物のReID、人間のパーシング、人間のポーズ推定、歩行者検出など、幅広い研究領域に展開している。
我々の研究は、データ拡張手法をデータ生成とデータ摂動の2つの主なタイプに分類する。
論文 参考訳(メタデータ) (2024-03-13T16:05:18Z) - Machine Learning Techniques for Sensor-based Human Activity Recognition with Data Heterogeneity -- A Review [0.8142555609235358]
HAR(Human Activity Recognition)はユビキタスコンピューティングにおいて重要である。
HARは特にデータ分散の仮定において、課題に直面します。
本稿では,機械学習がHARにおけるデータの不均一性にどのように対処するかを検討する。
論文 参考訳(メタデータ) (2024-03-12T22:22:14Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Exploring the Potential of AI-Generated Synthetic Datasets: A Case Study
on Telematics Data with ChatGPT [0.0]
この研究は、OpenAIの強力な言語モデルであるChatGPTを活用して、特にテレマティクス分野における合成データセットの構築と利用に力を入れている。
このデータ作成プロセスを説明するために、合成テレマティクスデータセットの生成に焦点を当てたハンズオンケーススタディが実施されている。
論文 参考訳(メタデータ) (2023-06-23T15:15:13Z) - LargeST: A Benchmark Dataset for Large-Scale Traffic Forecasting [65.71129509623587]
道路交通予測はスマートシティのイニシアチブにおいて重要な役割を担い、ディープラーニングの力によって大きな進歩を遂げている。
しかし、現在の公開データセットで達成される有望な結果は、現実的なシナリオには適用できないかもしれない。
カリフォルニアで合計8,600のセンサーと5年間の時間カバレッジを含む、LargeSTベンチマークデータセットを紹介します。
論文 参考訳(メタデータ) (2023-06-14T05:48:36Z) - Beyond Privacy: Navigating the Opportunities and Challenges of Synthetic
Data [91.52783572568214]
合成データは、機械学習の世界において支配的な力となり、データセットを個々のニーズに合わせて調整できる未来を約束する。
合成データのより広範な妥当性と適用のために,コミュニティが克服すべき根本的な課題について論じる。
論文 参考訳(メタデータ) (2023-04-07T16:38:40Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - Occams Razor for Big Data? On Detecting Quality in Large Unstructured
Datasets [0.0]
分析複雑性への新たな傾向は、科学におけるパシモニーやオッカム・ラザーの原理にとって深刻な課題である。
データクラスタリングのための計算的ビルディングブロックアプローチは、最小の計算時間で大規模な非構造化データセットを扱うのに役立つ。
このレビューは、東西の文化的な違いがビッグデータ分析の過程にどのように影響するかを結論付けている。
論文 参考訳(メタデータ) (2020-11-12T16:06:01Z) - Towards an Integrated Platform for Big Data Analysis [4.5257812998381315]
本稿では,これらすべての側面を統合した,ビッグデータ解析のための統合型プレート形式のビジョンについて述べる。
このアプローチの主な利点は、プラットフォーム全体の拡張スケーラビリティ、アルゴリズムのパラメータ化の改善、エンドツーエンドのデータ分析プロセスにおけるユーザビリティの改善である。
論文 参考訳(メタデータ) (2020-04-27T03:15:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。