論文の概要: DataPro -- A Standardized Data Understanding and Processing Procedure: A Case Study of an Eco-Driving Project
- arxiv url: http://arxiv.org/abs/2501.12176v1
- Date: Tue, 21 Jan 2025 14:34:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:19:14.639840
- Title: DataPro -- A Standardized Data Understanding and Processing Procedure: A Case Study of an Eco-Driving Project
- Title(参考訳): DataPro -- 標準化されたデータ理解と処理手順:エコドライブプロジェクトのケーススタディ
- Authors: Zhipeng Ma, Bo Nørregaard Jørgensen, Zheng Grace Ma,
- Abstract要約: CRISP-DMモデルは、実際にデータマイニングプロジェクトを開発するためのデファクトスタンダードである。
本稿では、CRISP-DMを拡張し、データサイエンティストと利害関係者の関係を強調するDataProモデルを提案する。
- 参考スコア(独自算出の注目度): 0.9672182825841383
- License:
- Abstract: A systematic pipeline for data processing and knowledge discovery is essential to extracting knowledge from big data and making recommendations for operational decision-making. The CRISP-DM model is the de-facto standard for developing data-mining projects in practice. However, advancements in data processing technologies require enhancements to this framework. This paper presents the DataPro (a standardized data understanding and processing procedure) model, which extends CRISP-DM and emphasizes the link between data scientists and stakeholders by adding the "technical understanding" and "implementation" phases. Firstly, the "technical understanding" phase aligns business demands with technical requirements, ensuring the technical team's accurate comprehension of business goals. Next, the "implementation" phase focuses on the practical application of developed data science models, ensuring theoretical models are effectively applied in business contexts. Furthermore, clearly defining roles and responsibilities in each phase enhances management and communication among all participants. Afterward, a case study on an eco-driving data science project for fuel efficiency analysis in the Danish public transportation sector illustrates the application of the DataPro model. By following the proposed framework, the project identified key business objectives, translated them into technical requirements, and developed models that provided actionable insights for reducing fuel consumption. Finally, the model is evaluated qualitatively, demonstrating its superiority over other data science procedures.
- Abstract(参考訳): データ処理と知識発見のための体系的なパイプラインは、ビッグデータから知識を抽出し、運用上の意思決定のためのレコメンデーションを作成するために不可欠である。
CRISP-DMモデルは、実際にデータマイニングプロジェクトを開発するためのデファクトスタンダードである。
しかし、データ処理技術の進歩には、このフレームワークの強化が必要である。
本稿では、CRISP-DMを拡張し、「技術的理解」と「実装」のフェーズを追加することで、データサイエンティストと利害関係者のつながりを強調するデータプロ(標準化されたデータ理解・処理手順)モデルを提案する。
まず、"技術的理解"フェーズは、ビジネス要求を技術的要件と整合させ、技術的チームのビジネス目標の正確な理解を保証する。
次に、"実装"フェーズは、発達したデータサイエンスモデルの実践的な応用に焦点を当て、理論モデルがビジネスコンテキストに効果的に適用されることを保証する。
さらに、各フェーズにおける役割と責任を明確に定義することは、すべての参加者のマネジメントとコミュニケーションを強化する。
その後、デンマークの公共交通機関における燃料効率分析のためのエコドライブ型データサイエンスプロジェクトに関するケーススタディが、データプロモデルの応用例を示している。
提案された枠組みに従って、プロジェクトは主要なビジネス目標を特定し、それらを技術的要求に翻訳し、燃料消費を減らすための実用的な洞察を提供するモデルを開発した。
最後に、このモデルを質的に評価し、他のデータサイエンス手法よりも優れていることを示す。
関連論文リスト
- A Survey on Data Synthesis and Augmentation for Large Language Models [35.59526251210408]
本稿では,大規模言語モデルのライフサイクルを通じてデータ生成手法をレビューし,要約する。
これらの手法が直面する現在の制約について考察し,今後の開発・研究の道筋について考察する。
論文 参考訳(メタデータ) (2024-10-16T16:12:39Z) - Procedure Model for Building Knowledge Graphs for Industry Applications [0.0]
グラフベースの未接続情報とドメイン知識の統合は、新たな洞察を提供する。
本稿では,RDF知識グラフ構築のための実践的なステップバイステッププロシージャモデルを提案する。
論文 参考訳(メタデータ) (2024-09-20T11:46:37Z) - Data Acquisition: A New Frontier in Data-centric AI [65.90972015426274]
まず、現在のデータマーケットプレースを調査し、データセットに関する詳細な情報を提供するプラットフォームが不足していることを明らかにする。
次に、データプロバイダと取得者間のインタラクションをモデル化するベンチマークであるDAMチャレンジを紹介します。
提案手法の評価は,機械学習における効果的なデータ取得戦略の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-11-22T22:15:17Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Towards Avoiding the Data Mess: Industry Insights from Data Mesh Implementations [1.5029560229270191]
Data Meshは、企業データ管理のための、社会技術的、分散化されたコンセプトである。
業界の専門家との15の半構造化インタビューを行います。
本研究は,業界の専門家による知見を総合し,データメッシュの採用を成功させるための予備的ガイドラインを研究者や専門家に提供する。
論文 参考訳(メタデータ) (2023-02-03T13:09:57Z) - Process-BERT: A Framework for Representation Learning on Educational
Process Data [68.8204255655161]
本稿では,教育プロセスデータの表現を学習するためのフレームワークを提案する。
我々のフレームワークは、BERT型の目的を用いて、シーケンシャルなプロセスデータから表現を学習する事前学習ステップで構成されています。
当社のフレームワークは,2019年国のレポートカードデータマイニングコンペティションデータセットに適用しています。
論文 参考訳(メタデータ) (2022-04-28T16:07:28Z) - A survey study of success factors in data science projects [0.0]
アジャイルデータサイエンスのライフサイクルは最も広く使われているフレームワークであるが、調査参加者の25%だけがデータサイエンスプロジェクトの方法論に従うと答えている。
プロジェクト方法論に従うプロフェッショナルは、プロジェクトの潜在的なリスクと落とし穴に重点を置いています。
論文 参考訳(メタデータ) (2022-01-17T09:50:46Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - CateCom: a practical data-centric approach to categorization of
computational models [77.34726150561087]
本稿では,物理モデルとデータ駆動型計算モデルのランドスケープを整理する取り組みについて述べる。
オブジェクト指向設計の概念を適用し、オープンソース協調フレームワークの基礎を概説する。
論文 参考訳(メタデータ) (2021-09-28T02:59:40Z) - Data Science Methodologies: Current Challenges and Future Approaches [0.0]
ビジョンの欠如と明確な目標、技術的な問題への偏り、アドホックプロジェクトの成熟度が低いことが、これらの課題のひとつです。
チーム、プロジェクト、データ、情報管理の完全なガイドラインを提供する方法論はほとんどない。
総合的な視点でデータサイエンスプロジェクトを管理するための方法論が持つべき一般的な特徴を含む概念的枠組みを提案する。
論文 参考訳(メタデータ) (2021-06-14T10:34:50Z) - Towards CRISP-ML(Q): A Machine Learning Process Model with Quality
Assurance Methodology [53.063411515511056]
本稿では,機械学習アプリケーション開発のためのプロセスモデルを提案する。
第1フェーズでは、データの可用性がプロジェクトの実現可能性に影響を与えることが多いため、ビジネスとデータの理解が結合されます。
第6フェーズでは、機械学習アプリケーションの監視とメンテナンスに関する最先端のアプローチがカバーされている。
論文 参考訳(メタデータ) (2020-03-11T08:25:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。