論文の概要: Data Science: a Natural Ecosystem
- arxiv url: http://arxiv.org/abs/2506.11010v1
- Date: Fri, 25 Apr 2025 08:43:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-22 23:32:14.46607
- Title: Data Science: a Natural Ecosystem
- Title(参考訳): データサイエンス:自然生態系
- Authors: Emilio Porcu, Roy El Moukari, Laurent Najman, Francisco Herrera, Horst Simon,
- Abstract要約: この原稿は、私たちが本質的なデータ科学と呼ぶものの全体像(データ中心)を提供する。
データサイエンティストは、ミッションに従って定義された課題に直面します。
我々は本質的なデータ科学を計算と基礎に意味的に分割した。
- 参考スコア(独自算出の注目度): 8.870389904165705
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This manuscript provides a holistic (data-centric) view of what we term essential data science, as a natural ecosystem with challenges and missions stemming from the data universe with its multiple combinations of the 5D complexities (data structure, domain, cardinality, causality, and ethics) with the phases of the data life cycle. Data agents perform tasks driven by specific goals. The data scientist is an abstract entity that comes from the logical organization of data agents with their actions. Data scientists face challenges that are defined according to the missions. We define specific discipline-induced data science, which in turn allows for the definition of pan-data science, a natural ecosystem that integrates specific disciplines with the essential data science. We semantically split the essential data science into computational, and foundational. We claim that there is a serious threat of divergence between computational and foundational data science. Especially, if no approach is taken to rate whether a data universe discovery should be useful or not. We suggest that rigorous approaches to measure the usefulness of data universe discoveries might mitigate such a divergence.
- Abstract(参考訳): この原稿は、データ・ライフ・サイクルのフェーズに、5Dの複雑さ(データ構造、領域、基数、因果性、倫理)を複数組み合わせることで、データ・ユニバースから生じる課題とミッションを持つ自然のエコシステムとして、私たちが本質的なデータ・サイエンスと呼ぶものに対する全体像(データ中心)を提供する。
データエージェントは、特定の目標によって駆動されるタスクを実行する。
データサイエンティストは、データエージェントの論理的組織と行動から生まれた抽象的なエンティティである。
データサイエンティストは、ミッションに従って定義された課題に直面します。
我々は、特定の規律と本質的なデータ科学を統合する自然生態系であるパンデータ科学の定義を可能にする、特定の規律によって引き起こされるデータ科学を定義します。
我々は本質的なデータ科学を計算と基礎に意味的に分割した。
我々は、計算科学と基礎データ科学の間には深刻な分岐の脅威があると主張している。
特に、データ宇宙の発見が有用かどうかを評価するためのアプローチが取られていない場合。
我々は、データ宇宙発見の有用性を測定するための厳密なアプローチが、そのような分散を緩和するかもしれないことを示唆している。
関連論文リスト
- Causal Representation Learning in Temporal Data via Single-Parent Decoding [66.34294989334728]
科学的研究はしばしば、システム内の高レベル変数の根底にある因果構造を理解しようとする。
科学者は通常、地理的に分布した温度測定などの低レベルの測定を収集する。
そこで本研究では,単一親の復号化による因果発見法を提案し,その上で下位の潜伏者と因果グラフを同時に学習する。
論文 参考訳(メタデータ) (2024-10-09T15:57:50Z) - The Future of Data Science Education [0.11566458078238004]
バージニア大学のデータサイエンススクールは、データサイエンスの定義のための新しいモデルを開発した。
本稿では、モデルの中核となる特徴を説明し、AIの分析コンポーネントを超えて、さまざまな概念を統合する方法について説明する。
論文 参考訳(メタデータ) (2024-07-16T15:11:54Z) - On Responsible Machine Learning Datasets with Fairness, Privacy, and Regulatory Norms [56.119374302685934]
AI技術の信頼性に関する深刻な懸念があった。
機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。
本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T14:01:53Z) - Defining data science: a new field of inquiry [0.0]
現代のデータサイエンスは生まれたばかりで、1962年から徐々に発展し、2000年から急速に発展し、21世紀の最も活発で強力で急速に進化しているイノベーションの1つです。
その価値、パワー、適用性のために、40以上の分野、何百もの研究領域、何千ものアプリケーションで登場しています。
本研究は、データサイエンス参照フレームワークに基づく一貫性のある統一された定義の開発を提案することにより、このデータサイエンスの多重定義問題に対処する。
論文 参考訳(メタデータ) (2023-06-28T12:58:42Z) - Data-Copilot: Bridging Billions of Data and Humans with Autonomous Workflow [49.28944613907541]
金融、気象学、エネルギーといった産業は毎日大量のデータを生み出している。
本研究では,データ分析エージェントであるData-Copilotを提案する。
論文 参考訳(メタデータ) (2023-06-12T16:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。