論文の概要: Data Science: a Natural Ecosystem
- arxiv url: http://arxiv.org/abs/2506.11010v1
- Date: Fri, 25 Apr 2025 08:43:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-22 23:32:14.46607
- Title: Data Science: a Natural Ecosystem
- Title(参考訳): データサイエンス:自然生態系
- Authors: Emilio Porcu, Roy El Moukari, Laurent Najman, Francisco Herrera, Horst Simon,
- Abstract要約: この原稿は、私たちが本質的なデータ科学と呼ぶものの全体像(データ中心)を提供する。
データサイエンティストは、ミッションに従って定義された課題に直面します。
我々は本質的なデータ科学を計算と基礎に意味的に分割した。
- 参考スコア(独自算出の注目度): 8.870389904165705
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This manuscript provides a holistic (data-centric) view of what we term essential data science, as a natural ecosystem with challenges and missions stemming from the data universe with its multiple combinations of the 5D complexities (data structure, domain, cardinality, causality, and ethics) with the phases of the data life cycle. Data agents perform tasks driven by specific goals. The data scientist is an abstract entity that comes from the logical organization of data agents with their actions. Data scientists face challenges that are defined according to the missions. We define specific discipline-induced data science, which in turn allows for the definition of pan-data science, a natural ecosystem that integrates specific disciplines with the essential data science. We semantically split the essential data science into computational, and foundational. We claim that there is a serious threat of divergence between computational and foundational data science. Especially, if no approach is taken to rate whether a data universe discovery should be useful or not. We suggest that rigorous approaches to measure the usefulness of data universe discoveries might mitigate such a divergence.
- Abstract(参考訳): この原稿は、データ・ライフ・サイクルのフェーズに、5Dの複雑さ(データ構造、領域、基数、因果性、倫理)を複数組み合わせることで、データ・ユニバースから生じる課題とミッションを持つ自然のエコシステムとして、私たちが本質的なデータ・サイエンスと呼ぶものに対する全体像(データ中心)を提供する。
データエージェントは、特定の目標によって駆動されるタスクを実行する。
データサイエンティストは、データエージェントの論理的組織と行動から生まれた抽象的なエンティティである。
データサイエンティストは、ミッションに従って定義された課題に直面します。
我々は、特定の規律と本質的なデータ科学を統合する自然生態系であるパンデータ科学の定義を可能にする、特定の規律によって引き起こされるデータ科学を定義します。
我々は本質的なデータ科学を計算と基礎に意味的に分割した。
我々は、計算科学と基礎データ科学の間には深刻な分岐の脅威があると主張している。
特に、データ宇宙の発見が有用かどうかを評価するためのアプローチが取られていない場合。
我々は、データ宇宙発見の有用性を測定するための厳密なアプローチが、そのような分散を緩和するかもしれないことを示唆している。
関連論文リスト
- Foundation Models for Spatio-Temporal Data Science: A Tutorial and Survey [69.0648659029394]
時空間(ST)データサイエンスは、都市コンピューティング、気候科学、インテリジェントトランスポートといった領域における複雑なシステムを理解するのに不可欠である。
研究者は、様々なSTタスクに対する適応性と一般化を高めるために、時空間モデル(STFM)の概念を探求し始めている。
STFMは、データセンシング、管理、マイニングなど、STデータサイエンスのワークフロー全体を強化し、より包括的でスケーラブルなアプローチを提供する。
論文 参考訳(メタデータ) (2025-03-12T09:42:18Z) - Building Machine Learning Challenges for Anomaly Detection in Science [94.24422981343699]
本稿では,異なる科学領域を対象とした機械学習による異常検出を目的とした3つのデータセットを提案する。
3つのデータセットを検索可能、アクセス可能、相互運用可能、再利用可能なものにするために、機械学習の課題を提起する。
論文 参考訳(メタデータ) (2025-03-03T22:54:07Z) - Causal Representation Learning in Temporal Data via Single-Parent Decoding [66.34294989334728]
科学的研究はしばしば、システム内の高レベル変数の根底にある因果構造を理解しようとする。
科学者は通常、地理的に分布した温度測定などの低レベルの測定を収集する。
そこで本研究では,単一親の復号化による因果発見法を提案し,その上で下位の潜伏者と因果グラフを同時に学習する。
論文 参考訳(メタデータ) (2024-10-09T15:57:50Z) - DSBench: How Far Are Data Science Agents from Becoming Data Science Experts? [58.330879414174476]
現実的なタスクでデータサイエンスエージェントを評価するためのベンチマークであるDSBenchを紹介する。
このベンチマークには、466のデータ分析タスクと、EloquenceとKaggleのコンペからソースされた74のデータモデリングタスクが含まれている。
現状のLLM, LVLM, エージェントを評価したところ, 最高のエージェントはデータ解析タスクの34.12%しか解決できず, RPG(Relative Performance Gap)は34.74%であった。
論文 参考訳(メタデータ) (2024-09-12T02:08:00Z) - The Future of Data Science Education [0.11566458078238004]
バージニア大学のデータサイエンススクールは、データサイエンスの定義のための新しいモデルを開発した。
本稿では、モデルの中核となる特徴を説明し、AIの分析コンポーネントを超えて、さまざまな概念を統合する方法について説明する。
論文 参考訳(メタデータ) (2024-07-16T15:11:54Z) - On Responsible Machine Learning Datasets with Fairness, Privacy, and Regulatory Norms [56.119374302685934]
AI技術の信頼性に関する深刻な懸念があった。
機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。
本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T14:01:53Z) - A data science axiology: the nature, value, and risks of data science [0.0]
データサイエンスは、知識発見のための未完成のスコープ、スケール、複雑さ、パワーを持つ研究パラダイムである。
本稿では、データサイエンスの公理、その目的、性質、重要性、リスク、問題解決の価値について述べる。
論文 参考訳(メタデータ) (2023-07-19T21:12:04Z) - Defining data science: a new field of inquiry [0.0]
現代のデータサイエンスは生まれたばかりで、1962年から徐々に発展し、2000年から急速に発展し、21世紀の最も活発で強力で急速に進化しているイノベーションの1つです。
その価値、パワー、適用性のために、40以上の分野、何百もの研究領域、何千ものアプリケーションで登場しています。
本研究は、データサイエンス参照フレームワークに基づく一貫性のある統一された定義の開発を提案することにより、このデータサイエンスの多重定義問題に対処する。
論文 参考訳(メタデータ) (2023-06-28T12:58:42Z) - Data-Copilot: Bridging Billions of Data and Humans with Autonomous Workflow [49.28944613907541]
金融、気象学、エネルギーといった産業は毎日大量のデータを生み出している。
本研究では,データ分析エージェントであるData-Copilotを提案する。
論文 参考訳(メタデータ) (2023-06-12T16:12:56Z) - Position Paper on Dataset Engineering to Accelerate Science [1.952708415083428]
この作業では、トークン ittextdataset を使用して、明確に定義されたタスクを実行するために構築されたデータの構造化セットを指定する。
具体的には、科学において、各領域にはデータセットを整理、収集、処理するためのユニークな形態がある。
科学と工学の発見プロセスは、データセット上のそのような組織の必要性の極端な例である、と我々は主張する。
論文 参考訳(メタデータ) (2023-03-09T19:07:40Z) - Modeling Information Change in Science Communication with Semantically
Matched Paraphrases [50.67030449927206]
SPICEDは、情報変化の度合いに注釈を付けた科学的な発見の最初のパラフレーズデータセットである。
SPICEDには、ニュース記事、ソーシャルメディアの議論、オリジナル論文の全文から抽出された6000の科学的発見ペアが含まれている。
SPICEDで訓練されたモデルは、実世界の科学的主張の事実チェックのための証拠検索において下流のパフォーマンスを改善する。
論文 参考訳(メタデータ) (2022-10-24T07:44:38Z) - Data Science: Challenges and Directions [42.98602883069444]
データサイエンスのタイトルを含む何百もの文献をレビューする。
議論の大部分は、統計、データマイニング、機械学習、ビッグデータ、あるいは広範なデータ分析に関するものだと考えています。
我々は、複雑なシステムとしてのデータサイエンス問題の性質にインスパイアされた研究とイノベーションの課題に焦点を当てる。
論文 参考訳(メタデータ) (2020-06-28T01:49:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。