論文の概要: Defining data science: a new field of inquiry
- arxiv url: http://arxiv.org/abs/2306.16177v2
- Date: Tue, 11 Jul 2023 14:11:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-12 18:01:36.947870
- Title: Defining data science: a new field of inquiry
- Title(参考訳): データサイエンスを定義する: 探究の新しい分野
- Authors: Michael L Brodie
- Abstract要約: 現代のデータサイエンスは生まれたばかりで、1962年から徐々に発展し、2000年から急速に発展し、21世紀の最も活発で強力で急速に進化しているイノベーションの1つです。
その価値、パワー、適用性のために、40以上の規律、何百もの研究領域、何千ものアプリケーションに現れています。
本研究は、データサイエンス参照フレームワークに基づく一貫性のある統一された定義の開発を提案することにより、このデータサイエンスの多重定義問題に対処する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data science is not a science. It is a research paradigm. Its power, scope,
and scale will surpass science, our most powerful research paradigm, to enable
knowledge discovery and change our world. We have yet to understand and define
it, vital to realizing its potential and managing its risks. Modern data
science is in its infancy. Emerging slowly since 1962 and rapidly since 2000,
it is a fundamentally new field of inquiry, one of the most active, powerful,
and rapidly evolving 21st century innovations. Due to its value, power, and
applicability, it is emerging in 40+ disciplines, hundreds of research areas,
and thousands of applications. Millions of data science publications contain
myriad definitions of data science and data science problem solving. Due to its
infancy, many definitions are independent, application-specific, mutually
incomplete, redundant, or inconsistent, hence so is data science. This research
addresses this data science multiple definitions challenge by proposing the
development of coherent, unified definition based on a data science reference
framework using a data science journal for the data science community to
achieve such a definition. This paper provides candidate definitions for
essential data science artifacts that are required to discuss such a
definition. They are based on the classical research paradigm concept
consisting of a philosophy of data science, the data science problem solving
paradigm, and the six component data science reference framework (axiology,
ontology, epistemology, methodology, methods, technology) that is a frequently
called for unifying framework with which to define, unify, and evolve data
science. It presents challenges for defining data science, solution approaches,
i.e., means for defining data science, and their requirements and benefits as
the basis of a comprehensive solution.
- Abstract(参考訳): データサイエンスは科学ではない。
それは研究パラダイムです。
その力、範囲、スケールは、我々の最も強力な研究パラダイムである科学を越え、知識の発見と世界を変えることができるでしょう。
私たちはまだそれを理解し定義しておらず、その可能性を認識し、リスクを管理するために不可欠です。
現代のデータサイエンスは始まったばかりです。
1962年から徐々に発展し、2000年から急速に発展し、21世紀の最も活発で強力な革新の1つであり、基本的に新しい調査分野である。
その価値、パワー、適用性のために、40以上の規律、何百もの研究領域、何千ものアプリケーションに現れています。
何百万ものデータサイエンス出版物には、データサイエンスとデータサイエンスの問題解決の無数の定義が含まれている。
幼少期のため、多くの定義は独立性、アプリケーション固有性、相互不完全性、冗長性、矛盾性がある。
本研究では,データサイエンスコミュニティのためのデータサイエンスジャーナルを用いた,データサイエンス参照フレームワークに基づくコヒーレントで統一的な定義の開発を提案することにより,このデータサイエンスの多重定義の課題を解決する。
本稿では、そのような定義を議論するために必要なデータサイエンスアーティファクトの候補定義を提供する。
データサイエンスの哲学、データサイエンスの問題解決パラダイム、およびデータサイエンスを定義し、統一し、発展させるためのフレームワークとしてしばしば呼ばれる6つの要素データサイエンス参照フレームワーク(公理学、オントロジ、認識論、方法論、手法、技術)からなる古典的な研究パラダイムの概念に基づいている。
データ科学を定義するための課題、すなわち、データ科学を定義するための手段、そして包括的ソリューションの基盤としてのそれらの要求と利益を示す。
関連論文リスト
- Causal Representation Learning in Temporal Data via Single-Parent Decoding [66.34294989334728]
科学的研究はしばしば、システム内の高レベル変数の根底にある因果構造を理解しようとする。
科学者は通常、地理的に分布した温度測定などの低レベルの測定を収集する。
そこで本研究では,単一親の復号化による因果発見法を提案し,その上で下位の潜伏者と因果グラフを同時に学習する。
論文 参考訳(メタデータ) (2024-10-09T15:57:50Z) - The Future of Data Science Education [0.11566458078238004]
バージニア大学のデータサイエンススクールは、データサイエンスの定義のための新しいモデルを開発した。
本稿では、モデルの中核となる特徴を説明し、AIの分析コンポーネントを超えて、さまざまな概念を統合する方法について説明する。
論文 参考訳(メタデータ) (2024-07-16T15:11:54Z) - A Comprehensive Survey of Scientific Large Language Models and Their Applications in Scientific Discovery [68.48094108571432]
大規模言語モデル(LLM)は、テキストやその他のデータ処理方法に革命をもたらした。
我々は,科学LLM間のクロスフィールドおよびクロスモーダル接続を明らかにすることで,研究ランドスケープのより総合的なビューを提供することを目指している。
論文 参考訳(メタデータ) (2024-06-16T08:03:24Z) - SciInstruct: a Self-Reflective Instruction Annotated Dataset for Training Scientific Language Models [57.96527452844273]
我々はSciInstructを紹介した。SciInstructは、大学レベルの科学的推論が可能な科学言語モデルを訓練するための科学指導スイートである。
我々は、物理学、化学、数学、公式な証明を含む多種多様な高品質なデータセットをキュレートした。
SciInstructの有効性を検証するため、SciInstruct、すなわちChatGLM3(6Bと32B)、Llama3-8B-Instruct、Mistral-7B: MetaMathを用いて言語モデルを微調整した。
論文 参考訳(メタデータ) (2024-01-15T20:22:21Z) - A data science axiology: the nature, value, and risks of data science [0.0]
データサイエンスは、知識発見のための未完成のスコープ、スケール、複雑さ、パワーを持つ研究パラダイムである。
本稿では、データサイエンスの公理、その目的、性質、重要性、リスク、問題解決の価値について述べる。
論文 参考訳(メタデータ) (2023-07-19T21:12:04Z) - Modeling Information Change in Science Communication with Semantically
Matched Paraphrases [50.67030449927206]
SPICEDは、情報変化の度合いに注釈を付けた科学的な発見の最初のパラフレーズデータセットである。
SPICEDには、ニュース記事、ソーシャルメディアの議論、オリジナル論文の全文から抽出された6000の科学的発見ペアが含まれている。
SPICEDで訓練されたモデルは、実世界の科学的主張の事実チェックのための証拠検索において下流のパフォーマンスを改善する。
論文 参考訳(メタデータ) (2022-10-24T07:44:38Z) - A Review into Data Science and Its Approaches in Mechanical Engineering [0.0]
本稿では,データサイエンスを概説し,その方法について概説する。
はじめに、異なるデータサイエンスの定義とその技術における背景をレビューした。
データサイエンスの手法を研究に用いた機械工学分野のいくつかの研究がレビューされている。
論文 参考訳(メタデータ) (2020-12-30T23:05:29Z) - Data Science: Challenges and Directions [42.98602883069444]
データサイエンスのタイトルを含む何百もの文献をレビューする。
議論の大部分は、統計、データマイニング、機械学習、ビッグデータ、あるいは広範なデータ分析に関するものだと考えています。
我々は、複雑なシステムとしてのデータサイエンス問題の性質にインスパイアされた研究とイノベーションの課題に焦点を当てる。
論文 参考訳(メタデータ) (2020-06-28T01:49:00Z) - Fact or Fiction: Verifying Scientific Claims [53.29101835904273]
本稿では,研究文献から,REFUTESやREFUTESが与えられた科学的主張であることを示す証拠を含む抄録を抽出する新たな課題である,科学的クレーム検証を紹介する。
SciFactは、1.4Kの専門家による科学的主張と、ラベルや合理性に注釈を付けたエビデンスを含む抽象概念を組み合わせたデータセットである。
このシステムは,CORD-19コーパスの証拠を同定することにより,新型コロナウイルス関連クレームを検証可能であることを示す。
論文 参考訳(メタデータ) (2020-04-30T17:22:57Z) - Ten Research Challenge Areas in Data Science [4.670305538969914]
データサイエンスは、コンピュータ科学、数学、統計学、その他の分野の知識に基づいている。
この記事では、データサイエンスの専門分野としてのメタクエストから始め、データサイエンスの研究課題の基礎となる10のアイデアについて詳述する。
論文 参考訳(メタデータ) (2020-01-27T21:39:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。