論文の概要: Data Science Methodologies: Current Challenges and Future Approaches
- arxiv url: http://arxiv.org/abs/2106.07287v1
- Date: Mon, 14 Jun 2021 10:34:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-15 15:34:10.326467
- Title: Data Science Methodologies: Current Challenges and Future Approaches
- Title(参考訳): データサイエンス方法論の現状と今後の課題
- Authors: I\~nigo Martinez, Elisabeth Viles, Igor G. Olaizola
- Abstract要約: ビジョンの欠如と明確な目標、技術的な問題への偏り、アドホックプロジェクトの成熟度が低いことが、これらの課題のひとつです。
チーム、プロジェクト、データ、情報管理の完全なガイドラインを提供する方法論はほとんどない。
総合的な視点でデータサイエンスプロジェクトを管理するための方法論が持つべき一般的な特徴を含む概念的枠組みを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data science has employed great research efforts in developing advanced
analytics, improving data models and cultivating new algorithms. However, not
many authors have come across the organizational and socio-technical challenges
that arise when executing a data science project: lack of vision and clear
objectives, a biased emphasis on technical issues, a low level of maturity for
ad-hoc projects and the ambiguity of roles in data science are among these
challenges. Few methodologies have been proposed on the literature that tackle
these type of challenges, some of them date back to the mid-1990, and
consequently they are not updated to the current paradigm and the latest
developments in big data and machine learning technologies. In addition, fewer
methodologies offer a complete guideline across team, project and data &
information management. In this article we would like to explore the necessity
of developing a more holistic approach for carrying out data science projects.
We first review methodologies that have been presented on the literature to
work on data science projects and classify them according to the their focus:
project, team, data and information management. Finally, we propose a
conceptual framework containing general characteristics that a methodology for
managing data science projects with a holistic point of view should have. This
framework can be used by other researchers as a roadmap for the design of new
data science methodologies or the updating of existing ones.
- Abstract(参考訳): データサイエンスは高度な分析の開発、データモデルの改善、新しいアルゴリズムの育成に多大な研究を続けてきた。
しかし、データサイエンスプロジェクトを実行する際に生じる組織的および社会技術的課題には、多くの著者が遭遇していない: ビジョンと明確な目的の欠如、技術的な問題への偏り、アドホックなプロジェクトの成熟度が低いこと、データサイエンスにおける役割の曖昧さ。
この種の課題に取り組む文献について提案されている方法論はほとんどなく、1990年中頃までさかのぼるものもあるため、現在のパラダイムやビッグデータや機械学習技術の最新の発展には更新されていない。
さらに、チーム、プロジェクト、データおよび情報管理の完全なガイドラインを提供する方法論は少ない。
この記事では、データサイエンスプロジェクトを実行するためのより包括的なアプローチを開発する必要性について検討する。
データサイエンスプロジェクトに取り組むための文献に提示された方法論をまずレビューし,その対象であるプロジェクト,チーム,データおよび情報管理に従って分類する。
最後に、総合的な視点でデータサイエンスプロジェクトを管理する方法論が持つべき一般的な特徴を含む概念的枠組みを提案する。
このフレームワークは、他の研究者によって、新しいデータサイエンス方法論の設計や既存手法の更新のロードマップとして使用することができる。
関連論文リスト
- MASSW: A New Dataset and Benchmark Tasks for AI-Assisted Scientific Workflows [58.56005277371235]
我々は,Multi-Aspect Summarization of ScientificAspectsに関する総合テキストデータセットであるMASSWを紹介する。
MASSWには過去50年間にわたる17の主要なコンピュータサイエンスカンファレンスから152,000以上の査読論文が含まれている。
我々は、この新しいデータセットを用いてベンチマーク可能な、複数の新しい機械学習タスクを通じて、MASSWの有用性を実証する。
論文 参考訳(メタデータ) (2024-06-10T15:19:09Z) - Data Augmentation in Human-Centric Vision [54.97327269866757]
本研究では,人間中心型視覚タスクにおけるデータ拡張手法の包括的分析を行う。
それは、人物のReID、人間のパーシング、人間のポーズ推定、歩行者検出など、幅広い研究領域に展開している。
我々の研究は、データ拡張手法をデータ生成とデータ摂動の2つの主なタイプに分類する。
論文 参考訳(メタデータ) (2024-03-13T16:05:18Z) - Large Language Models(LLMs) on Tabular Data: Prediction, Generation, and Understanding -- A Survey [17.19337964440007]
現在、この研究領域における主要なテクニック、メトリクス、データセット、モデル、最適化アプローチを要約し比較する包括的なレビューが欠如しています。
この調査は、これらの領域における最近の進歩を集約し、使用するデータセット、メトリクス、方法論の詳細な調査と分類を提供することによって、このギャップに対処することを目的としている。
既存の文献の強さ、限界、未探索領域、ギャップを識別し、この重要かつ急速に発展する分野における将来の研究の方向性についていくつかの洞察を提供する。
論文 参考訳(メタデータ) (2024-02-27T23:59:01Z) - A Survey on Data Selection for Language Models [148.300726396877]
データ選択方法は、トレーニングデータセットに含まれるデータポイントを決定することを目的としている。
ディープラーニングは、主に実証的な証拠によって駆動され、大規模なデータに対する実験は高価である。
広範なデータ選択研究のリソースを持つ組織はほとんどない。
論文 参考訳(メタデータ) (2024-02-26T18:54:35Z) - A Comprehensive Review of Machine Learning Advances on Data Change: A
Cross-Field Perspective [16.904588676267526]
ドメインシフトとコンセプトドリフトの2つの主要な研究分野を同定する。
本稿では、ドメインシフトと概念ドリフトを単一の研究問題、すなわちデータ変更問題に再分類する。
本稿では,2つの技術分野における鍵となるアイデアをリンクする3相問題分類手法を提案する。
論文 参考訳(メタデータ) (2024-02-20T01:16:01Z) - On Responsible Machine Learning Datasets with Fairness, Privacy, and Regulatory Norms [56.119374302685934]
AI技術の信頼性に関する深刻な懸念があった。
機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。
本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T14:01:53Z) - How Data Scientists Review the Scholarly Literature [4.406926847270567]
データサイエンティストの文献レビューの実践について検討する。
データサイエンスは、論文の指数的な増加を示す分野である。
これらの科学者が直面する具体的な実践や課題について、事前の研究は行われていない。
論文 参考訳(メタデータ) (2023-01-10T03:53:05Z) - Research Trends and Applications of Data Augmentation Algorithms [77.34726150561087]
我々は,データ拡張アルゴリズムの適用分野,使用するアルゴリズムの種類,重要な研究動向,時間経過に伴う研究の進展,およびデータ拡張文学における研究ギャップを同定する。
我々は、読者がデータ拡張の可能性を理解し、将来の研究方向を特定し、データ拡張研究の中で質問を開くことを期待する。
論文 参考訳(メタデータ) (2022-07-18T11:38:32Z) - A survey study of success factors in data science projects [0.0]
アジャイルデータサイエンスのライフサイクルは最も広く使われているフレームワークであるが、調査参加者の25%だけがデータサイエンスプロジェクトの方法論に従うと答えている。
プロジェクト方法論に従うプロフェッショナルは、プロジェクトの潜在的なリスクと落とし穴に重点を置いています。
論文 参考訳(メタデータ) (2022-01-17T09:50:46Z) - Deep Learning Schema-based Event Extraction: Literature Review and
Current Trends [60.29289298349322]
ディープラーニングに基づくイベント抽出技術が研究ホットスポットとなっている。
本稿では,ディープラーニングモデルに焦点をあて,最先端のアプローチを見直し,そのギャップを埋める。
論文 参考訳(メタデータ) (2021-07-05T16:32:45Z) - Data Science: Challenges and Directions [42.98602883069444]
データサイエンスのタイトルを含む何百もの文献をレビューする。
議論の大部分は、統計、データマイニング、機械学習、ビッグデータ、あるいは広範なデータ分析に関するものだと考えています。
我々は、複雑なシステムとしてのデータサイエンス問題の性質にインスパイアされた研究とイノベーションの課題に焦点を当てる。
論文 参考訳(メタデータ) (2020-06-28T01:49:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。