論文の概要: A survey study of success factors in data science projects
- arxiv url: http://arxiv.org/abs/2201.06310v1
- Date: Mon, 17 Jan 2022 09:50:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-19 18:56:51.145585
- Title: A survey study of success factors in data science projects
- Title(参考訳): データサイエンスプロジェクトにおける成功要因に関する調査研究
- Authors: I\~nigo Martinez, Elisabeth Viles, Igor G. Olaizola
- Abstract要約: アジャイルデータサイエンスのライフサイクルは最も広く使われているフレームワークであるが、調査参加者の25%だけがデータサイエンスプロジェクトの方法論に従うと答えている。
プロジェクト方法論に従うプロフェッショナルは、プロジェクトの潜在的なリスクと落とし穴に重点を置いています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, the data science community has pursued excellence and made
significant research efforts to develop advanced analytics, focusing on solving
technical problems at the expense of organizational and socio-technical
challenges. According to previous surveys on the state of data science project
management, there is a significant gap between technical and organizational
processes. In this article we present new empirical data from a survey to 237
data science professionals on the use of project management methodologies for
data science. We provide additional profiling of the survey respondents' roles
and their priorities when executing data science projects. Based on this survey
study, the main findings are: (1) Agile data science lifecycle is the most
widely used framework, but only 25% of the survey participants state to follow
a data science project methodology. (2) The most important success factors are
precisely describing stakeholders' needs, communicating the results to
end-users, and team collaboration and coordination. (3) Professionals who
adhere to a project methodology place greater emphasis on the project's
potential risks and pitfalls, version control, the deployment pipeline to
production, and data security and privacy.
- Abstract(参考訳): 近年、データサイエンスコミュニティは卓越性を追求し、組織的・社会技術的課題を犠牲にして技術的な問題を解決することに焦点を当て、高度な分析を開発するための重要な研究努力を行っている。
データサイエンスプロジェクト管理の現状に関する以前の調査によると、技術プロセスと組織プロセスの間には大きなギャップがある。
本稿では,237名のデータサイエンス専門家を対象に,データサイエンスにおけるプロジェクト管理方法論の活用に関する調査を行った。
データサイエンスプロジェクト実行時の回答者の役割と優先順位を,さらにプロファイリングします。
1) アジャイルデータサイエンスのライフサイクルは最も広く使われているフレームワークですが、調査参加者の25%だけがデータサイエンスプロジェクトの方法論に従うことを述べています。
2)最も重要な成功要因は、ステークホルダーのニーズを正確に説明し、エンドユーザに結果を伝え、チームのコラボレーションと調整です。
(3) プロジェクト方法論に従うプロフェッショナルは、プロジェクトの潜在的なリスクと落とし穴、バージョン管理、運用へのデプロイメントパイプライン、データセキュリティとプライバシに重点を置いています。
関連論文リスト
- DSBench: How Far Are Data Science Agents to Becoming Data Science Experts? [58.330879414174476]
現実的なタスクでデータサイエンスエージェントを評価するためのベンチマークであるDSBenchを紹介する。
このベンチマークには、466のデータ分析タスクと、EloquenceとKaggleのコンペからソースされた74のデータモデリングタスクが含まれている。
現状のLLM, LVLM, エージェントを評価したところ, 最高のエージェントはデータ解析タスクの34.12%しか解決できず, RPG(Relative Performance Gap)は34.74%であった。
論文 参考訳(メタデータ) (2024-09-12T02:08:00Z) - Data-Centric AI in the Age of Large Language Models [51.20451986068925]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。
本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。
データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文 参考訳(メタデータ) (2024-06-20T16:34:07Z) - MASSW: A New Dataset and Benchmark Tasks for AI-Assisted Scientific Workflows [58.56005277371235]
我々は,Multi-Aspect Summarization of ScientificAspectsに関する総合テキストデータセットであるMASSWを紹介する。
MASSWには過去50年間にわたる17の主要なコンピュータサイエンスカンファレンスから152,000以上の査読論文が含まれている。
我々は、この新しいデータセットを用いてベンチマーク可能な、複数の新しい機械学習タスクを通じて、MASSWの有用性を実証する。
論文 参考訳(メタデータ) (2024-06-10T15:19:09Z) - Research information in the light of artificial intelligence: quality and data ecologies [0.0]
本稿では,研究情報に適したAI技術を見つけるための多分野間アプローチを提案する。
RIM(Professional Research Information Management)は、研究者にとってデータ駆動型ツールとしてますます重要になりつつある。
論文 参考訳(メタデータ) (2024-05-06T16:07:56Z) - A Survey on Data Selection for Language Models [148.300726396877]
データ選択方法は、トレーニングデータセットに含まれるデータポイントを決定することを目的としている。
ディープラーニングは、主に実証的な証拠によって駆動され、大規模なデータに対する実験は高価である。
広範なデータ選択研究のリソースを持つ組織はほとんどない。
論文 参考訳(メタデータ) (2024-02-26T18:54:35Z) - Why Data Science Projects Fail [0.0]
Data Scienceは多くのビジネスの中核であり、企業がより効率的にビジネスの課題に対処するスマートな戦略を構築するのを助ける。
データサイエンスの実践は、アルゴリズムを使ってビジネスプロセスを自動化するのにも役立ちます。
データサイエンスに関しては、主に3つの重要な要素がデータサイエンスプロジェクトの効果的な成果に影響を及ぼす。
論文 参考訳(メタデータ) (2023-08-08T06:45:15Z) - Assessing Scientific Contributions in Data Sharing Spaces [64.16762375635842]
本稿では、研究者の科学的貢献を測定するブロックチェーンベースのメトリクスであるSCIENCE-indexを紹介する。
研究者にデータ共有のインセンティブを与えるため、SCIENCE-indexはデータ共有パラメータを含むように拡張されている。
本モデルは, 地理的に多様な研究者の出力分布とh-indexの分布を比較して評価する。
論文 参考訳(メタデータ) (2023-03-18T19:17:47Z) - TAPS Responsibility Matrix: A tool for responsible data science by
design [2.2973034509761816]
データサイエンスプロジェクトの社会的、法的、倫理的側面を探求する枠組みとして、透明性、説明責任、プライバシー、社会責任マトリックス(TAPS-RM)について述べる。
TAPS-RMの開発モデルと、オープンデータのためのよく知られたイニシアチブをマッピングする。
TAPS-RMはデータサイエンスプロジェクトレベルでの責任を反映するツールであり、設計による責任あるデータサイエンスの推進に利用することができると結論付けている。
論文 参考訳(メタデータ) (2023-02-02T12:09:14Z) - Research Trends and Applications of Data Augmentation Algorithms [77.34726150561087]
我々は,データ拡張アルゴリズムの適用分野,使用するアルゴリズムの種類,重要な研究動向,時間経過に伴う研究の進展,およびデータ拡張文学における研究ギャップを同定する。
我々は、読者がデータ拡張の可能性を理解し、将来の研究方向を特定し、データ拡張研究の中で質問を開くことを期待する。
論文 参考訳(メタデータ) (2022-07-18T11:38:32Z) - Data Science Methodologies: Current Challenges and Future Approaches [0.0]
ビジョンの欠如と明確な目標、技術的な問題への偏り、アドホックプロジェクトの成熟度が低いことが、これらの課題のひとつです。
チーム、プロジェクト、データ、情報管理の完全なガイドラインを提供する方法論はほとんどない。
総合的な視点でデータサイエンスプロジェクトを管理するための方法論が持つべき一般的な特徴を含む概念的枠組みを提案する。
論文 参考訳(メタデータ) (2021-06-14T10:34:50Z) - Trust in Data Science: Collaboration, Translation, and Accountability in
Corporate Data Science Projects [6.730787776951012]
応用データサイエンスにおける4つの一般的な緊張関係について述べる: (un)equivocal number, (counter)intuitive knowledge, (in)credible data, (in)scrutable model。
組織的アクターが、懐疑主義、評価、信頼性の実践を通じて、乱雑で不確実な分析条件下で信頼を確立し、再交渉する方法を示す。
我々は,CSCW内外におけるデータサイエンス研究と実践における知見の意味を論じることによって,結論を導いた。
論文 参考訳(メタデータ) (2020-02-09T15:50:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。