論文の概要: How do Data Science Workers Collaborate? Roles, Workflows, and Tools
- arxiv url: http://arxiv.org/abs/2001.06684v3
- Date: Thu, 16 Apr 2020 16:38:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-10 04:54:13.036711
- Title: How do Data Science Workers Collaborate? Roles, Workflows, and Tools
- Title(参考訳): データサイエンスワーカーはどのように協力するか?
役割、ワークフロー、ツール
- Authors: Amy X. Zhang, Michael Muller, Dakuo Wang
- Abstract要約: データサイエンスの様々な側面で働く183人の参加者を対象にオンライン調査を行った。
データサイエンスチームは極めて協力的であり、さまざまな利害関係者やツールと連携しています。
- 参考スコア(独自算出の注目度): 30.725728321928823
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Today, the prominence of data science within organizations has given rise to
teams of data science workers collaborating on extracting insights from data,
as opposed to individual data scientists working alone. However, we still lack
a deep understanding of how data science workers collaborate in practice. In
this work, we conducted an online survey with 183 participants who work in
various aspects of data science. We focused on their reported interactions with
each other (e.g., managers with engineers) and with different tools (e.g.,
Jupyter Notebook). We found that data science teams are extremely collaborative
and work with a variety of stakeholders and tools during the six common steps
of a data science workflow (e.g., clean data and train model). We also found
that the collaborative practices workers employ, such as documentation, vary
according to the kinds of tools they use. Based on these findings, we discuss
design implications for supporting data science team collaborations and future
research directions.
- Abstract(参考訳): 今日、組織内のデータサイエンスの優位性は、個々のデータ科学者が単独で働くのとは対照的に、データから洞察を取り出すために協力するデータサイエンスワーカーのチームを生み出している。
しかし、データサイエンスワーカーが実際にどのように協力するかについては、まだ深く理解されていない。
本研究では,データサイエンスの様々な側面で働く183人の参加者を対象に,オンライン調査を行った。
私たちは、報告された相互の相互作用(エンジニアを持つマネージャなど)と、さまざまなツール(例えばJupyter Notebook)に焦点を当てました。
データサイエンスチームは極めて協力的であり、データサイエンスワークフロー(クリーンデータやトレインモデルなど)の6つの一般的なステップにおいて、さまざまな利害関係者やツールと連携しています。
また、ドキュメンテーションなどの作業者が採用するコラボレーティブなプラクティスは、使用するツールの種類によって異なることも分かりました。
これらの知見に基づいて,データサイエンスチームのコラボレーションを支援する設計の意味と今後の研究方向性について議論する。
関連論文リスト
- MASSW: A New Dataset and Benchmark Tasks for AI-Assisted Scientific Workflows [58.56005277371235]
我々は,Multi-Aspect Summarization of ScientificAspectsに関する総合テキストデータセットであるMASSWを紹介する。
MASSWには過去50年間にわたる17の主要なコンピュータサイエンスカンファレンスから152,000以上の査読論文が含まれている。
我々は、この新しいデータセットを用いてベンチマーク可能な、複数の新しい機械学習タスクを通じて、MASSWの有用性を実証する。
論文 参考訳(メタデータ) (2024-06-10T15:19:09Z) - DataDreamer: A Tool for Synthetic Data Generation and Reproducible LLM Workflows [72.40917624485822]
我々は、研究者が強力な大規模言語モデルを実装することができるオープンソースのPythonライブラリであるDataDreamerを紹介した。
DataDreamerはまた、オープンサイエンスを促進するために提案するベストプラクティスに研究者が従うのを助ける。
論文 参考訳(メタデータ) (2024-02-16T00:10:26Z) - On Responsible Machine Learning Datasets with Fairness, Privacy, and Regulatory Norms [56.119374302685934]
AI技術の信頼性に関する深刻な懸念があった。
機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。
本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T14:01:53Z) - Why is AI not a Panacea for Data Workers? An Interview Study on Human-AI
Collaboration in Data Storytelling [59.08591308749448]
業界と学界の18人のデータワーカーにインタビューして、AIとのコラボレーションの場所と方法を聞いた。
驚いたことに、参加者はAIとのコラボレーションに興奮を見せたが、彼らの多くは反感を表明し、曖昧な理由を指摘した。
論文 参考訳(メタデータ) (2023-04-17T15:30:05Z) - TAPS Responsibility Matrix: A tool for responsible data science by
design [2.2973034509761816]
データサイエンスプロジェクトの社会的、法的、倫理的側面を探求する枠組みとして、透明性、説明責任、プライバシー、社会責任マトリックス(TAPS-RM)について述べる。
TAPS-RMの開発モデルと、オープンデータのためのよく知られたイニシアチブをマッピングする。
TAPS-RMはデータサイエンスプロジェクトレベルでの責任を反映するツールであり、設計による責任あるデータサイエンスの推進に利用することができると結論付けている。
論文 参考訳(メタデータ) (2023-02-02T12:09:14Z) - How Data Scientists Review the Scholarly Literature [4.406926847270567]
データサイエンティストの文献レビューの実践について検討する。
データサイエンスは、論文の指数的な増加を示す分野である。
これらの科学者が直面する具体的な実践や課題について、事前の研究は行われていない。
論文 参考訳(メタデータ) (2023-01-10T03:53:05Z) - Modeling Information Change in Science Communication with Semantically
Matched Paraphrases [50.67030449927206]
SPICEDは、情報変化の度合いに注釈を付けた科学的な発見の最初のパラフレーズデータセットである。
SPICEDには、ニュース記事、ソーシャルメディアの議論、オリジナル論文の全文から抽出された6000の科学的発見ペアが含まれている。
SPICEDで訓練されたモデルは、実世界の科学的主張の事実チェックのための証拠検索において下流のパフォーマンスを改善する。
論文 参考訳(メタデータ) (2022-10-24T07:44:38Z) - Data+Shift: Supporting visual investigation of data distribution shifts
by data scientists [1.6311150636417262]
Data+Shiftは、データ機能のシフトの根底にある要因を調査するタスクにおいて、データサイエンティストをサポートするビジュアル分析ツールである。
我々は、データサイエンティストが不正検出のユースケースにこのツールを使用したシンクオード実験で、我々のアプローチを検証した。
論文 参考訳(メタデータ) (2022-04-29T11:50:25Z) - Human-Machine Collaboration for Democratizing Data Science [23.385646192087922]
textscVisualSynthは、ユーザによって色付きスケッチ、すなわち、データサイエンスタスクを部分的に指定するために、スプレッドシートの一部の色付けを提供する。
データラングリング、データ選択、クラスタリング、制約学習、予測モデリング、自動補完など、さまざまなデータ分析タスクを実行する。
論文 参考訳(メタデータ) (2020-04-23T12:50:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。