論文の概要: Principles for data analysis workflows
- arxiv url: http://arxiv.org/abs/2007.08708v1
- Date: Fri, 17 Jul 2020 01:17:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-09 05:08:19.217880
- Title: Principles for data analysis workflows
- Title(参考訳): データ分析ワークフローの原則
- Authors: Sara Stoudt, Valeri N. Vasquez, Ciera C. Martinez
- Abstract要約: 本稿では,再現性のあるデータ解析ワークフローの基本原理について,探索・補修・研磨の3段階を定義した。
データ集約的な研究の原則とソフトウェア開発の確立した実践の類似性を引き合いに出す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional data science education often omits training on research
workflows: the process that moves a scientific investigation from raw data to
coherent research question to insightful contribution. In this paper, we
elaborate basic principles of a reproducible data analysis workflow by defining
three phases: the Exploratory, Refinement, and Polishing Phases. Each workflow
phase is roughly centered around the audience to whom research decisions,
methodologies, and results are being immediately communicated. Importantly,
each phase can also give rise to a number of research products beyond
traditional academic publications. Where relevant, we draw analogies between
principles for data-intensive research workflows and established practice in
software development. The guidance provided here is not intended to be a strict
rulebook; rather, the suggestions for practices and tools to advance
reproducible, sound data-intensive analysis may furnish support for both
students and current professionals.
- Abstract(参考訳): 従来のデータサイエンス教育は、しばしば研究ワークフローのトレーニングを省略する: 科学的調査を生データからコヒーレントな研究問題へ移行し、洞察に富んだ貢献へと移すプロセス。
本稿では,探索,精錬,研磨という3つの段階を定義し,再現可能なデータ分析ワークフローの基本原理を詳述する。
それぞれのワークフローフェーズは、調査決定、方法論、結果がすぐに伝えられるオーディエンスを中心としています。
重要なことに、各フェーズは従来の学術出版物を超えて多くの研究製品を生み出すことができる。
関係するところは、データ集約型研究ワークフローの原則とソフトウェア開発の確立した実践の類似性です。
ここで提供されるガイダンスは厳格なルールブックではなく、再現性のあるデータ集約分析を進めるためのプラクティスやツールの提案は、学生と現在の専門家の両方に支援を提供するかもしれない。
関連論文リスト
- Data Analysis in the Era of Generative AI [56.44807642944589]
本稿では,AIを活用したデータ分析ツールの可能性について考察する。
我々は、大規模言語とマルチモーダルモデルの出現が、データ分析ワークフローの様々な段階を強化する新しい機会を提供する方法について検討する。
次に、直感的なインタラクションを促進し、ユーザ信頼を構築し、AI支援分析ワークフローを複数のアプリにわたって合理化するための、人間中心の設計原則を調べます。
論文 参考訳(メタデータ) (2024-09-27T06:31:03Z) - DISCOVER: A Data-driven Interactive System for Comprehensive Observation, Visualization, and ExploRation of Human Behaviour [6.716560115378451]
我々は,人間行動分析のための計算駆動型データ探索を効率化するために,モジュール型でフレキシブルでユーザフレンドリなソフトウェアフレームワークを導入する。
我々の主な目的は、高度な計算方法論へのアクセスを民主化することであり、これにより研究者は、広範囲の技術的熟練を必要とせずに、詳細な行動分析を行うことができる。
論文 参考訳(メタデータ) (2024-07-18T11:28:52Z) - Data-Centric AI in the Age of Large Language Models [51.20451986068925]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。
本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。
データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文 参考訳(メタデータ) (2024-06-20T16:34:07Z) - Everywhere & Nowhere: Envisioning a Computing Continuum for Science [21.111766975909752]
新たなデータ駆動科学は、分散データソースを活用して、エンドツーエンドの現象を理解し、実験を推進し、重要な意思決定を促進することを目指している。
本稿では,エッジ,コア,中間のリソースにまたがる,どこにでもある,どこにでもあるコンピューティングについて検討し,科学を支援するための抽象化を提供する。
また、どんなデータをいつどこで処理すべきかを表現できるプログラミング抽象化の最近の研究や、リソースの発見とそれらのリソースをまたいだ計算のオーケストレーションを自動化する自律型サービスも紹介されている。
論文 参考訳(メタデータ) (2024-06-06T20:07:31Z) - Toward Unified Practices in Trajectory Prediction Research on Drone Datasets [3.1406146587437904]
高品質なデータセットの可用性は、自動運転車の行動予測アルゴリズムの開発に不可欠である。
本稿では,動き予測研究における特定のデータセットの利用の標準化の必要性を強調した。
これを実現するためのツールとプラクティスのセットを提案します。
論文 参考訳(メタデータ) (2024-05-01T16:17:39Z) - A Survey on Data Selection for Language Models [148.300726396877]
データ選択方法は、トレーニングデータセットに含まれるデータポイントを決定することを目的としている。
ディープラーニングは、主に実証的な証拠によって駆動され、大規模なデータに対する実験は高価である。
広範なデータ選択研究のリソースを持つ組織はほとんどない。
論文 参考訳(メタデータ) (2024-02-26T18:54:35Z) - Research Trends and Applications of Data Augmentation Algorithms [77.34726150561087]
我々は,データ拡張アルゴリズムの適用分野,使用するアルゴリズムの種類,重要な研究動向,時間経過に伴う研究の進展,およびデータ拡張文学における研究ギャップを同定する。
我々は、読者がデータ拡張の可能性を理解し、将来の研究方向を特定し、データ拡張研究の中で質問を開くことを期待する。
論文 参考訳(メタデータ) (2022-07-18T11:38:32Z) - A Field Guide to Federated Optimization [161.3779046812383]
フェデレートされた学習と分析は、分散化されたデータからモデル(あるいは統計)を協調的に学習するための分散アプローチである。
本稿では、フェデレート最適化アルゴリズムの定式化、設計、評価、分析に関する勧告とガイドラインを提供する。
論文 参考訳(メタデータ) (2021-07-14T18:09:08Z) - Deep Learning Schema-based Event Extraction: Literature Review and
Current Trends [60.29289298349322]
ディープラーニングに基づくイベント抽出技術が研究ホットスポットとなっている。
本稿では,ディープラーニングモデルに焦点をあて,最先端のアプローチを見直し,そのギャップを埋める。
論文 参考訳(メタデータ) (2021-07-05T16:32:45Z) - Data and its (dis)contents: A survey of dataset development and use in
machine learning research [11.042648980854487]
機械学習におけるデータの収集と利用方法に関する多くの懸念を調査します。
この分野の実践的かつ倫理的な問題のいくつかに対処するには、データのより慎重で徹底した理解が必要であると主張する。
論文 参考訳(メタデータ) (2020-12-09T22:13:13Z) - Data Vision: Learning to See Through Algorithmic Abstraction [6.730787776951012]
データを通して学ぶことは、アルゴリズムによる知識生産の現代的な形式の中心である。
本稿では,データ解析学習環境において,機械化や識別の要求が頻繁に発生する状況について考察する。
論文 参考訳(メタデータ) (2020-02-09T15:46:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。