論文の概要: Principles for data analysis workflows
- arxiv url: http://arxiv.org/abs/2007.08708v1
- Date: Fri, 17 Jul 2020 01:17:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-05-09 05:08:19.217880
- Title: Principles for data analysis workflows
- Title(参考訳): データ分析ワークフローの原則
- Authors: Sara Stoudt, Valeri N. Vasquez, Ciera C. Martinez
- Abstract要約: 本稿では,再現性のあるデータ解析ワークフローの基本原理について,探索・補修・研磨の3段階を定義した。
データ集約的な研究の原則とソフトウェア開発の確立した実践の類似性を引き合いに出す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional data science education often omits training on research
workflows: the process that moves a scientific investigation from raw data to
coherent research question to insightful contribution. In this paper, we
elaborate basic principles of a reproducible data analysis workflow by defining
three phases: the Exploratory, Refinement, and Polishing Phases. Each workflow
phase is roughly centered around the audience to whom research decisions,
methodologies, and results are being immediately communicated. Importantly,
each phase can also give rise to a number of research products beyond
traditional academic publications. Where relevant, we draw analogies between
principles for data-intensive research workflows and established practice in
software development. The guidance provided here is not intended to be a strict
rulebook; rather, the suggestions for practices and tools to advance
reproducible, sound data-intensive analysis may furnish support for both
students and current professionals.
- Abstract(参考訳): 従来のデータサイエンス教育は、しばしば研究ワークフローのトレーニングを省略する: 科学的調査を生データからコヒーレントな研究問題へ移行し、洞察に富んだ貢献へと移すプロセス。
本稿では,探索,精錬,研磨という3つの段階を定義し,再現可能なデータ分析ワークフローの基本原理を詳述する。
それぞれのワークフローフェーズは、調査決定、方法論、結果がすぐに伝えられるオーディエンスを中心としています。
重要なことに、各フェーズは従来の学術出版物を超えて多くの研究製品を生み出すことができる。
関係するところは、データ集約型研究ワークフローの原則とソフトウェア開発の確立した実践の類似性です。
ここで提供されるガイダンスは厳格なルールブックではなく、再現性のあるデータ集約分析を進めるためのプラクティスやツールの提案は、学生と現在の専門家の両方に支援を提供するかもしれない。
関連論文リスト
- Can LLMs Clean Up Your Mess? A Survey of Application-Ready Data Preparation with LLMs [66.63911043019294]
データ準備は、生のデータセットを識別し、データセット間の関係を解明し、それらから貴重な洞察を抽出することを目的としている。
本稿では,様々な下流タスクのためのデータ準備にLLM技術を用いることに焦点を当てる。
データクリーニング、標準化、エラー処理、計算、データ統合、データ豊か化という3つの主要なタスクにフィールドを編成するタスク中心の分類を導入します。
論文 参考訳(メタデータ) (2026-01-22T12:02:45Z) - Best Practices For Empirical Meta-Algorithmic Research: Guidelines from the COSEAL Research Network [46.56867772369597]
メタアルゴリズム研究のベストプラクティスは存在するが、それらは異なる出版物と分野に分散している。
本報告は,COSEALコミュニティのサブフィールドにまたがる経験的メタアルゴリズム研究のための優れた実践を収集する。
メタ・アルゴリズム研究における現在の最先端の実践を確立し、メタ・アルゴリズム分野の新しい研究者と実践者のガイドラインとして機能する。
論文 参考訳(メタデータ) (2025-12-18T12:59:45Z) - Automated Generation of Research Workflows from Academic Papers: A Full-text Mining Framework [7.681506465886571]
本稿では,全文学術論文をマイニングすることで総合的かつ構造化された研究論文を生成するエンドツーエンドフレームワークを提案する。
我々はFlan-T5を用いて、段落からワークフローフレーズを生成し、それぞれ0.4543、0.2877、0.4427のROUGE-1、ROUGE-2、ROUGELスコアを得る。
このアプローチは、データ分析の強調や、機能工学からアブレーション研究への移行など、過去20年間の重要な方法論的変化を明らかにしている。
論文 参考訳(メタデータ) (2025-09-16T10:59:23Z) - Large Language Models in the Data Science Lifecycle: A Systematic Mapping Study [0.0]
大規模言語モデル(LLM)は、多くのドメインにまたがるトランスフォーメーションツールとして登場した。
この体系的なマッピング研究は、データサイエンスライフサイクル全体を通してLLMの応用を包括的に検証する。
論文 参考訳(メタデータ) (2025-08-12T23:20:10Z) - A Comprehensive Survey on Imbalanced Data Learning [56.65067795190842]
不均衡なデータは、さまざまな種類の生データに広まっており、機械学習のパフォーマンスを妨げる。
本調査は,様々な実世界のデータ形式を体系的に分析する。
さまざまなデータフォーマットに関する既存の研究は、データ再バランス、特徴表現、トレーニング戦略、アンサンブル学習の4つのカテゴリにまとめられている。
論文 参考訳(メタデータ) (2025-02-13T04:53:17Z) - Data Analysis in the Era of Generative AI [56.44807642944589]
本稿では,AIを活用したデータ分析ツールの可能性について考察する。
我々は、大規模言語とマルチモーダルモデルの出現が、データ分析ワークフローの様々な段階を強化する新しい機会を提供する方法について検討する。
次に、直感的なインタラクションを促進し、ユーザ信頼を構築し、AI支援分析ワークフローを複数のアプリにわたって合理化するための、人間中心の設計原則を調べます。
論文 参考訳(メタデータ) (2024-09-27T06:31:03Z) - DISCOVER: A Data-driven Interactive System for Comprehensive Observation, Visualization, and ExploRation of Human Behaviour [6.716560115378451]
我々は,人間行動分析のための計算駆動型データ探索を効率化するために,モジュール型でフレキシブルでユーザフレンドリなソフトウェアフレームワークを導入する。
我々の主な目的は、高度な計算方法論へのアクセスを民主化することであり、これにより研究者は、広範囲の技術的熟練を必要とせずに、詳細な行動分析を行うことができる。
論文 参考訳(メタデータ) (2024-07-18T11:28:52Z) - Data-Centric AI in the Age of Large Language Models [51.20451986068925]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。
本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。
データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文 参考訳(メタデータ) (2024-06-20T16:34:07Z) - Everywhere & Nowhere: Envisioning a Computing Continuum for Science [21.111766975909752]
新たなデータ駆動科学は、分散データソースを活用して、エンドツーエンドの現象を理解し、実験を推進し、重要な意思決定を促進することを目指している。
本稿では,エッジ,コア,中間のリソースにまたがる,どこにでもある,どこにでもあるコンピューティングについて検討し,科学を支援するための抽象化を提供する。
また、どんなデータをいつどこで処理すべきかを表現できるプログラミング抽象化の最近の研究や、リソースの発見とそれらのリソースをまたいだ計算のオーケストレーションを自動化する自律型サービスも紹介されている。
論文 参考訳(メタデータ) (2024-06-06T20:07:31Z) - Toward Unified Practices in Trajectory Prediction Research on Drone Datasets [3.1406146587437904]
高品質なデータセットの可用性は、自動運転車の行動予測アルゴリズムの開発に不可欠である。
本稿では,動き予測研究における特定のデータセットの利用の標準化の必要性を強調した。
これを実現するためのツールとプラクティスのセットを提案します。
論文 参考訳(メタデータ) (2024-05-01T16:17:39Z) - A Survey on Data Selection for Language Models [148.300726396877]
データ選択方法は、トレーニングデータセットに含まれるデータポイントを決定することを目的としている。
ディープラーニングは、主に実証的な証拠によって駆動され、大規模なデータに対する実験は高価である。
広範なデータ選択研究のリソースを持つ組織はほとんどない。
論文 参考訳(メタデータ) (2024-02-26T18:54:35Z) - Research Trends and Applications of Data Augmentation Algorithms [77.34726150561087]
我々は,データ拡張アルゴリズムの適用分野,使用するアルゴリズムの種類,重要な研究動向,時間経過に伴う研究の進展,およびデータ拡張文学における研究ギャップを同定する。
我々は、読者がデータ拡張の可能性を理解し、将来の研究方向を特定し、データ拡張研究の中で質問を開くことを期待する。
論文 参考訳(メタデータ) (2022-07-18T11:38:32Z) - A Field Guide to Federated Optimization [161.3779046812383]
フェデレートされた学習と分析は、分散化されたデータからモデル(あるいは統計)を協調的に学習するための分散アプローチである。
本稿では、フェデレート最適化アルゴリズムの定式化、設計、評価、分析に関する勧告とガイドラインを提供する。
論文 参考訳(メタデータ) (2021-07-14T18:09:08Z) - Deep Learning Schema-based Event Extraction: Literature Review and
Current Trends [60.29289298349322]
ディープラーニングに基づくイベント抽出技術が研究ホットスポットとなっている。
本稿では,ディープラーニングモデルに焦点をあて,最先端のアプローチを見直し,そのギャップを埋める。
論文 参考訳(メタデータ) (2021-07-05T16:32:45Z) - Data and its (dis)contents: A survey of dataset development and use in
machine learning research [11.042648980854487]
機械学習におけるデータの収集と利用方法に関する多くの懸念を調査します。
この分野の実践的かつ倫理的な問題のいくつかに対処するには、データのより慎重で徹底した理解が必要であると主張する。
論文 参考訳(メタデータ) (2020-12-09T22:13:13Z) - Data Vision: Learning to See Through Algorithmic Abstraction [6.730787776951012]
データを通して学ぶことは、アルゴリズムによる知識生産の現代的な形式の中心である。
本稿では,データ解析学習環境において,機械化や識別の要求が頻繁に発生する状況について考察する。
論文 参考訳(メタデータ) (2020-02-09T15:46:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。