論文の概要: Dirty Data in the Newsroom: Comparing Data Preparation in Journalism and Data Science
- arxiv url: http://arxiv.org/abs/2507.07238v1
- Date: Wed, 09 Jul 2025 19:14:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.183573
- Title: Dirty Data in the Newsroom: Comparing Data Preparation in Journalism and Data Science
- Title(参考訳): 新聞室の汚れデータ:ジャーナリズムとデータサイエンスにおけるデータ準備の比較
- Authors: Stephen Kasica, Charles Berret, Tamara Munzner,
- Abstract要約: データジャーナリズムにおけるデータ準備に関する研究はほとんど行われていない。
我々は、汚いデータとインタビューデータに基づいて、汚れたデータ16から汚れたデータ60を合成する。
我々は、ジャーナリストが直面している4つの課題を識別する:ダイアクロニック、地域、断片化、および異種データソース。
- 参考スコア(独自算出の注目度): 11.019460998287995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The work involved in gathering, wrangling, cleaning, and otherwise preparing data for analysis is often the most time consuming and tedious aspect of data work. Although many studies describe data preparation within the context of data science workflows, there has been little research on data preparation in data journalism. We address this gap with a hybrid form of thematic analysis that combines deductive codes derived from existing accounts of data science workflows and inductive codes arising from an interview study with 36 professional data journalists. We extend a previous model of data science work to incorporate detailed activities of data preparation. We synthesize 60 dirty data issues from 16 taxonomies on dirty data and our interview data, and we provide a novel taxonomy to characterize these dirty data issues as discrepancies between mental models. We also identify four challenges faced by journalists: diachronic, regional, fragmented, and disparate data sources.
- Abstract(参考訳): データの収集、整理、クリーニング、その他の分析のためのデータ準備に関わる作業は、多くの場合、データ作業の面倒で面倒な側面に費やされる。
データサイエンスワークフローの文脈におけるデータ準備について多くの研究がなされているが、データジャーナリズムにおけるデータ準備についてはほとんど研究されていない。
このギャップを、既存のデータサイエンスワークフローのアカウントから派生した帰納的コードと、36人の専門データジャーナリストとのインタビュー研究から生じた帰納的コードを組み合わせた、ハイブリッドなセマンティック分析で解決する。
我々は、データ準備の詳細な活動を組み込むために、過去のデータサイエンス研究モデルを拡張した。
我々は、汚いデータとインタビューデータに基づいて、16の分類から60の汚いデータ課題を合成し、これらの汚いデータ課題をメンタルモデル間の相違点として特徴付ける新しい分類法を提供する。
また、ジャーナリストが直面している4つの課題として、ダイアクロニック、地域、断片化、異種データソースを挙げる。
関連論文リスト
- SciER: An Entity and Relation Extraction Dataset for Datasets, Methods, and Tasks in Scientific Documents [49.54155332262579]
我々は,科学論文のデータセット,メソッド,タスクに関連するエンティティに対して,新たなエンティティと関係抽出データセットをリリースする。
我々のデータセットには、24k以上のエンティティと12kの関係を持つ106の注釈付きフルテキストの科学出版物が含まれています。
論文 参考訳(メタデータ) (2024-10-28T15:56:49Z) - DSBench: How Far Are Data Science Agents from Becoming Data Science Experts? [58.330879414174476]
現実的なタスクでデータサイエンスエージェントを評価するためのベンチマークであるDSBenchを紹介する。
このベンチマークには、466のデータ分析タスクと、EloquenceとKaggleのコンペからソースされた74のデータモデリングタスクが含まれている。
現状のLLM, LVLM, エージェントを評価したところ, 最高のエージェントはデータ解析タスクの34.12%しか解決できず, RPG(Relative Performance Gap)は34.74%であった。
論文 参考訳(メタデータ) (2024-09-12T02:08:00Z) - A Survey on Data Selection for Language Models [148.300726396877]
データ選択方法は、トレーニングデータセットに含まれるデータポイントを決定することを目的としている。
ディープラーニングは、主に実証的な証拠によって駆動され、大規模なデータに対する実験は高価である。
広範なデータ選択研究のリソースを持つ組織はほとんどない。
論文 参考訳(メタデータ) (2024-02-26T18:54:35Z) - A Review and Roadmap of Deep Causal Model from Different Causal
Structures and Representations [23.87336875544181]
我々は因果データを,定値データ,半定値データ,不定値データという3つのカテゴリに再定義する。
定値データとは、従来の因果的シナリオで使用される統計データであり、半定値データは、ディープラーニングにドイツのデータフォーマットのスペクトルを指す。
不確定データは、我々のデータフォームの進行から推定される創発的な研究領域である。
論文 参考訳(メタデータ) (2023-11-02T01:31:42Z) - A Primer on the Data Cleaning Pipeline [0.5076419064097732]
データクリーニングパイプライン''は、アナリストが下流のタスクを実行できる4つのステージを含んでいる。
本稿では、技術的用語と一般的な手法を導入して、この新興分野を概観する。
論文 参考訳(メタデータ) (2023-07-25T03:11:18Z) - Data Smells in Public Datasets [7.1460275491017144]
我々は、機械学習システムにおける問題の早期兆候を示すために使用できる、新しいデータ臭いのカタログを紹介する。
データセットにおけるデータ品質の問題の頻度を理解するために、25の公開データセットを分析し、14のデータ臭いを特定します。
論文 参考訳(メタデータ) (2022-03-15T15:44:20Z) - Measuring Utility and Privacy of Synthetic Genomic Data [3.635321290763711]
人工ゲノムデータを生成するための5つの最先端モデルの実用性とプライバシ保護を最初に評価する。
全体として、ボード全体でうまく機能する合成ゲノムデータを生成するための単一のアプローチは存在しない。
論文 参考訳(メタデータ) (2021-02-05T17:41:01Z) - Data Science: A Comprehensive Overview [42.98602883069444]
21世紀はビッグデータとデータ経済の時代に始まり、データDNAはすべてのデータに基づく有機体の本質的な構成要素となっている。
データDNAとその生物の適切な理解は、新しいデータ科学の分野と分析のキーストーンに依存している。
この記事では、データサイエンスと分析に関する豊富な観察、教訓、考察に加えて、総合的な全体像を描いている分野としては、初めてである。
論文 参考訳(メタデータ) (2020-07-01T02:33:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。