論文の概要: DataParasite Enables Scalable and Repurposable Online Data Curation
- arxiv url: http://arxiv.org/abs/2601.02578v1
- Date: Mon, 05 Jan 2026 22:04:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.7368
- Title: DataParasite Enables Scalable and Repurposable Online Data Curation
- Title(参考訳): DataParasiteはスケーラブルで再利用可能なオンラインデータキュレーションを可能にする
- Authors: Mengyi Sun,
- Abstract要約: DataParasiteはスケーラブルなオンラインデータ収集のためのモジュールパイプラインである。
キュレーションタスクを独立したエンティティレベルの検索に分解する。
データの収集コストを手作業によるキュレーションと比較して桁違いに削減しながら高い精度を達成する。
- 参考スコア(独自算出の注目度): 0.9543667840503739
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many questions in computational social science rely on datasets assembled from heterogeneous online sources, a process that is often labor-intensive, costly, and difficult to reproduce. Recent advances in large language models enable agentic search and structured extraction from the web, but existing systems are frequently opaque, inflexible, or poorly suited to scientific data curation. Here we introduce DataParasite, an open-source, modular pipeline for scalable online data collection. DataParasite decomposes tabular curation tasks into independent, entity-level searches defined through lightweight configuration files and executed through a shared, task-agnostic python script. Crucially, the same pipeline can be repurposed to new tasks, including those without predefined entity lists, using only natural-language instructions. We evaluate the pipeline on multiple canonical tasks in computational social science, including faculty hiring histories, elite death events, and political career trajectories. Across tasks, DataParasite achieves high accuracy while reducing data-collection costs by an order of magnitude relative to manual curation. By lowering the technical and labor barriers to online data assembly, DataParasite provides a practical foundation for scalable, transparent, and reusable data curation in computational social science and beyond.
- Abstract(参考訳): 計算社会科学における多くの疑問は、不均一なオンラインソースから集められたデータセットに依存している。
大規模言語モデルの最近の進歩は、エージェント検索とWebからの構造化抽出を可能にするが、既存のシステムは、しばしば不透明で、柔軟性がなく、科学的データキュレーションに適さない。
ここでは、スケーラブルなオンラインデータ収集のためのオープンソースのモジュラーパイプラインであるDataParasiteを紹介します。
DataParasiteは、タブ形式のキュレーションタスクを、軽量な設定ファイルを通じて定義された独立したエンティティレベルの検索に分解し、共有タスクに依存しないpythonスクリプトで実行される。
重要なことに、同じパイプラインを、自然言語命令のみを使用して、事前に定義されたエンティティリストを持たないタスクを含む、新しいタスクに再利用することができる。
計算社会科学における複数の標準的課題に対するパイプラインの評価には,教員の雇用履歴,エリート死の出来事,政治キャリアの軌跡などが含まれる。
タスク全体にわたって、DataParasiteは、手作業によるキュレーションと比較して、データ収集コストを桁違いに削減しながら、高い精度を達成する。
技術的および労働的障壁をオンラインデータアセンブリに下げることで、DataParasiteは、計算社会科学などにおけるスケーラブルで透明で再利用可能なデータキュレーションのための実践的な基盤を提供する。
関連論文リスト
- Operon: Incremental Construction of Ragged Data via Named Dimensions [1.6212518002538465]
既存のワークフローエンジンには、タグ付けされたデータ固有の形状と依存関係を追跡するネイティブサポートがない。
我々はRustベースのワークフローエンジンであるOperonを紹介します。
論文 参考訳(メタデータ) (2025-11-20T06:16:31Z) - Synthesizing Agentic Data for Web Agents with Progressive Difficulty Enhancement Mechanisms [81.90219895125178]
Webベースの「ディープリサーチ」エージェントは、オンラインツールとの長時間のインタラクションを通じてタスクに答える、複雑な問題の解決を目指している。
基礎となる言語モデルは、長い水平推論に最適化されないことが多いため、これらのタスクは依然として困難なままである。
複雑化を徐々に進めることで、疑問-答えのペアを生成する2段階のデータ合成パイプラインを導入する。
論文 参考訳(メタデータ) (2025-10-15T06:34:46Z) - WebDS: An End-to-End Benchmark for Web-based Data Science [59.270670758607494]
WebDSは、Webベースの初のエンドツーエンドデータサイエンスベンチマークである。
29のWebサイトにわたる870のWebベースのデータサイエンスタスクで構成されている。
WebDSは、実用的に有用なLCMベースのデータサイエンスの開発において、大きな進歩の舞台となる。
論文 参考訳(メタデータ) (2025-08-02T06:39:59Z) - KramaBench: A Benchmark for AI Systems on Data-to-Insight Pipelines over Data Lakes [17.76903247601012]
104個の実世界のデータサイエンスパイプラインを手作業でキュレートしたベンチマークであるKRAMABENCHを紹介する。
これらのパイプラインは、データ処理におけるAIシステムのエンドツーエンド機能をテストする。
以上の結果から,既存のアウト・オブ・ボックスモデルでは,適切なデータサイエンスコード生成タスクを十分に解決できるが,既存のアウト・オブ・ボックスモデルでは不十分であることが示唆された。
論文 参考訳(メタデータ) (2025-06-06T21:18:45Z) - Data-Juicer 2.0: Cloud-Scale Adaptive Data Processing for and with Foundation Models [83.65386456026441]
Data-Juicer 2.0は、テキスト、画像、ビデオ、オーディオのモダリティにまたがる100以上のデータ処理オペレータがバックアップするデータ処理システムである。
データ分析、合成、アノテーション、基礎モデルのポストトレーニングなど、より重要なタスクをサポートする。
このシステムは公開されており、さまざまな研究分野やAlibaba Cloud PAIのような現実世界の製品で広く採用されている。
論文 参考訳(メタデータ) (2024-12-23T08:29:57Z) - KGLiDS: A Platform for Semantic Abstraction, Linking, and Automation of Data Science [4.120803087965204]
本稿では、機械学習と知識グラフ技術を用いて、データサイエンスアーティファクトのセマンティクスとその接続を抽象化し、キャプチャするスケーラブルなプラットフォームKGLiDSを提案する。
この情報に基づいて、KGLiDSはデータディスカバリやパイプライン自動化など、さまざまなダウンストリームアプリケーションを可能にする。
論文 参考訳(メタデータ) (2023-03-03T20:31:04Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。