論文の概要: AutoData: A Multi-Agent System for Open Web Data Collection
- arxiv url: http://arxiv.org/abs/2505.15859v1
- Date: Wed, 21 May 2025 04:32:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:47.81762
- Title: AutoData: A Multi-Agent System for Open Web Data Collection
- Title(参考訳): AutoData:オープンWebデータ収集のためのマルチエージェントシステム
- Authors: Tianyi Ma, Yiyue Qian, Zheyuan Zhang, Zehong Wang, Xiaoye Qian, Feifan Bai, Yifan Ding, Xuwei Luo, Shinan Zhang, Keerthiram Murugesan, Chuxu Zhang, Yanfang Ye,
- Abstract要約: AutoDataは、人間の介入を最小限にする必要のある、自動Webデータ収集のための新しいマルチエージェントシステムである。
Instruct2DSは、学術、金融、スポーツの3つの領域にわたるWebソースからのライブデータ収集をサポートする新しいベンチマークデータセットである。
- 参考スコア(独自算出の注目度): 37.832257245199365
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The exponential growth of data-driven systems and AI technologies has intensified the demand for high-quality web-sourced datasets. While existing datasets have proven valuable, conventional web data collection approaches face significant limitations in terms of human effort and scalability. Current data-collecting solutions fall into two categories: wrapper-based methods that struggle with adaptability and reproducibility, and large language model (LLM)-based approaches that incur substantial computational and financial costs. To address these challenges, we propose AutoData, a novel multi-agent system for Automated web Data collection, that requires minimal human intervention, i.e., only necessitating a natural language instruction specifying the desired dataset. In addition, AutoData is designed with a robust multi-agent architecture, featuring a novel oriented message hypergraph coordinated by a central task manager, to efficiently organize agents across research and development squads. Besides, we introduce a novel hypergraph cache system to advance the multi-agent collaboration process that enables efficient automated data collection and mitigates the token cost issues prevalent in existing LLM-based systems. Moreover, we introduce Instruct2DS, a new benchmark dataset supporting live data collection from web sources across three domains: academic, finance, and sports. Comprehensive evaluations over Instruct2DS and three existing benchmark datasets demonstrate AutoData's superior performance compared to baseline methods. Case studies on challenging tasks such as picture book collection and paper extraction from surveys further validate its applicability. Our source code and dataset are available at https://github.com/GraphResearcher/AutoData.
- Abstract(参考訳): データ駆動システムとAI技術の指数関数的な成長は、高品質なWebソースデータセットの需要を増大させた。
既存のデータセットは価値が証明されているが、従来のWebデータ収集アプローチでは、人的労力とスケーラビリティの面で大きな制限に直面している。
現在のデータ収集ソリューションは、適応性と再現性に苦しむラッパーベースの手法と、計算と財政のかなりのコストを発生させる大規模言語モデル(LLM)ベースのアプローチの2つのカテゴリに分類される。
これらの課題に対処するために、我々はAutoDataを提案する。AutoDataは自動Webデータ収集のための新しいマルチエージェントシステムで、人間の介入を最小限に抑える。
さらにAutoDataは堅牢なマルチエージェントアーキテクチャで設計されており、中央タスクマネージャによってコーディネートされた新しい指向のメッセージハイパーグラフを備えており、研究および開発チーム間でエージェントを効率的に整理する。
さらに,既存のLCMシステムで広く普及しているトークンコスト問題を緩和し,効率的な自動データ収集を可能にするマルチエージェント協調プロセスを進めるために,新しいハイパーグラフキャッシュシステムを導入する。
さらに、学術、金融、スポーツの3分野にわたるWebソースからのライブデータ収集をサポートする新しいベンチマークデータセットであるInstruct2DSを紹介する。
Instruct2DSと既存の3つのベンチマークデータセットに対する包括的な評価は、ベースラインメソッドと比較してAutoDataの優れたパフォーマンスを示している。
絵本収集や調査からの紙抽出といった課題のケーススタディは、その適用性をさらに検証している。
ソースコードとデータセットはhttps://github.com/GraphResearcher/AutoData.orgから入手可能です。
関連論文リスト
- Large Language Models and Synthetic Data for Monitoring Dataset Mentions in Research Papers [0.0]
本稿では,研究領域間のデータセット参照検出を自動化する機械学習フレームワークを提案する。
我々は,研究論文からゼロショット抽出,品質評価のためのLCM-as-a-Judge,および改良のための推論剤を用いて,弱教師付き合成データセットを生成する。
推論では、ModernBERTベースの分類器がデータセットの参照を効率的にフィルタリングし、高いリコールを維持しながら計算オーバーヘッドを低減する。
論文 参考訳(メタデータ) (2025-02-14T16:16:02Z) - AgentTrek: Agent Trajectory Synthesis via Guiding Replay with Web Tutorials [53.376263056033046]
既存のアプローチは高価な人間のアノテーションに依存しており、大規模には持続不可能である。
本稿では,Webエージェントトラジェクトリを生成するスケーラブルなデータ合成パイプラインであるAgentTrekを提案する。
完全に自動化されたアプローチは、データ収集コストを大幅に削減し、人間のアノテータを使わずに、高品質な軌道を0.55ドルに抑えることができます。
論文 参考訳(メタデータ) (2024-12-12T18:59:27Z) - Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - Putting Data at the Centre of Offline Multi-Agent Reinforcement Learning [3.623224034411137]
オフラインマルチエージェント強化学習(英語: offline multi-agent reinforcement learning, MARL)は、静的データセットを用いてマルチエージェントシステムの最適制御ポリシーを見つける研究のエキサイティングな方向である。
この分野は定義上はデータ駆動型だが、これまでのところ、最先端の結果を達成するための努力は、データを無視してきた。
研究の大部分は、一貫した方法論を使わずに独自のデータセットを生成し、これらのデータセットの特徴に関するまばらな情報を提供する。
論文 参考訳(メタデータ) (2024-09-18T14:13:24Z) - Automatic Data Curation for Self-Supervised Learning: A Clustering-Based Approach [36.47860223750303]
自己教師付き事前学習のための高品質データセットの自動キュレーションの問題点を考察する。
これらの基準をすべて満たしたクラスタリングに基づく手法を提案する。
我々の方法は、大規模で多様なデータリポジトリ上で、$k$-meansの連続的かつ階層的なアプリケーションを含む。
論文 参考訳(メタデータ) (2024-05-24T14:58:51Z) - STAR: Boosting Low-Resource Information Extraction by Structure-to-Text
Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。
我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。
実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-24T12:15:19Z) - Unsupervised Domain Adaptive Learning via Synthetic Data for Person
Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。
残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。
本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文 参考訳(メタデータ) (2021-09-12T15:51:41Z) - Data Augmentation for Abstractive Query-Focused Multi-Document
Summarization [129.96147867496205]
2つのQMDSトレーニングデータセットを提示し,2つのデータ拡張手法を用いて構築する。
これらの2つのデータセットは相補的な性質を持ち、すなわちQMDSCNNは実際のサマリを持つが、クエリはシミュレートされる。
組み合わせたデータセット上にエンドツーエンドのニューラルネットワークモデルを構築し、DUCデータセットに最新の転送結果をもたらします。
論文 参考訳(メタデータ) (2021-03-02T16:57:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。