論文の概要: DatasetResearch: Benchmarking Agent Systems for Demand-Driven Dataset Discovery
- arxiv url: http://arxiv.org/abs/2508.06960v1
- Date: Sat, 09 Aug 2025 12:15:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.628978
- Title: DatasetResearch: Benchmarking Agent Systems for Demand-Driven Dataset Discovery
- Title(参考訳): DatasetResearch: 需要駆動型データセット発見のためのベンチマークエージェントシステム
- Authors: Keyu Li, Mohan Jiang, Dayuan Fu, Yunze Wu, Xiangkun Hu, Dequan Wang, Pengfei Liu,
- Abstract要約: AIエージェントは、通常の検索を超越して、特定のユーザ要求を満たすデータセットを体系的に検出できるだろうか?
我々のベンチマークと包括的な分析は、次世代の自己改善型AIシステムの基礎を提供する。
- 参考スコア(独自算出の注目度): 26.388978716803464
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The rapid advancement of large language models has fundamentally shifted the bottleneck in AI development from computational power to data availability-with countless valuable datasets remaining hidden across specialized repositories, research appendices, and domain platforms. As reasoning capabilities and deep research methodologies continue to evolve, a critical question emerges: can AI agents transcend conventional search to systematically discover any dataset that meets specific user requirements, enabling truly autonomous demand-driven data curation? We introduce DatasetResearch, the first comprehensive benchmark evaluating AI agents' ability to discover and synthesize datasets from 208 real-world demands across knowledge-intensive and reasoning-intensive tasks. Our tri-dimensional evaluation framework reveals a stark reality: even advanced deep research systems achieve only 22% score on our challenging DatasetResearch-pro subset, exposing the vast gap between current capabilities and perfect dataset discovery. Our analysis uncovers a fundamental dichotomy-search agents excel at knowledge tasks through retrieval breadth, while synthesis agents dominate reasoning challenges via structured generation-yet both catastrophically fail on "corner cases" outside existing distributions. These findings establish the first rigorous baseline for dataset discovery agents and illuminate the path toward AI systems capable of finding any dataset in the digital universe. Our benchmark and comprehensive analysis provide the foundation for the next generation of self-improving AI systems and are publicly available at https://github.com/GAIR-NLP/DatasetResearch.
- Abstract(参考訳): 大規模言語モデルの急速な進歩は、AI開発のボトルネックを計算能力からデータ可用性へと根本的にシフトしている。
AIエージェントは従来の検索を超越して、特定のユーザ要求を満たすデータセットを体系的に検出し、真に自律的な需要駆動型データキュレーションを可能にしますか?
我々は、知識集約的および推論集約的なタスクにわたる208の現実世界の要求からデータセットを発見し、合成するAIエージェントの能力を評価する最初の包括的なベンチマークであるDatasetResearchを紹介した。
高度な研究システムでさえ、挑戦的なDatasetResearch-proサブセットでわずか22%のスコアしか達成していません。
分析の結果,検索範囲の広さによって知識タスクに優れる基本的二分探索エージェントが発見され,既存の分布外の「コーナケース」で破滅的に失敗する構造的世代イットによる推論課題が,合成エージェントによって支配されていることがわかった。
これらの発見は、データセット発見エージェントの最初の厳格なベースラインを確立し、デジタル宇宙でデータセットを見つけることができるAIシステムへの道を照らす。
我々のベンチマークと包括的な分析は、次世代の自己改善AIシステムの基礎を提供し、https://github.com/GAIR-NLP/DatasetResearch.comで公開されている。
関連論文リスト
- A Survey of LLM-based Deep Search Agents: Paradigm, Optimization, Evaluation, and Challenges [30.146391942071126]
大規模言語モデル (LLM) はウェブ検索に革命をもたらした。
これらのエージェントは、ユーザの意図や環境状況を理解することができる。
本調査は,検索エージェントの系統的分析を初めて行った。
論文 参考訳(メタデータ) (2025-08-03T08:02:51Z) - From Web Search towards Agentic Deep Research: Incentivizing Search with Reasoning Agents [96.65646344634524]
推論とエージェント能力を備えた大規模言語モデル(LLM)は、エージェントディープリサーチ(Agenic Deep Research)と呼ばれる新しいパラダイムを取り入れている。
静的なWeb検索から,計画,探索,学習を行う対話型エージェントベースのシステムへの進化を辿ります。
我々はエージェントディープリサーチが既存のアプローチを著しく上回るだけでなく、将来の情報探索において支配的なパラダイムになることを実証する。
論文 参考訳(メタデータ) (2025-06-23T17:27:19Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - On Responsible Machine Learning Datasets with Fairness, Privacy, and Regulatory Norms [56.119374302685934]
AI技術の信頼性に関する深刻な懸念があった。
機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。
本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T14:01:53Z) - Human-Centric Multimodal Machine Learning: Recent Advances and Testbed
on AI-based Recruitment [66.91538273487379]
人間中心のアプローチでAIアプリケーションを開発する必要性には、ある程度のコンセンサスがある。
i)ユーティリティと社会的善、(ii)プライバシとデータ所有、(iii)透明性と説明責任、(iv)AIによる意思決定プロセスの公正性。
異種情報ソースに基づく現在のマルチモーダルアルゴリズムは、データ中の機密要素や内部バイアスによってどのように影響を受けるかを検討する。
論文 参考訳(メタデータ) (2023-02-13T16:44:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。