論文の概要: DatasetResearch: Benchmarking Agent Systems for Demand-Driven Dataset Discovery
- arxiv url: http://arxiv.org/abs/2508.06960v1
- Date: Sat, 09 Aug 2025 12:15:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.628978
- Title: DatasetResearch: Benchmarking Agent Systems for Demand-Driven Dataset Discovery
- Title(参考訳): DatasetResearch: 需要駆動型データセット発見のためのベンチマークエージェントシステム
- Authors: Keyu Li, Mohan Jiang, Dayuan Fu, Yunze Wu, Xiangkun Hu, Dequan Wang, Pengfei Liu,
- Abstract要約: AIエージェントは、通常の検索を超越して、特定のユーザ要求を満たすデータセットを体系的に検出できるだろうか?
我々のベンチマークと包括的な分析は、次世代の自己改善型AIシステムの基礎を提供する。
- 参考スコア(独自算出の注目度): 26.388978716803464
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The rapid advancement of large language models has fundamentally shifted the bottleneck in AI development from computational power to data availability-with countless valuable datasets remaining hidden across specialized repositories, research appendices, and domain platforms. As reasoning capabilities and deep research methodologies continue to evolve, a critical question emerges: can AI agents transcend conventional search to systematically discover any dataset that meets specific user requirements, enabling truly autonomous demand-driven data curation? We introduce DatasetResearch, the first comprehensive benchmark evaluating AI agents' ability to discover and synthesize datasets from 208 real-world demands across knowledge-intensive and reasoning-intensive tasks. Our tri-dimensional evaluation framework reveals a stark reality: even advanced deep research systems achieve only 22% score on our challenging DatasetResearch-pro subset, exposing the vast gap between current capabilities and perfect dataset discovery. Our analysis uncovers a fundamental dichotomy-search agents excel at knowledge tasks through retrieval breadth, while synthesis agents dominate reasoning challenges via structured generation-yet both catastrophically fail on "corner cases" outside existing distributions. These findings establish the first rigorous baseline for dataset discovery agents and illuminate the path toward AI systems capable of finding any dataset in the digital universe. Our benchmark and comprehensive analysis provide the foundation for the next generation of self-improving AI systems and are publicly available at https://github.com/GAIR-NLP/DatasetResearch.
- Abstract(参考訳): 大規模言語モデルの急速な進歩は、AI開発のボトルネックを計算能力からデータ可用性へと根本的にシフトしている。
AIエージェントは従来の検索を超越して、特定のユーザ要求を満たすデータセットを体系的に検出し、真に自律的な需要駆動型データキュレーションを可能にしますか?
我々は、知識集約的および推論集約的なタスクにわたる208の現実世界の要求からデータセットを発見し、合成するAIエージェントの能力を評価する最初の包括的なベンチマークであるDatasetResearchを紹介した。
高度な研究システムでさえ、挑戦的なDatasetResearch-proサブセットでわずか22%のスコアしか達成していません。
分析の結果,検索範囲の広さによって知識タスクに優れる基本的二分探索エージェントが発見され,既存の分布外の「コーナケース」で破滅的に失敗する構造的世代イットによる推論課題が,合成エージェントによって支配されていることがわかった。
これらの発見は、データセット発見エージェントの最初の厳格なベースラインを確立し、デジタル宇宙でデータセットを見つけることができるAIシステムへの道を照らす。
我々のベンチマークと包括的な分析は、次世代の自己改善AIシステムの基礎を提供し、https://github.com/GAIR-NLP/DatasetResearch.comで公開されている。
関連論文リスト
- AgentIR: Reasoning-Aware Retrieval for Deep Research Agents [76.29382561831105]
ディープリサーチエージェントは、各検索の前に明示的な自然言語推論を生成する。
Reasoning-Aware Retrievalは、クエリと一緒にエージェントの推論トレースを埋め込む。
DR-Synthは、標準的なQAデータセットからDeep Researchレトリバーのトレーニングデータを生成する。
AgentIR-4Bは、オープンウェイトエージェントであるTongyi-DeepResearchで68%の精度を達成する。
論文 参考訳(メタデータ) (2026-03-04T18:47:26Z) - What's the next frontier for Data-centric AI? Data Savvy Agents [71.76058707995398]
我々は、エージェントシステムの設計において、データに精通する能力が最優先すべきであると主張している。
本稿では,このビジョンを実現するための4つの重要な機能を提案する。プロアクティブデータ取得,ソフシフィケートデータ処理,インタラクティブテストデータ合成,連続的適応。
論文 参考訳(メタデータ) (2025-11-02T17:09:29Z) - A Survey of Data Agents: Emerging Paradigm or Overstated Hype? [66.1526688475023]
現在「データエージェント」は用語的曖昧さと不整合性に悩まされている。
この調査では、データエージェントのための最初の体系的な階層型分類を紹介した。
プロアクティブな生成データエージェントの出現を想定する、先見的なロードマップで締めくくります。
論文 参考訳(メタデータ) (2025-10-27T17:54:07Z) - IoDResearch: Deep Research on Private Heterogeneous Data via the Internet of Data [6.542148733694304]
IoDResearchはプライベートなデータ中心のDeep Researchフレームワークで、Internet of Dataパラダイムを運用している。
IoDResearchは異種資源をFAIR準拠のデジタルオブジェクトとしてカプセル化する。
マルチエージェントシステムは、信頼性の高い質問応答と構造化された科学的レポート生成の両方をサポートする。
論文 参考訳(メタデータ) (2025-10-02T00:51:58Z) - WebResearcher: Unleashing unbounded reasoning capability in Long-Horizon Agents [72.28593628378991]
WebResearcherは、マルコフ決定プロセスとしてディープリサーチを再構築する反復的なディープリサーチパラダイムである。
WebResearcherは最先端のパフォーマンスを実現し、フロンティアのプロプライエタリシステムを超えています。
論文 参考訳(メタデータ) (2025-09-16T17:57:17Z) - A Survey on Open Dataset Search in the LLM Era: Retrospectives and Perspectives [13.669798235894064]
私たちは、メタデータやキーワードに依存する従来のアプローチを超えて、オープンデータセット検索の進歩に重点を置いています。
LLMは、クエリ理解、セマンティックモデリング、オープンデータセット検索におけるインタラクティブガイダンスにおける複雑な課題に対処するのに役立つ。
この研究は、オープンデータセット検索の分野における研究者や実践者に構造化された参照を提供することを目的としている。
論文 参考訳(メタデータ) (2025-08-31T07:45:40Z) - A Survey of LLM-based Deep Search Agents: Paradigm, Optimization, Evaluation, and Challenges [30.146391942071126]
大規模言語モデル (LLM) はウェブ検索に革命をもたらした。
これらのエージェントは、ユーザの意図や環境状況を理解することができる。
本調査は,検索エージェントの系統的分析を初めて行った。
論文 参考訳(メタデータ) (2025-08-03T08:02:51Z) - From Web Search towards Agentic Deep Research: Incentivizing Search with Reasoning Agents [96.65646344634524]
推論とエージェント能力を備えた大規模言語モデル(LLM)は、エージェントディープリサーチ(Agenic Deep Research)と呼ばれる新しいパラダイムを取り入れている。
静的なWeb検索から,計画,探索,学習を行う対話型エージェントベースのシステムへの進化を辿ります。
我々はエージェントディープリサーチが既存のアプローチを著しく上回るだけでなく、将来の情報探索において支配的なパラダイムになることを実証する。
論文 参考訳(メタデータ) (2025-06-23T17:27:19Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - On Responsible Machine Learning Datasets with Fairness, Privacy, and Regulatory Norms [56.119374302685934]
AI技術の信頼性に関する深刻な懸念があった。
機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。
本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T14:01:53Z) - Human-Centric Multimodal Machine Learning: Recent Advances and Testbed
on AI-based Recruitment [66.91538273487379]
人間中心のアプローチでAIアプリケーションを開発する必要性には、ある程度のコンセンサスがある。
i)ユーティリティと社会的善、(ii)プライバシとデータ所有、(iii)透明性と説明責任、(iv)AIによる意思決定プロセスの公正性。
異種情報ソースに基づく現在のマルチモーダルアルゴリズムは、データ中の機密要素や内部バイアスによってどのように影響を受けるかを検討する。
論文 参考訳(メタデータ) (2023-02-13T16:44:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。