論文の概要: Hunt Instead of Wait: Evaluating Deep Data Research on Large Language Models
- arxiv url: http://arxiv.org/abs/2602.02039v1
- Date: Mon, 02 Feb 2026 12:36:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.146206
- Title: Hunt Instead of Wait: Evaluating Deep Data Research on Large Language Models
- Title(参考訳): 待機の代わりにHunt:大規模言語モデルに関する詳細なデータ研究を評価する
- Authors: Wei Liu, Peijie Yu, Michele Orini, Yali Du, Yulan He,
- Abstract要約: エージェント型大規模言語モデルに対するエージェンシーの期待は、目標を設定し、何を探索するかを決めるために自主性を必要とする、正しく答える以上のものだ。
我々は、この調査インテリジェンスを、単に割り当てられたタスクを完了させる実行インテリジェンスと区別して、定義する。
これを解決するために、LLMがデータベースから重要な洞察を自律的に抽出するオープンなタスクであるDeep Data Research (DDR)と、検証可能な評価を可能にする大規模なチェックリストベースのベンチマークであるDDR-Benchを紹介する。
- 参考スコア(独自算出の注目度): 19.85460397012729
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The agency expected of Agentic Large Language Models goes beyond answering correctly, requiring autonomy to set goals and decide what to explore. We term this investigatory intelligence, distinguishing it from executional intelligence, which merely completes assigned tasks. Data Science provides a natural testbed, as real-world analysis starts from raw data rather than explicit queries, yet few benchmarks focus on it. To address this, we introduce Deep Data Research (DDR), an open-ended task where LLMs autonomously extract key insights from databases, and DDR-Bench, a large-scale, checklist-based benchmark that enables verifiable evaluation. Results show that while frontier models display emerging agency, long-horizon exploration remains challenging. Our analysis highlights that effective investigatory intelligence depends not only on agent scaffolding or merely scaling, but also on intrinsic strategies of agentic models.
- Abstract(参考訳): エージェント型大規模言語モデル(Agenic Large Language Models, エージェント型言語モデル)は,目標を設定し,何を探せばよいのかを判断するために,自律性を必要としている。
我々は、この調査インテリジェンスを、単に割り当てられたタスクを完了させる実行インテリジェンスと区別して、定義する。
データサイエンスは自然なテストベッドを提供し、実世界の分析は明示的なクエリではなく生のデータから始まるが、それに焦点を当てたベンチマークはほとんどない。
これを解決するために、LLMがデータベースから重要な洞察を自律的に抽出するオープンなタスクであるDeep Data Research (DDR)と、検証可能な評価を可能にする大規模なチェックリストベースのベンチマークであるDDR-Benchを紹介する。
その結果、フロンティアモデルが新興企業を示す一方で、長距離探査は依然として困難であることが判明した。
我々の分析では,効果的な調査知能はエージェントの足場だけでなく,エージェントモデルの本質的な戦略にも依存している。
関連論文リスト
- Step-DeepResearch Technical Report [90.50586290399683]
コスト効率のよいエンドツーエンドエージェントである Step-DeepResearch を紹介する。
我々は、計画とレポート作成を強化するために、アトミック能力に基づくデータ合成戦略を提案する。
中国における評価ギャップを埋めるため,現実的な深層研究シナリオのためのADR-Benchを構築した。
論文 参考訳(メタデータ) (2025-12-23T16:32:27Z) - InsightEval: An Expert-Curated Benchmark for Assessing Insight Discovery in LLM-Driven Data Agents [31.43134407708759]
我々はInsightEvalという新しいデータセットを構築するためのデータキュレーションパイプラインを開発した。
我々は、自動化された洞察発見における一般的な課題を強調し、将来の研究のガイドとなる重要な発見を提起する。
論文 参考訳(メタデータ) (2025-11-28T05:19:24Z) - PRInTS: Reward Modeling for Long-Horizon Information Seeking [74.14496236655911]
PRInTS(PRInTS)は、二重機能で訓練された生成型PRMである。
PRInTSは,オープンソースモデルと特殊エージェントの情報検索能力を向上させる。
論文 参考訳(メタデータ) (2025-11-24T17:09:43Z) - DatasetResearch: Benchmarking Agent Systems for Demand-Driven Dataset Discovery [26.388978716803464]
AIエージェントは、通常の検索を超越して、特定のユーザ要求を満たすデータセットを体系的に検出できるだろうか?
我々のベンチマークと包括的な分析は、次世代の自己改善型AIシステムの基礎を提供する。
論文 参考訳(メタデータ) (2025-08-09T12:15:08Z) - BLADE: Benchmarking Language Model Agents for Data-Driven Science [21.682416167339635]
プランニング、メモリ、コード実行機能を備えたLMベースのエージェントは、データ駆動科学をサポートする可能性がある。
本稿では,エージェントの多面的アプローチを自動的に評価するベンチマークBLADEについて述べる。
論文 参考訳(メタデータ) (2024-08-19T02:59:35Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。