論文の概要: Hunt Instead of Wait: Evaluating Deep Data Research on Large Language Models
- arxiv url: http://arxiv.org/abs/2602.02039v1
- Date: Mon, 02 Feb 2026 12:36:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.146206
- Title: Hunt Instead of Wait: Evaluating Deep Data Research on Large Language Models
- Title(参考訳): 待機の代わりにHunt:大規模言語モデルに関する詳細なデータ研究を評価する
- Authors: Wei Liu, Peijie Yu, Michele Orini, Yali Du, Yulan He,
- Abstract要約: エージェント型大規模言語モデルに対するエージェンシーの期待は、目標を設定し、何を探索するかを決めるために自主性を必要とする、正しく答える以上のものだ。
我々は、この調査インテリジェンスを、単に割り当てられたタスクを完了させる実行インテリジェンスと区別して、定義する。
これを解決するために、LLMがデータベースから重要な洞察を自律的に抽出するオープンなタスクであるDeep Data Research (DDR)と、検証可能な評価を可能にする大規模なチェックリストベースのベンチマークであるDDR-Benchを紹介する。
- 参考スコア(独自算出の注目度): 19.85460397012729
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The agency expected of Agentic Large Language Models goes beyond answering correctly, requiring autonomy to set goals and decide what to explore. We term this investigatory intelligence, distinguishing it from executional intelligence, which merely completes assigned tasks. Data Science provides a natural testbed, as real-world analysis starts from raw data rather than explicit queries, yet few benchmarks focus on it. To address this, we introduce Deep Data Research (DDR), an open-ended task where LLMs autonomously extract key insights from databases, and DDR-Bench, a large-scale, checklist-based benchmark that enables verifiable evaluation. Results show that while frontier models display emerging agency, long-horizon exploration remains challenging. Our analysis highlights that effective investigatory intelligence depends not only on agent scaffolding or merely scaling, but also on intrinsic strategies of agentic models.
- Abstract(参考訳): エージェント型大規模言語モデル(Agenic Large Language Models, エージェント型言語モデル)は,目標を設定し,何を探せばよいのかを判断するために,自律性を必要としている。
我々は、この調査インテリジェンスを、単に割り当てられたタスクを完了させる実行インテリジェンスと区別して、定義する。
データサイエンスは自然なテストベッドを提供し、実世界の分析は明示的なクエリではなく生のデータから始まるが、それに焦点を当てたベンチマークはほとんどない。
これを解決するために、LLMがデータベースから重要な洞察を自律的に抽出するオープンなタスクであるDeep Data Research (DDR)と、検証可能な評価を可能にする大規模なチェックリストベースのベンチマークであるDDR-Benchを紹介する。
その結果、フロンティアモデルが新興企業を示す一方で、長距離探査は依然として困難であることが判明した。
我々の分析では,効果的な調査知能はエージェントの足場だけでなく,エージェントモデルの本質的な戦略にも依存している。
関連論文リスト
- SpotAgent: Grounding Visual Geo-localization in Large Vision-Language Models through Agentic Reasoning [31.665287327579026]
SpotAgentは、地理的ローカライゼーションをエージェント推論プロセスにフォーマル化するフレームワークである。
外部ツール(例えば、Web検索、マップ)をReActダイアグラムを通じて活用することで、視覚的手がかりを積極的に探索し検証する。
最先端のパフォーマンスを実現し、効果的に幻覚を緩和し、正確で検証可能なジオローカライゼーションを提供する。
論文 参考訳(メタデータ) (2026-02-10T06:57:12Z) - GISA: A Benchmark for General Information-Seeking Assistant [102.30831921333755]
GISAは汎用情報検索アシスタントのベンチマークであり、373の人為的なクエリで構成されている。
深い推論と広範囲な情報集約を統合タスクに統合し、暗記に抵抗するために定期的に更新された回答を含むライブサブセットを含む。
主要なLCMと商用検索製品の実験では、最高のパフォーマンスモデルでさえ19.30%の正確なマッチスコアしか達成していないことが示されている。
論文 参考訳(メタデータ) (2026-02-09T11:44:15Z) - DeepSearchQA: Bridging the Comprehensiveness Gap for Deep Research Agents [10.197402632091551]
DeepSearchQAは、難しい多段階情報検索タスクのエージェントを評価する900プロンプトのベンチマークである。
このデータセットは、エージェントが複雑な検索計画を実行し、完全な回答リストを生成する能力を評価するように設計されている。
論文 参考訳(メタデータ) (2026-01-28T19:20:47Z) - Step-DeepResearch Technical Report [90.50586290399683]
コスト効率のよいエンドツーエンドエージェントである Step-DeepResearch を紹介する。
我々は、計画とレポート作成を強化するために、アトミック能力に基づくデータ合成戦略を提案する。
中国における評価ギャップを埋めるため,現実的な深層研究シナリオのためのADR-Benchを構築した。
論文 参考訳(メタデータ) (2025-12-23T16:32:27Z) - InsightEval: An Expert-Curated Benchmark for Assessing Insight Discovery in LLM-Driven Data Agents [31.43134407708759]
我々はInsightEvalという新しいデータセットを構築するためのデータキュレーションパイプラインを開発した。
我々は、自動化された洞察発見における一般的な課題を強調し、将来の研究のガイドとなる重要な発見を提起する。
論文 参考訳(メタデータ) (2025-11-28T05:19:24Z) - PRInTS: Reward Modeling for Long-Horizon Information Seeking [74.14496236655911]
PRInTS(PRInTS)は、二重機能で訓練された生成型PRMである。
PRInTSは,オープンソースモデルと特殊エージェントの情報検索能力を向上させる。
論文 参考訳(メタデータ) (2025-11-24T17:09:43Z) - SFR-DeepResearch: Towards Effective Reinforcement Learning for Autonomously Reasoning Single Agents [93.26456498576181]
本稿では,ディープリサーチのためのネイティブ自律単エージェントモデルの開発に焦点をあてる。
我々の最良の変種であるSFR-DR-20Bは、HumanityのLast Examベンチマークで28.7%に達する。
論文 参考訳(メタデータ) (2025-09-08T02:07:09Z) - DatasetResearch: Benchmarking Agent Systems for Demand-Driven Dataset Discovery [26.388978716803464]
AIエージェントは、通常の検索を超越して、特定のユーザ要求を満たすデータセットを体系的に検出できるだろうか?
我々のベンチマークと包括的な分析は、次世代の自己改善型AIシステムの基礎を提供する。
論文 参考訳(メタデータ) (2025-08-09T12:15:08Z) - From Web Search towards Agentic Deep Research: Incentivizing Search with Reasoning Agents [96.65646344634524]
推論とエージェント能力を備えた大規模言語モデル(LLM)は、エージェントディープリサーチ(Agenic Deep Research)と呼ばれる新しいパラダイムを取り入れている。
静的なWeb検索から,計画,探索,学習を行う対話型エージェントベースのシステムへの進化を辿ります。
我々はエージェントディープリサーチが既存のアプローチを著しく上回るだけでなく、将来の情報探索において支配的なパラダイムになることを実証する。
論文 参考訳(メタデータ) (2025-06-23T17:27:19Z) - BLADE: Benchmarking Language Model Agents for Data-Driven Science [21.682416167339635]
プランニング、メモリ、コード実行機能を備えたLMベースのエージェントは、データ駆動科学をサポートする可能性がある。
本稿では,エージェントの多面的アプローチを自動的に評価するベンチマークBLADEについて述べる。
論文 参考訳(メタデータ) (2024-08-19T02:59:35Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。