論文の概要: DataClaw: A Process-Oriented Agent Benchmark for Exploratory Real-World Data Analysis
- arxiv url: http://arxiv.org/abs/2605.02503v1
- Date: Mon, 04 May 2026 11:57:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.271077
- Title: DataClaw: A Process-Oriented Agent Benchmark for Exploratory Real-World Data Analysis
- Title(参考訳): DataClaw: リアルタイムデータ分析のためのプロセス指向エージェントベンチマーク
- Authors: Qiaohong Zhang, Weihao Ye, Jialong Chen, Yi Luo, BoYuan Li, Bowen Deng, Zibin Zheng, Jianhao Lin, Wei-Shi Zheng, Chuan Chen,
- Abstract要約: DataClawは、探索的実世界のデータ分析のためのプロセス指向のベンチマークである。
企業、産業、および政策ドメイン全体で約2億6600万の現実世界の記録がある。
DataClawは、エージェントがどこまで進歩し、その推論がどこで壊れるかを測定する。
- 参考スコア(独自算出の注目度): 76.98578575566184
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating autonomous data analysis agents requires testing their ability to perform exploratory analysis in underexplored data environments. However, many existing benchmarks emphasize final answer accuracy in prior-guided data settings and provide limited support for reasoning process evaluation. We introduce DataClaw, a process-oriented benchmark for exploratory real-world data analysis. DataClaw contains approximately 2.06 million real-world records across enterprise, industry and policy domains, with native data noise preserved. It further includes 492 cross-domain tasks derived from think-tank consulting scenarios, each annotated with intermediate milestones for process-level evaluation. These annotations allow DataClaw to measure how far an agent progresses and where its reasoning breaks down. Experiments with eight advanced LLMs show that current agents remain far from reliable in this setting, with seven models achieving below 50% overall accuracy. Process analysis further reveals partial progress hidden behind wrong answers and distinct exploration strategies across models. Overall, DataClaw provides a less data constrained diagnostic testbed for probing the capability boundaries of autonomous data-analysis agents.
- Abstract(参考訳): 自律的なデータ分析エージェントを評価するには、未調査のデータ環境で探索分析を行う能力をテストする必要がある。
しかし、多くの既存のベンチマークでは、事前誘導されたデータ設定において最終回答の精度を強調し、推論プロセスの評価を限定的にサポートしている。
我々は,探索的実世界のデータ分析のためのプロセス指向ベンチマークであるDataClawを紹介する。
DataClawには、企業、業界、ポリシードメインにまたがる約2600万の実世界記録があり、ネイティブなデータノイズが保存されている。
さらに、シンクタンクコンサルティングシナリオから派生した492のクロスドメインタスクが含まれており、それぞれにプロセスレベルの評価のための中間的なマイルストーンがアノテートされている。
これらのアノテーションにより、DataClawは、エージェントがどれくらい進歩し、その推論がどこで壊れるかを測定することができる。
8つの先進的なLCMによる実験では、現在のエージェントはこの設定では信頼性が低く、7つのモデルが全体の50%未満の精度で達成されている。
プロセス分析はさらに、間違った回答の裏に隠れた部分的な進歩と、モデル間の明確な探索戦略を明らかにしている。
全体として、DataClawは、自律的なデータ分析エージェントの能力境界を探索するための、データ制約の少ない診断テストベッドを提供する。
関連論文リスト
- A Benchmark for Deep Information Synthesis [27.87976801124957]
DEEPSYNTHは、大規模言語モデル(LLM)ベースのエージェントを現実的で時間を要する問題で評価するために設計された新しいベンチマークである。
7つのドメインにまたがる120のタスクと67カ国をカバーするデータソースを含んでいる。
DEEPSYNTHで評価すると、11の最先端のLDMとディープリサーチエージェントがLLM-judge測定で最大F1スコア8.97と17.5を達成する。
論文 参考訳(メタデータ) (2026-02-24T17:43:32Z) - LongDA: Benchmarking LLM Agents for Long-Document Data Analysis [55.32211515932351]
LongDAは、長いドキュメントと複雑なデータをナビゲートする実際の設定をターゲットとしています。
LongTAは、ドキュメントアクセス、検索、コード実行を可能にするツール拡張されたエージェントフレームワークである。
実験の結果, 最先端モデルにおいても, かなりの性能差が認められた。
論文 参考訳(メタデータ) (2026-01-05T23:23:16Z) - AutoMalDesc: Large-Scale Script Analysis for Cyber Threat Research [81.04845910798387]
脅威検出のための自然言語の説明を生成することは、サイバーセキュリティ研究において未解決の問題である。
本稿では,大規模に独立して動作する自動静的解析要約フレームワークAutoMalDescを紹介する。
アノテーション付きシード(0.9K)データセットや方法論,評価フレームワークなど,100万以上のスクリプトサンプルの完全なデータセットを公開しています。
論文 参考訳(メタデータ) (2025-11-17T13:05:25Z) - DeepAnalyze: Agentic Large Language Models for Autonomous Data Science [35.69385623867138]
我々は、自律データサイエンス用に設計された最初のエージェントであるDeepAnalyze-8Bを紹介する。
本稿では,人間のデータ科学者の学習軌道をエミュレートするカリキュラムに基づくエージェント・トレーニング・パラダイムを提案する。
また、高品質なトレーニングデータを構成するデータ基底軌道合成フレームワークについても紹介する。
論文 参考訳(メタデータ) (2025-10-19T15:13:42Z) - DABstep: Data Agent Benchmark for Multi-step Reasoning [2.6709582216950767]
DABstepは、現実的なマルチステップデータ分析タスクでAIエージェントを評価するための新しいベンチマークである。
ファイナンシャル・アナリティクス・プラットフォームから派生した450以上の現実世界の課題で構成されている。
Dabstepは、自律的なデータ分析の研究を加速するために、公開のリーダーボードとツールキットと共にリリースされた。
論文 参考訳(メタデータ) (2025-06-30T10:49:21Z) - DACO: Towards Application-Driven and Comprehensive Data Analysis via Code Generation [83.30006900263744]
データ分析は、詳細な研究と決定的な洞察を生み出すための重要な分析プロセスである。
LLMのコード生成機能を活用した高品質な応答アノテーションの自動生成を提案する。
我々のDACO-RLアルゴリズムは、57.72%のケースにおいて、SFTモデルよりも有用な回答を生成するために、人間のアノテータによって評価される。
論文 参考訳(メタデータ) (2024-03-04T22:47:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。