論文の概要: LongDS-Bench: On the Failure of Long-Horizon Agentic Data Analysis
- arxiv url: http://arxiv.org/abs/2605.30434v1
- Date: Thu, 28 May 2026 18:00:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-01 20:56:50.159821
- Title: LongDS-Bench: On the Failure of Long-Horizon Agentic Data Analysis
- Title(参考訳): LongDS-Bench:Long-Horizon Agentic Data Analysisの失敗について
- Authors: Kewei Xu, Xiaoben Lu, Shuofei Qiao, Zihan Ding, Haoming Xu, Lei Liang, Ningyu Zhang,
- Abstract要約: LongDSは、ロングホライズン、マルチターンデータ分析のためのベンチマークである。
エージェントは進化する分析状態を維持し、更新し、復元し、構成しなければならない。
LongDSは現実世界のKaggleノートブックから構築された68のタスクで構成されている。
- 参考スコア(独自算出の注目度): 29.918718173329037
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-world data analysis is inherently iterative, yet existing benchmarks mostly evaluate isolated or short interactive tasks, leaving agents' ability to track evolving analytical context over long horizons untested. We introduce LongDS, a benchmark for long-horizon, multi-turn data analysis where agents must maintain, update, restore, and compose evolving analytical states. LongDS comprises 68 tasks constructed from real-world Kaggle notebooks, spanning 2,225 turns across six domains including Geoscience, Business, and Education. Tasks are designed around state-evolution patterns (e.g., counterfactual perturbation, rollback, multi-state composition), with an average dependency span of 11.3 turns. Evaluating five state-of-the-art models, we find that the best model reaches only 48.45% average accuracy, performance drops nearly 47 points from early to late turns, and long-horizon errors account for 52%--69% of failures. Further analysis shows that additional agent steps do not necessarily improve performance, suggesting that the key bottleneck is maintaining a correct analytical state rather than increasing interaction budget. We release LongDS to support research on reliable long-horizon agentic data analysis. Code and data will be released at https://github.com/zjunlp/DataMind.
- Abstract(参考訳): 実世界のデータ分析は本質的に反復的であるが、既存のベンチマークは分離された、あるいは短い対話的なタスクを主に評価し、エージェントが長期の地平線上で進化する分析コンテキストを追跡する能力を残している。
エージェントは、進化する解析状態を維持し、更新し、復元し、構成しなければならない。
LongDSは、現実世界のKaggleノートブックから構築された68のタスクで構成されており、Geoscience, Business, Educationを含む6つのドメインにまたがる2,225のターンにまたがっている。
タスクは状態進化パターン(例えば、反事実摂動、ロールバック、マルチステート構成)を中心に設計されており、平均依存性は11.3回転である。
5つの最先端モデルを評価すると、最良のモデルの平均精度は48.45%に過ぎず、パフォーマンスは早期から後期にかけて47ポイント近く低下し、長い水平誤差が52%から69%の故障の原因となっている。
さらなる分析は、追加のエージェントステップが必ずしもパフォーマンスを改善するとは限らないことを示しており、重要なボトルネックは、相互作用予算を増やすのではなく、正しい分析状態を維持することであることを示唆している。
我々はLongDSをリリースし、信頼性の高いロングホライゾンエージェントデータ解析の研究を支援する。
コードとデータはhttps://github.com/zjunlp/DataMind.comで公開される。
関連論文リスト
- DataClaw: A Process-Oriented Agent Benchmark for Exploratory Real-World Data Analysis [76.98578575566184]
DataClawは、探索的実世界のデータ分析のためのプロセス指向のベンチマークである。
企業、産業、および政策ドメイン全体で約2億6600万の現実世界の記録がある。
DataClawは、エージェントがどこまで進歩し、その推論がどこで壊れるかを測定する。
論文 参考訳(メタデータ) (2026-05-04T11:57:09Z) - The Long-Horizon Task Mirage? Diagnosing Where and Why Agentic Systems Break [69.91172974854422]
HORIZONは、大規模言語モデル(LLM)エージェントの長期障害挙動を解析するためのクロスドメイン診断ベンチマークである。
我々は,複数のモデルファミリーのSOTA(State-of-the-art)エージェントを評価し,水平方向依存劣化パターンについて検討した。
本研究は, 長期薬物障害の系統的, クロスドメイン解析への最初の方法論的ステップを提供する。
論文 参考訳(メタデータ) (2026-04-13T19:11:42Z) - AgenticRAGTracer: A Hop-Aware Benchmark for Diagnosing Multi-Step Retrieval Reasoning in Agentic RAG [7.139631028105273]
本稿ではエージェントベースのマルチホップ推論のベンチマークである AgenticRAGTracer を紹介する。
主に大きな言語モデルで構築され、ステップバイステップの検証をサポートするように設計されている。
我々のベンチマークは、複数のドメインにまたがり、1,305のデータポイントを含み、既存の主流ベンチマークと重複しない。
論文 参考訳(メタデータ) (2026-02-22T10:55:21Z) - daVinci-Agency: Unlocking Long-Horizon Agency Data-Efficiently [35.39097522391409]
大規模言語モデル(LLM)は短期的なタスクで優れており、それらを長期のエージェント合成に拡張することは依然として困難である。
本稿では,PRチェーンから構造化監視を体系的にマイニングするdaVinci-Agencyを提案する。
DaVinci-AgencyのPR基底構造は、本質的には、永続的なゴールサイクルの振る舞いを教えるのに不可欠な因果依存性と反復的な洗練を保っている。
論文 参考訳(メタデータ) (2026-02-02T13:23:39Z) - LongDA: Benchmarking LLM Agents for Long-Document Data Analysis [55.32211515932351]
LongDAは、長いドキュメントと複雑なデータをナビゲートする実際の設定をターゲットとしています。
LongTAは、ドキュメントアクセス、検索、コード実行を可能にするツール拡張されたエージェントフレームワークである。
実験の結果, 最先端モデルにおいても, かなりの性能差が認められた。
論文 参考訳(メタデータ) (2026-01-05T23:23:16Z) - PublicAgent: Multi-Agent Design Principles From an LLM-Based Open Data Analysis Framework [5.863391019411233]
大規模言語モデルは個々のタスクを約束するが、エンドツーエンドの分析は基本的な制限を露呈する。
PublicAgentは、意図の明確化、データセット発見、分析、レポートのための特殊なエージェントへの分解を通じて、これらの制限に対処するマルチエージェントフレームワークである。
論文 参考訳(メタデータ) (2025-11-04T21:48:11Z) - DABstep: Data Agent Benchmark for Multi-step Reasoning [2.6709582216950767]
DABstepは、現実的なマルチステップデータ分析タスクでAIエージェントを評価するための新しいベンチマークである。
ファイナンシャル・アナリティクス・プラットフォームから派生した450以上の現実世界の課題で構成されている。
Dabstepは、自律的なデータ分析の研究を加速するために、公開のリーダーボードとツールキットと共にリリースされた。
論文 参考訳(メタデータ) (2025-06-30T10:49:21Z) - DACO: Towards Application-Driven and Comprehensive Data Analysis via Code Generation [83.30006900263744]
データ分析は、詳細な研究と決定的な洞察を生み出すための重要な分析プロセスである。
LLMのコード生成機能を活用した高品質な応答アノテーションの自動生成を提案する。
我々のDACO-RLアルゴリズムは、57.72%のケースにおいて、SFTモデルよりも有用な回答を生成するために、人間のアノテータによって評価される。
論文 参考訳(メタデータ) (2024-03-04T22:47:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。