論文の概要: LongDA: Benchmarking LLM Agents for Long-Document Data Analysis
- arxiv url: http://arxiv.org/abs/2601.02598v1
- Date: Mon, 05 Jan 2026 23:23:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.747234
- Title: LongDA: Benchmarking LLM Agents for Long-Document Data Analysis
- Title(参考訳): LongDA: 長期文書データ解析のためのLLMエージェントのベンチマーク
- Authors: Yiyang Li, Zheyuan Zhang, Tianyi Ma, Zehong Wang, Keerthiram Murugesan, Chuxu Zhang, Yanfang Ye,
- Abstract要約: LongDAは、長いドキュメントと複雑なデータをナビゲートする実際の設定をターゲットとしています。
LongTAは、ドキュメントアクセス、検索、コード実行を可能にするツール拡張されたエージェントフレームワークである。
実験の結果, 最先端モデルにおいても, かなりの性能差が認められた。
- 参考スコア(独自算出の注目度): 55.32211515932351
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce LongDA, a data analysis benchmark for evaluating LLM-based agents under documentation-intensive analytical workflows. In contrast to existing benchmarks that assume well-specified schemas and inputs, LongDA targets real-world settings in which navigating long documentation and complex data is the primary bottleneck. To this end, we manually curate raw data files, long and heterogeneous documentation, and expert-written publications from 17 publicly available U.S. national surveys, from which we extract 505 analytical queries grounded in real analytical practice. Solving these queries requires agents to first retrieve and integrate key information from multiple unstructured documents, before performing multi-step computations and writing executable code, which remains challenging for existing data analysis agents. To support the systematic evaluation under this setting, we develop LongTA, a tool-augmented agent framework that enables document access, retrieval, and code execution, and evaluate a range of proprietary and open-source models. Our experiments reveal substantial performance gaps even among state-of-the-art models, highlighting the challenges researchers should consider before applying LLM agents for decision support in real-world, high-stakes analytical settings.
- Abstract(参考訳): LLMをベースとしたエージェントをドキュメント集約分析ワークフローで評価するためのデータ解析ベンチマークであるLongDAを紹介する。
明確に定義されたスキーマとインプットを仮定する既存のベンチマークとは対照的に、LongDAは、長いドキュメントと複雑なデータをナビゲートする実際の設定をターゲットとしています。
この目的のために、我々は、生データファイル、長くて異質なドキュメンテーション、および17の米国全国調査から専門家による出版物を手作業でキュレートし、実際の分析実践に基づく505の分析クエリを抽出した。
これらのクエリを解決するには、エージェントがまず複数の非構造化ドキュメントからキー情報を検索して統合し、その後に複数ステップの計算を実行し、実行可能なコードを書く必要がある。
この設定下での体系的評価を支援するため,文書アクセス,検索,コード実行を可能にするツール拡張エージェントフレームワークであるLongTAを開発し,プロプライエタリおよびオープンソースモデルの範囲を評価した。
本実験は,LLMエージェントを実世界の高精度な分析環境での意思決定支援に適用する前に,研究者が考慮すべき課題を浮き彫りにした。
関連論文リスト
- ConDABench: Interactive Evaluation of Language Models for Data Analysis [10.177407781044279]
本稿では,会話データ分析(ConDA)ベンチマークを作成し,外部ツールを評価するフレームワークであるConDABenchを紹介する。
ベンチは、(a)パブリックデータセットから得られた洞察を記述した記事から現実的なベンチマークを生成するマルチエージェントワークフロー、(b)このワークフローを使用して生成された1,420のConDA問題、(c)最初に、生成されたConDA問題に基づいて会話データ分析ツールを体系的に評価できる評価ハーネスで構成されています。
論文 参考訳(メタデータ) (2025-10-10T15:54:51Z) - FinAgentBench: A Benchmark Dataset for Agentic Retrieval in Financial Question Answering [57.18367828883773]
FinAgentBenchは、ファイナンスにおける多段階推論によるエージェント検索を評価するためのベンチマークである。
このベンチマークは、S&P-500上場企業に関する26Kのエキスパートアノテート例から成っている。
我々は,最先端モデルの集合を評価し,対象の微調整がエージェント検索性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2025-08-07T22:15:22Z) - DABstep: Data Agent Benchmark for Multi-step Reasoning [2.6709582216950767]
DABstepは、現実的なマルチステップデータ分析タスクでAIエージェントを評価するための新しいベンチマークである。
ファイナンシャル・アナリティクス・プラットフォームから派生した450以上の現実世界の課題で構成されている。
Dabstepは、自律的なデータ分析の研究を加速するために、公開のリーダーボードとツールキットと共にリリースされた。
論文 参考訳(メタデータ) (2025-06-30T10:49:21Z) - IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - MIMDE: Exploring the Use of Synthetic vs Human Data for Evaluating Multi-Insight Multi-Document Extraction Tasks [0.0]
我々は,Multi-Insight Multi-Document extract (MIMDE)タスクのセットを定義する。
この課題は、調査回答の分析から医療記録の処理に至るまで、多くの実践的応用に欠かせないものである。
そこで本研究では, 合成データの可能性を検討するために, 補完的な人間と合成データセットを新たに導入する。
論文 参考訳(メタデータ) (2024-11-29T13:24:10Z) - InfiAgent-DABench: Evaluating Agents on Data Analysis Tasks [84.7788065721689]
本稿では,データ解析タスクにおけるLSMに基づくエージェントの評価に特化して設計された最初のベンチマークであるInfiAgent-DABenchを紹介する。
このベンチマークには52のCSVファイルから得られた257のデータ分析質問からなるデータセットであるDAEvalが含まれている。
エージェントフレームワーク上に構築し,DABench 上で GPT-3.5 を3.9% 上回る特殊エージェント DAAgent を開発した。
論文 参考訳(メタデータ) (2024-01-10T19:04:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。