論文の概要: InfiAgent-DABench: Evaluating Agents on Data Analysis Tasks
- arxiv url: http://arxiv.org/abs/2401.05507v1
- Date: Wed, 10 Jan 2024 19:04:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-13 02:22:36.436897
- Title: InfiAgent-DABench: Evaluating Agents on Data Analysis Tasks
- Title(参考訳): InfiAgent-DABench: データ分析タスクにおけるエージェントの評価
- Authors: Xueyu Hu, Ziyu Zhao, Shuang Wei, Ziwei Chai, Guoyin Wang, Xuwu Wang,
Jing Su, Jingjing Xu, Ming Zhu, Yao Cheng, Jianbo Yuan, Kun Kuang, Yang Yang,
Hongxia Yang, Fei Wu
- Abstract要約: InfiAgent-DABench は LLM ベースのエージェントをデータ解析タスクで評価するための最初のベンチマークである。
このベンチマークには、55のCSVファイルから派生した311のデータ分析質問からなるデータセットであるDAEvalが含まれている。
また、インストラクションチューニングデータセットに基づいて訓練された特殊エージェントであるDAAgentを開発した。
- 参考スコア(独自算出の注目度): 69.31386420160656
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce "InfiAgent-DABench", the first benchmark
specifically designed to evaluate LLM-based agents in data analysis tasks. This
benchmark contains DAEval, a dataset consisting of 311 data analysis questions
derived from 55 CSV files, and an agent framework to evaluate LLMs as data
analysis agents. We adopt a format-prompting technique, ensuring questions to
be closed-form that can be automatically evaluated. Our extensive benchmarking
of 23 state-of-the-art LLMs uncovers the current challenges encountered in data
analysis tasks. In addition, we have developed DAAgent, a specialized agent
trained on instruction-tuning datasets. Evaluation datasets and toolkits for
InfiAgent-DABench are released at https://github.com/InfiAgent/InfiAgent.
- Abstract(参考訳): 本稿では,llmベースのエージェントをデータ解析タスクで評価するための最初のベンチマークである「infiagent-dabench」を紹介する。
このベンチマークには、55のCSVファイルから得られた311のデータ分析質問からなるデータセットであるDAEvalと、LCMをデータ分析エージェントとして評価するエージェントフレームワークが含まれている。
我々は,質問がクローズドな形で自動的に評価されるように,フォーマットプロンプト技術を採用する。
最先端のLLM23の広範なベンチマークにより、データ解析タスクで直面する現在の課題が明らかになった。
さらに,インストラクションチューニングデータセットを訓練した特殊エージェントであるDAAgentを開発した。
InfiAgent-DABenchの評価データセットとツールキットはhttps://github.com/InfiAgent/InfiAgent.comでリリースされた。
関連論文リスト
- Agent-as-a-Judge: Evaluate Agents with Agents [61.33974108405561]
本稿ではエージェント・アズ・ア・ジャッジ(Agent-as-a-Judge)フレームワークを紹介し,エージェント・システムを用いてエージェント・システムの評価を行う。
これはLLM-as-a-Judgeフレームワークの有機的拡張であり、タスク解決プロセス全体の中間フィードバックを可能にするエージェント的特徴を取り入れている。
55のリアルな自動化AI開発タスクのベンチマークであるDevAIを紹介します。
論文 参考訳(メタデータ) (2024-10-14T17:57:02Z) - LAMBDA: A Large Model Based Data Agent [7.240586338370509]
本稿では,LArge Model Based Data Agent (LAMBDA)を紹介する。
LAMBDAは、複雑なデータ駆動アプリケーションにおけるデータ分析の課題に対処するように設計されている。
それは、人間と人工知能をシームレスに統合することで、データ分析パラダイムを強化する可能性がある。
論文 参考訳(メタデータ) (2024-07-24T06:26:36Z) - InsightBench: Evaluating Business Analytics Agents Through Multi-Step Insight Generation [79.09622602860703]
3つの重要な特徴を持つベンチマークデータセットであるInsightBenchを紹介します。
財務やインシデント管理といったさまざまなビジネスユースケースを表す100のデータセットで構成されている。
単一のクエリに回答することに焦点を当てた既存のベンチマークとは異なり、InsightBenchは、エンドツーエンドのデータ分析を実行する能力に基づいてエージェントを評価する。
論文 参考訳(メタデータ) (2024-07-08T22:06:09Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - DCA-Bench: A Benchmark for Dataset Curation Agents [9.60250892491588]
隠れたデータセットの品質問題を検知する大規模言語モデルの能力を測定するために,データセットキュレーションエージェントベンチマークであるDCA-Benchを提案する。
具体的には、テストベッドとして8つのオープンデータセットプラットフォームから、さまざまな実世界のデータセット品質の問題を収集します。
提案したベンチマークは、単に問題解決を行うのではなく、問題発見におけるLLMの能力を測定するためのテストベッドとしても機能する。
論文 参考訳(メタデータ) (2024-06-11T14:02:23Z) - CMDBench: A Benchmark for Coarse-to-fine Multimodal Data Discovery in Compound AI Systems [10.71630696651595]
知識集約的なタスクを達成するエージェントとしてLLMを使用する複合AIシステム(CAS)は、データベースやAIコミュニティにおいて大きな関心を集めている。
マルチモーダルデータソースのサイロは、そのタスクを達成するための適切なデータソースを特定するのを困難にしている。
我々はエンタープライズデータプラットフォームの複雑さをモデル化したベンチマークであるCMDBenchを提案する。
論文 参考訳(メタデータ) (2024-06-02T01:10:41Z) - DACO: Towards Application-Driven and Comprehensive Data Analysis via Code Generation [83.30006900263744]
データ分析は、詳細な研究と決定的な洞察を生み出すための重要な分析プロセスである。
LLMのコード生成機能を活用した高品質な応答アノテーションの自動生成を提案する。
我々のDACO-RLアルゴリズムは、57.72%のケースにおいて、SFTモデルよりも有用な回答を生成するために、人間のアノテータによって評価される。
論文 参考訳(メタデータ) (2024-03-04T22:47:58Z) - MatPlotAgent: Method and Evaluation for LLM-Based Agentic Scientific Data Visualization [86.61052121715689]
MatPlotAgentは、科学的データ可視化タスクを自動化するために設計された、モデルに依存しないフレームワークである。
MatPlotBenchは、100人の検証されたテストケースからなる高品質なベンチマークである。
論文 参考訳(メタデータ) (2024-02-18T04:28:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。