論文の概要: InfiAgent-DABench: Evaluating Agents on Data Analysis Tasks
- arxiv url: http://arxiv.org/abs/2401.05507v3
- Date: Mon, 11 Mar 2024 07:57:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 14:39:24.960640
- Title: InfiAgent-DABench: Evaluating Agents on Data Analysis Tasks
- Title(参考訳): InfiAgent-DABench: データ分析タスクにおけるエージェントの評価
- Authors: Xueyu Hu, Ziyu Zhao, Shuang Wei, Ziwei Chai, Qianli Ma, Guoyin Wang,
Xuwu Wang, Jing Su, Jingjing Xu, Ming Zhu, Yao Cheng, Jianbo Yuan, Jiwei Li,
Kun Kuang, Yang Yang, Hongxia Yang, Fei Wu
- Abstract要約: 本稿では,データ解析タスクにおけるLSMに基づくエージェントの評価に特化して設計された最初のベンチマークであるInfiAgent-DABenchを紹介する。
このベンチマークには52のCSVファイルから得られた257のデータ分析質問からなるデータセットであるDAEvalが含まれている。
エージェントフレームワーク上に構築し,DABench 上で GPT-3.5 を3.9% 上回る特殊エージェント DAAgent を開発した。
- 参考スコア(独自算出の注目度): 84.7788065721689
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce InfiAgent-DABench, the first benchmark
specifically designed to evaluate LLM-based agents on data analysis tasks.
These tasks require agents to end-to-end solving complex tasks by interacting
with an execution environment. This benchmark contains DAEval, a dataset
consisting of 257 data analysis questions derived from 52 CSV files, and an
agent framework which incorporates LLMs to serve as data analysis agents for
both serving and evaluation. Since data analysis questions are often open-ended
and hard to evaluate without human supervision, we adopt a format-prompting
technique to convert each question into a closed-form format so that they can
be automatically evaluated. Our extensive benchmarking of 34 LLMs uncovers the
current challenges encountered in data analysis tasks. In addition, building on
top of our agent framework, we develop a specialized agent, DAAgent, which
surpasses GPT-3.5 by 3.9% on DABench. Evaluation datasets and toolkits for
InfiAgent-DABench are released at https://github.com/InfiAgent/InfiAgent .
- Abstract(参考訳): 本稿では,llmベースのエージェントをデータ解析タスクで評価するための最初のベンチマークであるinfiagent-dabenchを紹介する。
これらのタスクは、エージェントが実行環境と対話することで複雑なタスクをエンドツーエンドで解決する必要がある。
このベンチマークには、52のCSVファイルから得られた257のデータ分析質問からなるデータセットであるDAEvalと、LCMを組み込んでデータ分析エージェントとして機能するエージェントフレームワークが含まれている。
データ分析の質問はしばしばオープンで、人間の監督なしには評価が難しいので、私たちは各質問をクローズドな形式に変換して自動的に評価できるようにフォーマットプロピング技術を採用しています。
34 LLMの広範なベンチマークにより、データ解析タスクで直面する現在の課題が明らかになった。
さらに, エージェント・フレームワーク上に構築し, DABench 上で GPT-3.5 を3.9% 上回る特殊エージェント DAAgent を開発した。
InfiAgent-DABenchの評価データセットとツールキットはhttps://github.com/InfiAgent/InfiAgent でリリースされている。
関連論文リスト
- Agent-FLAN: Designing Data and Methods of Effective Agent Tuning for Large Language Models [56.00992369295851]
オープンソースのLarge Language Models(LLM)は、さまざまなNLPタスクで大きな成功を収めていますが、エージェントとして振る舞う場合、それでもAPIベースのモデルよりもはるかに劣っています。
本稿では,(1) エージェント学習コーパスを,(1) エージェント学習データの分布から大きくシフトするエージェント推論と,(2) エージェントタスクが必要とする能力に異なる学習速度を示すエージェント学習コーパスと,(3) 幻覚を導入することでエージェント能力を改善する際の副作用について述べる。
本稿では,エージェントのためのFLANモデルを効果的に構築するためのエージェントFLANを提案する。
論文 参考訳(メタデータ) (2024-03-19T16:26:10Z) - DACO: Towards Application-Driven and Comprehensive Data Analysis via
Code Generation [86.4326416303723]
データ分析は、詳細な研究と決定的な洞察を生み出すための重要な分析プロセスである。
LLMのコード生成機能を活用した高品質な応答アノテーションの自動生成を提案する。
我々のDACO-RLアルゴリズムは、57.72%のケースにおいて、SFTモデルよりも有用な回答を生成するために、人間のアノテータによって評価される。
論文 参考訳(メタデータ) (2024-03-04T22:47:58Z) - AgentOhana: Design Unified Data and Training Pipeline for Effective Agent Learning [100.14685774661959]
textbfAgentOhanaは、さまざまなシナリオにまたがって、異なる環境からエージェントのトラジェクトリを集約する。
AIエージェント用に調整された大規模なアクションモデルである textbfxLAM-v0.1 は、さまざまなベンチマークで例外的なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-23T18:56:26Z) - MatPlotAgent: Method and Evaluation for LLM-Based Agentic Scientific Data Visualization [86.61052121715689]
MatPlotAgentは、科学的データ可視化タスクを自動化するために設計された、モデルに依存しないフレームワークである。
MatPlotBenchは、100人の検証されたテストケースからなる高品質なベンチマークである。
論文 参考訳(メタデータ) (2024-02-18T04:28:28Z) - BIBench: Benchmarking Data Analysis Knowledge of Large Language Models [15.562520757000256]
大きな言語モデル(LLM)は、幅広いタスクにまたがる印象的な機能を示している。
しかし、データ分析の専門分野、特にデータ駆動思考に焦点をあてた能力と信頼性はいまだに不明である。
本ベンチマークは,データ解析分野におけるLCMの深度分析とLCMの進歩の促進を図ることを目的とする。
論文 参考訳(メタデータ) (2024-01-01T15:26:23Z) - Text2Analysis: A Benchmark of Table Question Answering with Advanced
Data Analysis and Unclear Queries [67.0083902913112]
高度な解析タスクを取り入れたText2Analysisベンチマークを開発した。
また,5つのイノベーティブかつ効果的なアノテーション手法を開発した。
3つの異なる指標を用いて5つの最先端モデルを評価する。
論文 参考訳(メタデータ) (2023-12-21T08:50:41Z) - On Evaluating the Integration of Reasoning and Action in LLM Agents with
Database Question Answering [25.57202500348071]
本研究では、大規模言語モデルがデータベースとどのように相互作用するかを評価するために設計された、新しい長文データベース質問応答データセットを提案する。
このタスクでは、LLMが戦略的に複数のクエリを生成し、データベースから十分なデータを取得し、取得したコンテキストを推論し、それらを総合的な分析的な物語に合成する必要がある。
本稿では2つのインタラクション戦略を提案し評価し、インタラクション内の個々のステージを詳細に分析する。
論文 参考訳(メタデータ) (2023-11-16T09:55:07Z) - MultiReQA: A Cross-Domain Evaluation for Retrieval Question Answering
Models [25.398047573530985]
ReQA(Retrieval Question answering)は、オープンコーパスから質問に対する文レベルの回答を検索するタスクである。
本稿では、公開されているQAデータセットから抽出された8つの検索QAタスクからなる新しいマルチドメインReQA評価スイートであるMultiReQAを提案する。
論文 参考訳(メタデータ) (2020-05-05T21:30:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。