論文の概要: InfiAgent-DABench: Evaluating Agents on Data Analysis Tasks
- arxiv url: http://arxiv.org/abs/2401.05507v1
- Date: Wed, 10 Jan 2024 19:04:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-13 02:22:36.436897
- Title: InfiAgent-DABench: Evaluating Agents on Data Analysis Tasks
- Title(参考訳): InfiAgent-DABench: データ分析タスクにおけるエージェントの評価
- Authors: Xueyu Hu, Ziyu Zhao, Shuang Wei, Ziwei Chai, Guoyin Wang, Xuwu Wang,
Jing Su, Jingjing Xu, Ming Zhu, Yao Cheng, Jianbo Yuan, Kun Kuang, Yang Yang,
Hongxia Yang, Fei Wu
- Abstract要約: InfiAgent-DABench は LLM ベースのエージェントをデータ解析タスクで評価するための最初のベンチマークである。
このベンチマークには、55のCSVファイルから派生した311のデータ分析質問からなるデータセットであるDAEvalが含まれている。
また、インストラクションチューニングデータセットに基づいて訓練された特殊エージェントであるDAAgentを開発した。
- 参考スコア(独自算出の注目度): 69.31386420160656
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce "InfiAgent-DABench", the first benchmark
specifically designed to evaluate LLM-based agents in data analysis tasks. This
benchmark contains DAEval, a dataset consisting of 311 data analysis questions
derived from 55 CSV files, and an agent framework to evaluate LLMs as data
analysis agents. We adopt a format-prompting technique, ensuring questions to
be closed-form that can be automatically evaluated. Our extensive benchmarking
of 23 state-of-the-art LLMs uncovers the current challenges encountered in data
analysis tasks. In addition, we have developed DAAgent, a specialized agent
trained on instruction-tuning datasets. Evaluation datasets and toolkits for
InfiAgent-DABench are released at https://github.com/InfiAgent/InfiAgent.
- Abstract(参考訳): 本稿では,llmベースのエージェントをデータ解析タスクで評価するための最初のベンチマークである「infiagent-dabench」を紹介する。
このベンチマークには、55のCSVファイルから得られた311のデータ分析質問からなるデータセットであるDAEvalと、LCMをデータ分析エージェントとして評価するエージェントフレームワークが含まれている。
我々は,質問がクローズドな形で自動的に評価されるように,フォーマットプロンプト技術を採用する。
最先端のLLM23の広範なベンチマークにより、データ解析タスクで直面する現在の課題が明らかになった。
さらに,インストラクションチューニングデータセットを訓練した特殊エージェントであるDAAgentを開発した。
InfiAgent-DABenchの評価データセットとツールキットはhttps://github.com/InfiAgent/InfiAgent.comでリリースされた。
関連論文リスト
- Agent-FLAN: Designing Data and Methods of Effective Agent Tuning for Large Language Models [56.00992369295851]
オープンソースのLarge Language Models(LLM)は、さまざまなNLPタスクで大きな成功を収めていますが、エージェントとして振る舞う場合、それでもAPIベースのモデルよりもはるかに劣っています。
本稿では,(1) エージェント学習コーパスを,(1) エージェント学習データの分布から大きくシフトするエージェント推論と,(2) エージェントタスクが必要とする能力に異なる学習速度を示すエージェント学習コーパスと,(3) 幻覚を導入することでエージェント能力を改善する際の副作用について述べる。
本稿では,エージェントのためのFLANモデルを効果的に構築するためのエージェントFLANを提案する。
論文 参考訳(メタデータ) (2024-03-19T16:26:10Z) - DACO: Towards Application-Driven and Comprehensive Data Analysis via
Code Generation [86.4326416303723]
データ分析は、詳細な研究と決定的な洞察を生み出すための重要な分析プロセスである。
LLMのコード生成機能を活用した高品質な応答アノテーションの自動生成を提案する。
我々のDACO-RLアルゴリズムは、57.72%のケースにおいて、SFTモデルよりも有用な回答を生成するために、人間のアノテータによって評価される。
論文 参考訳(メタデータ) (2024-03-04T22:47:58Z) - AgentOhana: Design Unified Data and Training Pipeline for Effective Agent Learning [100.14685774661959]
textbfAgentOhanaは、さまざまなシナリオにまたがって、異なる環境からエージェントのトラジェクトリを集約する。
AIエージェント用に調整された大規模なアクションモデルである textbfxLAM-v0.1 は、さまざまなベンチマークで例外的なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-23T18:56:26Z) - MatPlotAgent: Method and Evaluation for LLM-Based Agentic Scientific Data Visualization [86.61052121715689]
MatPlotAgentは、科学的データ可視化タスクを自動化するために設計された、モデルに依存しないフレームワークである。
MatPlotBenchは、100人の検証されたテストケースからなる高品質なベンチマークである。
論文 参考訳(メタデータ) (2024-02-18T04:28:28Z) - BIBench: Benchmarking Data Analysis Knowledge of Large Language Models [15.562520757000256]
大きな言語モデル(LLM)は、幅広いタスクにまたがる印象的な機能を示している。
しかし、データ分析の専門分野、特にデータ駆動思考に焦点をあてた能力と信頼性はいまだに不明である。
本ベンチマークは,データ解析分野におけるLCMの深度分析とLCMの進歩の促進を図ることを目的とする。
論文 参考訳(メタデータ) (2024-01-01T15:26:23Z) - Text2Analysis: A Benchmark of Table Question Answering with Advanced
Data Analysis and Unclear Queries [67.0083902913112]
高度な解析タスクを取り入れたText2Analysisベンチマークを開発した。
また,5つのイノベーティブかつ効果的なアノテーション手法を開発した。
3つの異なる指標を用いて5つの最先端モデルを評価する。
論文 参考訳(メタデータ) (2023-12-21T08:50:41Z) - On Evaluating the Integration of Reasoning and Action in LLM Agents with
Database Question Answering [25.57202500348071]
本研究では、大規模言語モデルがデータベースとどのように相互作用するかを評価するために設計された、新しい長文データベース質問応答データセットを提案する。
このタスクでは、LLMが戦略的に複数のクエリを生成し、データベースから十分なデータを取得し、取得したコンテキストを推論し、それらを総合的な分析的な物語に合成する必要がある。
本稿では2つのインタラクション戦略を提案し評価し、インタラクション内の個々のステージを詳細に分析する。
論文 参考訳(メタデータ) (2023-11-16T09:55:07Z) - MultiReQA: A Cross-Domain Evaluation for Retrieval Question Answering
Models [25.398047573530985]
ReQA(Retrieval Question answering)は、オープンコーパスから質問に対する文レベルの回答を検索するタスクである。
本稿では、公開されているQAデータセットから抽出された8つの検索QAタスクからなる新しいマルチドメインReQA評価スイートであるMultiReQAを提案する。
論文 参考訳(メタデータ) (2020-05-05T21:30:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。