論文の概要: Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows?
- arxiv url: http://arxiv.org/abs/2407.10956v1
- Date: Mon, 15 Jul 2024 17:54:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 14:00:49.017966
- Title: Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows?
- Title(参考訳): Spider2-V: データサイエンスとエンジニアリングワークフローを自動化するマルチモーダルエージェントはどこまであるのか?
- Authors: Ruisheng Cao, Fangyu Lei, Haoyuan Wu, Jixuan Chen, Yeqiao Fu, Hongcheng Gao, Xinzhuang Xiong, Hanchong Zhang, Yuchen Mao, Wenjing Hu, Tianbao Xie, Hongshen Xu, Danyang Zhang, Sida Wang, Ruoxi Sun, Pengcheng Yin, Caiming Xiong, Ansong Ni, Qian Liu, Victor Zhong, Lu Chen, Kai Yu, Tao Yu,
- Abstract要約: 我々は、プロのデータサイエンスとエンジニアリングに焦点を当てた最初のマルチモーダルエージェントベンチマークであるSpider2-Vを紹介する。
Spider2-Vは、本物のコンピュータ環境における現実世界のタスクを特徴とし、20のエンタープライズレベルのプロフェッショナルアプリケーションを組み込んでいる。
これらのタスクは、エンタープライズデータソフトウェアシステムにおいて、コードを書き、GUIを管理することで、マルチモーダルエージェントがデータ関連のタスクを実行する能力を評価する。
- 参考スコア(独自算出の注目度): 73.81908518992161
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data science and engineering workflows often span multiple stages, from warehousing to orchestration, using tools like BigQuery, dbt, and Airbyte. As vision language models (VLMs) advance in multimodal understanding and code generation, VLM-based agents could potentially automate these workflows by generating SQL queries, Python code, and GUI operations. This automation can improve the productivity of experts while democratizing access to large-scale data analysis. In this paper, we introduce Spider2-V, the first multimodal agent benchmark focusing on professional data science and engineering workflows, featuring 494 real-world tasks in authentic computer environments and incorporating 20 enterprise-level professional applications. These tasks, derived from real-world use cases, evaluate the ability of a multimodal agent to perform data-related tasks by writing code and managing the GUI in enterprise data software systems. To balance realistic simulation with evaluation simplicity, we devote significant effort to developing automatic configurations for task setup and carefully crafting evaluation metrics for each task. Furthermore, we supplement multimodal agents with comprehensive documents of these enterprise data software systems. Our empirical evaluation reveals that existing state-of-the-art LLM/VLM-based agents do not reliably automate full data workflows (14.0% success). Even with step-by-step guidance, these agents still underperform in tasks that require fine-grained, knowledge-intensive GUI actions (16.2%) and involve remote cloud-hosted workspaces (10.6%). We hope that Spider2-V paves the way for autonomous multimodal agents to transform the automation of data science and engineering workflow. Our code and data are available at https://spider2-v.github.io.
- Abstract(参考訳): データサイエンスとエンジニアリングのワークフローは、ウェアハウスからオーケストレーションまで、BigQuery、dbt、Airbyteといったツールを使用して、複数のステージにまたがることが多い。
視覚言語モデル(VLM)がマルチモーダル理解とコード生成に進歩するにつれ、VLMベースのエージェントは、SQLクエリ、Pythonコード、GUI操作を生成することによって、これらのワークフローを自動化する可能性がある。
この自動化は、大規模なデータ分析へのアクセスを民主化しながら、専門家の生産性を向上させることができる。
本稿では,プロのデータサイエンスとエンジニアリングのワークフローに着目した,初めてのマルチモーダルエージェントベンチマークであるSpider2-Vを紹介する。
これらのタスクは、実世界のユースケースから派生したもので、エンタープライズデータソフトウェアシステムにおいて、コードを書き、GUIを管理することで、マルチモーダルエージェントがデータ関連のタスクを実行する能力を評価する。
評価の単純さと現実的なシミュレーションのバランスをとるために,タスク設定のための自動構成を開発し,各タスクに対する評価指標を慎重に作成するために,多大な努力を払った。
さらに、これらのエンタープライズデータソフトウェアシステムの包括的ドキュメントにマルチモーダルエージェントを補足する。
我々の経験的評価によると、既存のLLM/VLMベースのエージェントは完全なデータワークフローを確実に自動化していない(14.0%の成功)。
ステップバイステップのガイダンスであっても、これらのエージェントは細粒度で知識集約的なGUIアクション(16.2%)とリモートのクラウドホストワークスペース(10.6%)を必要とするタスクでは依然としてパフォーマンスが劣っている。
Spider2-Vは、自律的なマルチモーダルエージェントがデータサイエンスとエンジニアリングワークフローの自動化を変革する道を開くことを願っている。
私たちのコードとデータはhttps://spider2-v.github.io.comで公開されています。
関連論文リスト
- WorkflowLLM: Enhancing Workflow Orchestration Capability of Large Language Models [105.46456444315693]
ワークフローオーケストレーションにおける大規模言語モデルの能力を高めるための,データ中心のフレームワークであるLLMを提案する。
最初は106,763のサンプルで大規模な微調整Benchを構築し、28のカテゴリにわたる83のアプリケーションから1,503のAPIをカバーしている。
LlamaLlamaは複雑なAPIをオーケストレーションする能力を示しながら、優れた一般化性能を実現している。
論文 参考訳(メタデータ) (2024-11-08T09:58:02Z) - AutoML-Agent: A Multi-Agent LLM Framework for Full-Pipeline AutoML [56.565200973244146]
自動機械学習(Automated Machine Learning, ML)は、開発パイプライン内のタスクを自動化することによって、AI開発を加速する。
近年の作業では,そのような負担を軽減するために,大規模言語モデル(LLM)の利用が始まっている。
本稿では,フルパイプのAutoMLに適した新しいマルチエージェントフレームワークであるAutoML-Agentを提案する。
論文 参考訳(メタデータ) (2024-10-03T20:01:09Z) - WONDERBREAD: A Benchmark for Evaluating Multimodal Foundation Models on Business Process Management Tasks [11.701910903349201]
既存のMLベンチマークには、ビジネスプロセス管理(BPM)タスクのモデルを評価するのに必要なアノテーションの深さと多様性が欠けている。
我々のベンチマークでは、最先端のFMはドキュメンテーションを自動的に生成できるが、ワークフロー補完のよりきめ細かい検証に向けてその知識を再適用するのに苦労している。
論文 参考訳(メタデータ) (2024-06-19T06:50:15Z) - CAAP: Context-Aware Action Planning Prompting to Solve Computer Tasks with Front-End UI Only [21.054681757006385]
本稿では,スクリーンショット画像のみを通して環境を知覚するエージェントを提案する。
大規模言語モデルの推論能力を活用することで,大規模人間の実演データの必要性を解消する。
AgentはMiniWoB++の平均成功率は94.5%、WebShopの平均タスクスコアは62.3である。
論文 参考訳(メタデータ) (2024-06-11T05:21:20Z) - Accelerated Cloud for Artificial Intelligence (ACAI) [24.40451195277244]
我々は、エンドツーエンドのクラウドベースの機械学習プラットフォームであるAccelerated Cloud for AI (ACAI)を提案する。
ACAIは、インデックス付き、ラベル付き、検索可能なデータのクラウドストレージと、自動リソースプロビジョニング、ジョブスケジューリング、実験追跡を可能にする。
自動プロビジョン装置は1.7倍のスピードアップと39%のコスト削減を実現し,典型的なMLのユースケースにおいて,ML科学者の実験時間を20%短縮することを示した。
論文 参考訳(メタデータ) (2024-01-30T07:09:48Z) - TaskBench: Benchmarking Large Language Models for Task Automation [82.2932794189585]
タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。
具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。
提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
論文 参考訳(メタデータ) (2023-11-30T18:02:44Z) - GenSim: Generating Robotic Simulation Tasks via Large Language Models [34.79613485106202]
GenSimは、リッチなシミュレーション環境とエキスパートのデモを自動的に生成することを目指している。
既存のベンチマークを10倍から100以上のタスクに拡張するために、GPT4を使用します。
最小限のsim-to-real適応により、GPT4生成したシミュレーションタスクで事前訓練されたマルチタスクポリシーは、現実世界で目に見えないロングホライゾンタスクへのより強力な転送を示す。
論文 参考訳(メタデータ) (2023-10-02T17:23:48Z) - Towards Lightweight Data Integration using Multi-workflow Provenance and
Data Observability [0.2517763905487249]
統合データ分析は、特に現在のAI時代において、科学的発見において重要な役割を果たす。
軽量ランタイム向けマルチワークフロー統合データ分析手法MIDAを提案する。
Summitスーパーコンピュータの1,680個のCPUコア上で,最大10000のタスクを実行するほぼゼロのオーバーヘッドを示す。
論文 参考訳(メタデータ) (2023-08-17T14:20:29Z) - Data-Copilot: Bridging Billions of Data and Humans with Autonomous Workflow [49.724842920942024]
金融、気象学、エネルギーといった産業は毎日大量のデータを生み出している。
本研究では,データ分析エージェントであるData-Copilotを提案する。
論文 参考訳(メタデータ) (2023-06-12T16:12:56Z) - OmniForce: On Human-Centered, Large Model Empowered and Cloud-Edge
Collaborative AutoML System [85.8338446357469]
我々は人間中心のAutoMLシステムであるOmniForceを紹介した。
我々は、OmniForceがAutoMLシステムを実践し、オープン環境シナリオにおける適応型AIを構築する方法について説明する。
論文 参考訳(メタデータ) (2023-03-01T13:35:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。