論文の概要: Benchmarking Data Science Agents
- arxiv url: http://arxiv.org/abs/2402.17168v1
- Date: Tue, 27 Feb 2024 03:03:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 18:04:29.076968
- Title: Benchmarking Data Science Agents
- Title(参考訳): データサイエンスエージェントのベンチマーク
- Authors: Yuge Zhang, Qiyang Jiang, Xingyu Han, Nan Chen, Yuqing Yang, Kan Ren
- Abstract要約: 大規模言語モデル(LLM)は、データサイエンスエージェントとして有望な支援として登場し、データ分析と処理において人間を支援している。
しかし、現実の応用の様々な要求と複雑な分析プロセスによって、それらの実用的有効性は依然として制限されている。
我々は、新しい評価パラダイムであるDSEvalと、これらのエージェントの性能を評価するための一連の革新的なベンチマークを紹介する。
- 参考スコア(独自算出の注目度): 11.582116078653968
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the era of data-driven decision-making, the complexity of data analysis
necessitates advanced expertise and tools of data science, presenting
significant challenges even for specialists. Large Language Models (LLMs) have
emerged as promising aids as data science agents, assisting humans in data
analysis and processing. Yet their practical efficacy remains constrained by
the varied demands of real-world applications and complicated analytical
process. In this paper, we introduce DSEval -- a novel evaluation paradigm, as
well as a series of innovative benchmarks tailored for assessing the
performance of these agents throughout the entire data science lifecycle.
Incorporating a novel bootstrapped annotation method, we streamline dataset
preparation, improve the evaluation coverage, and expand benchmarking
comprehensiveness. Our findings uncover prevalent obstacles and provide
critical insights to inform future advancements in the field.
- Abstract(参考訳): データ駆動意思決定の時代において、データ分析の複雑さはデータサイエンスの高度な専門知識とツールを必要とし、専門家にとっても大きな課題となる。
大規模言語モデル(LLM)は、データサイエンスエージェントとして有望な支援として登場し、データ分析と処理において人間を支援している。
しかし、実際の応用や複雑な分析プロセスに対する様々な要求によって、実用性は依然として制限されている。
本稿では、新しい評価パラダイムであるdsevalと、データサイエンスライフサイクル全体を通してこれらのエージェントのパフォーマンスを評価するための一連の革新的なベンチマークを紹介する。
新規なブートストラップアノテーション手法を導入し,データセット作成の合理化,評価カバレッジの向上,ベンチマークの総合性の向上を図る。
私たちの発見は、一般的な障害を明らかにし、この分野の今後の進歩を知るための重要な洞察を与えます。
関連論文リスト
- A Survey on Data Synthesis and Augmentation for Large Language Models [35.59526251210408]
本稿では,大規模言語モデルのライフサイクルを通じてデータ生成手法をレビューし,要約する。
これらの手法が直面する現在の制約について考察し,今後の開発・研究の道筋について考察する。
論文 参考訳(メタデータ) (2024-10-16T16:12:39Z) - Data Analysis in the Era of Generative AI [56.44807642944589]
本稿では,AIを活用したデータ分析ツールの可能性について考察する。
我々は、大規模言語とマルチモーダルモデルの出現が、データ分析ワークフローの様々な段階を強化する新しい機会を提供する方法について検討する。
次に、直感的なインタラクションを促進し、ユーザ信頼を構築し、AI支援分析ワークフローを複数のアプリにわたって合理化するための、人間中心の設計原則を調べます。
論文 参考訳(メタデータ) (2024-09-27T06:31:03Z) - BLADE: Benchmarking Language Model Agents for Data-Driven Science [18.577658530714505]
プランニング、メモリ、コード実行機能を備えたLMベースのエージェントは、データ駆動科学をサポートする可能性がある。
本稿では,エージェントの多面的アプローチを自動的に評価するベンチマークBLADEについて述べる。
論文 参考訳(メタデータ) (2024-08-19T02:59:35Z) - DISCOVER: A Data-driven Interactive System for Comprehensive Observation, Visualization, and ExploRation of Human Behaviour [6.716560115378451]
我々は,人間行動分析のための計算駆動型データ探索を効率化するために,モジュール型でフレキシブルでユーザフレンドリなソフトウェアフレームワークを導入する。
我々の主な目的は、高度な計算方法論へのアクセスを民主化することであり、これにより研究者は、広範囲の技術的熟練を必要とせずに、詳細な行動分析を行うことができる。
論文 参考訳(メタデータ) (2024-07-18T11:28:52Z) - DACO: Towards Application-Driven and Comprehensive Data Analysis via Code Generation [83.30006900263744]
データ分析は、詳細な研究と決定的な洞察を生み出すための重要な分析プロセスである。
LLMのコード生成機能を活用した高品質な応答アノテーションの自動生成を提案する。
我々のDACO-RLアルゴリズムは、57.72%のケースにおいて、SFTモデルよりも有用な回答を生成するために、人間のアノテータによって評価される。
論文 参考訳(メタデータ) (2024-03-04T22:47:58Z) - Data Acquisition: A New Frontier in Data-centric AI [65.90972015426274]
まず、現在のデータマーケットプレースを調査し、データセットに関する詳細な情報を提供するプラットフォームが不足していることを明らかにする。
次に、データプロバイダと取得者間のインタラクションをモデル化するベンチマークであるDAMチャレンジを紹介します。
提案手法の評価は,機械学習における効果的なデータ取得戦略の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-11-22T22:15:17Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Exploring the Potential of AI-Generated Synthetic Datasets: A Case Study
on Telematics Data with ChatGPT [0.0]
この研究は、OpenAIの強力な言語モデルであるChatGPTを活用して、特にテレマティクス分野における合成データセットの構築と利用に力を入れている。
このデータ作成プロセスを説明するために、合成テレマティクスデータセットの生成に焦点を当てたハンズオンケーススタディが実施されている。
論文 参考訳(メタデータ) (2023-06-23T15:15:13Z) - Research Trends and Applications of Data Augmentation Algorithms [77.34726150561087]
我々は,データ拡張アルゴリズムの適用分野,使用するアルゴリズムの種類,重要な研究動向,時間経過に伴う研究の進展,およびデータ拡張文学における研究ギャップを同定する。
我々は、読者がデータ拡張の可能性を理解し、将来の研究方向を特定し、データ拡張研究の中で質問を開くことを期待する。
論文 参考訳(メタデータ) (2022-07-18T11:38:32Z) - Distributed intelligence on the Edge-to-Cloud Continuum: A systematic
literature review [62.997667081978825]
このレビューは、現在利用可能な機械学習とデータ分析のための最先端ライブラリとフレームワークに関する包括的なビジョンを提供することを目的としている。
現在利用可能なEdge-to-Cloud Continuumに関する実験的な研究のための、主要なシミュレーション、エミュレーション、デプロイメントシステム、テストベッドも調査されている。
論文 参考訳(メタデータ) (2022-04-29T08:06:05Z) - Towards an Integrated Platform for Big Data Analysis [4.5257812998381315]
本稿では,これらすべての側面を統合した,ビッグデータ解析のための統合型プレート形式のビジョンについて述べる。
このアプローチの主な利点は、プラットフォーム全体の拡張スケーラビリティ、アルゴリズムのパラメータ化の改善、エンドツーエンドのデータ分析プロセスにおけるユーザビリティの改善である。
論文 参考訳(メタデータ) (2020-04-27T03:15:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。