Fugu-MT 論文翻訳(概要): Benchmarking Data Science Agents

論文の概要: Benchmarking Data Science Agents

arxiv url: http://arxiv.org/abs/2402.17168v1
Date: Tue, 27 Feb 2024 03:03:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-28 18:04:29.076968
Title: Benchmarking Data Science Agents
Title（参考訳）: データサイエンスエージェントのベンチマーク
Authors: Yuge Zhang, Qiyang Jiang, Xingyu Han, Nan Chen, Yuqing Yang, Kan Ren
Abstract要約: 大規模言語モデル(LLM)は、データサイエンスエージェントとして有望な支援として登場し、データ分析と処理において人間を支援している。しかし、現実の応用の様々な要求と複雑な分析プロセスによって、それらの実用的有効性は依然として制限されている。我々は、新しい評価パラダイムであるDSEvalと、これらのエージェントの性能を評価するための一連の革新的なベンチマークを紹介する。
参考スコア（独自算出の注目度）: 11.582116078653968
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In the era of data-driven decision-making, the complexity of data analysis necessitates advanced expertise and tools of data science, presenting significant challenges even for specialists. Large Language Models (LLMs) have emerged as promising aids as data science agents, assisting humans in data analysis and processing. Yet their practical efficacy remains constrained by the varied demands of real-world applications and complicated analytical process. In this paper, we introduce DSEval -- a novel evaluation paradigm, as well as a series of innovative benchmarks tailored for assessing the performance of these agents throughout the entire data science lifecycle. Incorporating a novel bootstrapped annotation method, we streamline dataset preparation, improve the evaluation coverage, and expand benchmarking comprehensiveness. Our findings uncover prevalent obstacles and provide critical insights to inform future advancements in the field.
Abstract（参考訳）: データ駆動意思決定の時代において、データ分析の複雑さはデータサイエンスの高度な専門知識とツールを必要とし、専門家にとっても大きな課題となる。大規模言語モデル(LLM)は、データサイエンスエージェントとして有望な支援として登場し、データ分析と処理において人間を支援している。しかし、実際の応用や複雑な分析プロセスに対する様々な要求によって、実用性は依然として制限されている。本稿では、新しい評価パラダイムであるdsevalと、データサイエンスライフサイクル全体を通してこれらのエージェントのパフォーマンスを評価するための一連の革新的なベンチマークを紹介する。新規なブートストラップアノテーション手法を導入し,データセット作成の合理化,評価カバレッジの向上,ベンチマークの総合性の向上を図る。私たちの発見は、一般的な障害を明らかにし、この分野の今後の進歩を知るための重要な洞察を与えます。

関連論文リスト

DataSage: Multi-agent Collaboration for Insight Discovery with External Knowledge Retrieval, Multi-role Debating, and Multi-path Reasoning [10.04895420035484]
DataSageは、外部知識検索を組み込んだ新しいマルチエージェントフレームワークで、分析コンテキストを充実させる。 InsightBenchに関する大規模な実験は、DataSageが既存のデータインサイトエージェントをあらゆる難易度で一貫して上回っていることを示している。
論文参考訳（メタデータ） (2025-11-18T09:54:13Z)
Scaling Generalist Data-Analytic Agents [95.05161133349242]
DataMindは、汎用データ分析エージェントを構築するために設計されたスケーラブルなデータ合成およびエージェントトレーニングレシピである。 DataMindは、オープンソースのデータ分析エージェントを構築する上で重要な3つの課題に取り組む。
論文参考訳（メタデータ） (2025-09-29T17:23:08Z)
A Survey of Scientific Large Language Models: From Data Foundations to Agent Frontiers [251.23085679210206]
科学大規模言語モデル(Sci-LLMs)は、科学研究において、知識の表現、統合、適用の方法を変えつつある。この調査は、モデルとその基盤となるデータ基板の共進化として、Sci-LLMの開発を再考する。我々は、科学的データの統一された分類法と、科学的知識の階層的なモデルを定式化する。
論文参考訳（メタデータ） (2025-08-28T18:30:52Z)
Empowering Time Series Analysis with Synthetic Data: A Survey and Outlook in the Era of Foundation Models [104.17057231661371]
時系列解析は複雑なシステムの力学を理解するために重要である。基本モデルの最近の進歩はタスク非依存の時系列基礎モデル (TSFM) と大規模言語モデルベース時系列モデル (TSLLM) につながっている。彼らの成功は、規制、多様性、品質、量制約のために構築が困難である、大規模で多様で高品質なデータセットに依存する。本調査では,TSFMとTLLLMの合成データの総合的なレビュー,データ生成戦略の分析,モデル事前学習におけるそれらの役割,微調整,評価,今後の研究方向性の特定について述べる。
論文参考訳（メタデータ） (2025-03-14T13:53:46Z)
A Comprehensive Survey on Imbalanced Data Learning [56.65067795190842]
不均衡なデータは、さまざまな種類の生データに広まっており、機械学習のパフォーマンスを妨げる。本調査は,様々な実世界のデータ形式を体系的に分析する。さまざまなデータフォーマットに関する既存の研究は、データ再バランス、特徴表現、トレーニング戦略、アンサンブル学習の4つのカテゴリにまとめられている。
論文参考訳（メタデータ） (2025-02-13T04:53:17Z)
Deep Learning, Machine Learning, Advancing Big Data Analytics and Management [26.911181864764117]
人工知能、機械学習、ディープラーニングの進歩は、ビッグデータ分析と管理の変革を触媒している。本研究は,これらの技術の理論的基礎,方法論的進歩,実践的実装について考察する。研究者、実践家、データ愛好家は、現代のデータ分析の複雑さをナビゲートするツールを利用できる。
論文参考訳（メタデータ） (2024-12-03T05:59:34Z)
A Survey on Data Synthesis and Augmentation for Large Language Models [35.59526251210408]
本稿では,大規模言語モデルのライフサイクルを通じてデータ生成手法をレビューし,要約する。これらの手法が直面する現在の制約について考察し,今後の開発・研究の道筋について考察する。
論文参考訳（メタデータ） (2024-10-16T16:12:39Z)
Data Analysis in the Era of Generative AI [56.44807642944589]
本稿では,AIを活用したデータ分析ツールの可能性について考察する。我々は、大規模言語とマルチモーダルモデルの出現が、データ分析ワークフローの様々な段階を強化する新しい機会を提供する方法について検討する。次に、直感的なインタラクションを促進し、ユーザ信頼を構築し、AI支援分析ワークフローを複数のアプリにわたって合理化するための、人間中心の設計原則を調べます。
論文参考訳（メタデータ） (2024-09-27T06:31:03Z)
BLADE: Benchmarking Language Model Agents for Data-Driven Science [18.577658530714505]
プランニング、メモリ、コード実行機能を備えたLMベースのエージェントは、データ駆動科学をサポートする可能性がある。本稿では,エージェントの多面的アプローチを自動的に評価するベンチマークBLADEについて述べる。
論文参考訳（メタデータ） (2024-08-19T02:59:35Z)
DISCOVER: A Data-driven Interactive System for Comprehensive Observation, Visualization, and ExploRation of Human Behaviour [6.716560115378451]
我々は,人間行動分析のための計算駆動型データ探索を効率化するために,モジュール型でフレキシブルでユーザフレンドリなソフトウェアフレームワークを導入する。我々の主な目的は、高度な計算方法論へのアクセスを民主化することであり、これにより研究者は、広範囲の技術的熟練を必要とせずに、詳細な行動分析を行うことができる。
論文参考訳（メタデータ） (2024-07-18T11:28:52Z)
DACO: Towards Application-Driven and Comprehensive Data Analysis via Code Generation [83.30006900263744]
データ分析は、詳細な研究と決定的な洞察を生み出すための重要な分析プロセスである。 LLMのコード生成機能を活用した高品質な応答アノテーションの自動生成を提案する。我々のDACO-RLアルゴリズムは、57.72%のケースにおいて、SFTモデルよりも有用な回答を生成するために、人間のアノテータによって評価される。
論文参考訳（メタデータ） (2024-03-04T22:47:58Z)
Data Acquisition: A New Frontier in Data-centric AI [65.90972015426274]
まず、現在のデータマーケットプレースを調査し、データセットに関する詳細な情報を提供するプラットフォームが不足していることを明らかにする。次に、データプロバイダと取得者間のインタラクションをモデル化するベンチマークであるDAMチャレンジを紹介します。提案手法の評価は,機械学習における効果的なデータ取得戦略の必要性を浮き彫りにしている。
論文参考訳（メタデータ） (2023-11-22T22:15:17Z)
Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文参考訳（メタデータ） (2023-10-25T20:32:02Z)
Exploring the Potential of AI-Generated Synthetic Datasets: A Case Study on Telematics Data with ChatGPT [0.0]
この研究は、OpenAIの強力な言語モデルであるChatGPTを活用して、特にテレマティクス分野における合成データセットの構築と利用に力を入れている。このデータ作成プロセスを説明するために、合成テレマティクスデータセットの生成に焦点を当てたハンズオンケーススタディが実施されている。
論文参考訳（メタデータ） (2023-06-23T15:15:13Z)
Research Trends and Applications of Data Augmentation Algorithms [77.34726150561087]
我々は,データ拡張アルゴリズムの適用分野,使用するアルゴリズムの種類,重要な研究動向,時間経過に伴う研究の進展,およびデータ拡張文学における研究ギャップを同定する。我々は、読者がデータ拡張の可能性を理解し、将来の研究方向を特定し、データ拡張研究の中で質問を開くことを期待する。
論文参考訳（メタデータ） (2022-07-18T11:38:32Z)
Distributed intelligence on the Edge-to-Cloud Continuum: A systematic literature review [62.997667081978825]
このレビューは、現在利用可能な機械学習とデータ分析のための最先端ライブラリとフレームワークに関する包括的なビジョンを提供することを目的としている。現在利用可能なEdge-to-Cloud Continuumに関する実験的な研究のための、主要なシミュレーション、エミュレーション、デプロイメントシステム、テストベッドも調査されている。
論文参考訳（メタデータ） (2022-04-29T08:06:05Z)
Towards an Integrated Platform for Big Data Analysis [4.5257812998381315]
本稿では,これらすべての側面を統合した,ビッグデータ解析のための統合型プレート形式のビジョンについて述べる。このアプローチの主な利点は、プラットフォーム全体の拡張スケーラビリティ、アルゴリズムのパラメータ化の改善、エンドツーエンドのデータ分析プロセスにおけるユーザビリティの改善である。
論文参考訳（メタデータ） (2020-04-27T03:15:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。