論文の概要: Data Interpreter: An LLM Agent For Data Science
- arxiv url: http://arxiv.org/abs/2402.18679v4
- Date: Tue, 15 Oct 2024 15:52:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 13:59:16.049507
- Title: Data Interpreter: An LLM Agent For Data Science
- Title(参考訳): Data Interpreter: データサイエンスのためのLLMエージェント
- Authors: Sirui Hong, Yizhang Lin, Bang Liu, Bangbang Liu, Binhao Wu, Ceyao Zhang, Chenxing Wei, Danyang Li, Jiaqi Chen, Jiayi Zhang, Jinlin Wang, Li Zhang, Lingyao Zhang, Min Yang, Mingchen Zhuge, Taicheng Guo, Tuo Zhou, Wei Tao, Xiangru Tang, Xiangtao Lu, Xiawu Zheng, Xinbing Liang, Yaying Fei, Yuheng Cheng, Zhibin Gou, Zongze Xu, Chenglin Wu,
- Abstract要約: LLM(Large Language Model)ベースのエージェントは多くのアプリケーションで有効性を示している。
しかし、長期的な相互接続タスク、動的なデータ調整、ドメインの専門知識の解決を必要とするデータサイエンスのシナリオでの利用は、依然として困難である。
本稿では,LLMをベースとしたエージェントであるData Interpreterについて述べる。
- 参考スコア(独自算出の注目度): 43.13678782387546
- License:
- Abstract: Large Language Model (LLM)-based agents have shown effectiveness across many applications. However, their use in data science scenarios requiring solving long-term interconnected tasks, dynamic data adjustments and domain expertise remains challenging. Previous approaches primarily focus on individual tasks, making it difficult to assess the complete data science workflow. Moreover, they struggle to handle real-time changes in intermediate data and fail to adapt dynamically to evolving task dependencies inherent to data science problems. In this paper, we present Data Interpreter, an LLM-based agent designed to automatically solve various data science problems end-to-end. Our Data Interpreter incorporates two key modules: 1) Hierarchical Graph Modeling, which breaks down complex problems into manageable subproblems, enabling dynamic node generation and graph optimization; and 2) Programmable Node Generation, a technique that refines and verifies each subproblem to iteratively improve code generation results and robustness. Extensive experiments consistently demonstrate the superiority of Data Interpreter. On InfiAgent-DABench, it achieves a 25% performance boost, raising accuracy from 75.9% to 94.9%. For machine learning and open-ended tasks, it improves performance from 88% to 95%, and from 60% to 97%, respectively. Moreover, on the MATH dataset, Data Interpreter achieves remarkable performance with a 26% improvement compared to state-of-the-art baselines. The code is available at https://github.com/geekan/MetaGPT.
- Abstract(参考訳): LLM(Large Language Model)ベースのエージェントは多くのアプリケーションで有効性を示している。
しかし、長期的な相互接続タスク、動的なデータ調整、ドメインの専門知識の解決を必要とするデータサイエンスのシナリオでの利用は、依然として困難である。
これまでのアプローチは主に個々のタスクに重点を置いていたため、完全なデータサイエンスワークフローを評価するのは困難だった。
さらに、中間データにおけるリアルタイムな変更の処理に苦労し、データサイエンス問題に固有のタスク依存の進化に動的に対応できない。
本稿では,LLMに基づくエージェントであるData Interpreterについて述べる。
私たちのData Interpreterには2つの重要なモジュールがあります。
1 階層グラフモデリングは、複雑な問題を管理可能なサブプロブレムに分解し、動的ノード生成とグラフ最適化を可能にする。
2) Programmable Node Generationは、コード生成結果とロバスト性を改善するために、各サブプロブレムを洗練、検証するテクニックです。
大規模な実験は、データインタープリタの優位性を一貫して示している。
InfiAgent-DABenchでは25%のパフォーマンス向上を実現し、精度は75.9%から94.9%に向上した。
機械学習とオープンエンドタスクでは、パフォーマンスを88%から95%に、パフォーマンスを60%から97%に改善する。
さらに、MATHデータセットでは、Data Interpreterは最先端のベースラインに比べて26%改善され、顕著なパフォーマンスを実現している。
コードはhttps://github.com/geekan/MetaGPTで入手できる。
関連論文リスト
- Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - LLM4DS: Evaluating Large Language Models for Data Science Code Generation [0.0]
本稿では、Microsoft Copilot(GPT-4 Turbo)、ChatGPT(o1-preview)、Claude(3.5 Sonnet)、Perplexity Labs(Llama-3.1-70b-instruct)の4つの主要なAIアシスタントの性能を実証的に評価する。
すべてのモデルが50%の成功率を超え、ランダムなチャンスを超えた能力が確認された。
ChatGPTは様々な難易度で一貫した性能を示し、クロードの成功率はタスクの複雑さによって変動した。
論文 参考訳(メタデータ) (2024-11-16T18:43:26Z) - DSBench: How Far Are Data Science Agents to Becoming Data Science Experts? [58.330879414174476]
現実的なタスクでデータサイエンスエージェントを評価するためのベンチマークであるDSBenchを紹介する。
このベンチマークには、466のデータ分析タスクと、EloquenceとKaggleのコンペからソースされた74のデータモデリングタスクが含まれている。
現状のLLM, LVLM, エージェントを評価したところ, 最高のエージェントはデータ解析タスクの34.12%しか解決できず, RPG(Relative Performance Gap)は34.74%であった。
論文 参考訳(メタデータ) (2024-09-12T02:08:00Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - Automatic Data Augmentation via Invariance-Constrained Learning [94.27081585149836]
下位のデータ構造は、しばしば学習タスクのソリューションを改善するために利用される。
データ拡張は、入力データに複数の変換を適用することで、トレーニング中にこれらの対称性を誘導する。
この作業は、学習タスクを解決しながらデータ拡張を自動的に適応することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2022-09-29T18:11:01Z) - HaT5: Hate Language Identification using Text-to-Text Transfer
Transformer [1.2532400738980594]
比較的多様な2つのデータセットから5つのタスクにまたがる最先端技術(SoTA)アーキテクチャT5の性能について検討する。
性能向上のために,自己回帰モデルを用いてトレーニングデータを増強する。
サンプルの小さなセットを使用することで、データアノテーションが貧弱であることの難しさを明らかにします。
論文 参考訳(メタデータ) (2022-02-11T15:21:27Z) - Exploring the Efficacy of Automatically Generated Counterfactuals for
Sentiment Analysis [17.811597734603144]
本稿では,データ拡張と説明のためのデファクトデータの自動生成手法を提案する。
いくつかの異なるデータセットに対する包括的な評価と、さまざまな最先端ベンチマークの使用により、我々のアプローチがモデルパフォーマンスを大幅に改善できることを示す。
論文 参考訳(メタデータ) (2021-06-29T10:27:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。