論文の概要: DatawiseAgent: A Notebook-Centric LLM Agent Framework for Adaptive and Robust Data Science Automation
- arxiv url: http://arxiv.org/abs/2503.07044v2
- Date: Fri, 03 Oct 2025 13:29:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 14:21:29.709731
- Title: DatawiseAgent: A Notebook-Centric LLM Agent Framework for Adaptive and Robust Data Science Automation
- Title(参考訳): DatawiseAgent: 適応的でロバストなデータサイエンス自動化のためのノートブック中心のLLMエージェントフレームワーク
- Authors: Ziming You, Yumiao Zhang, Dexuan Xu, Yiwei Lou, Yandong Yan, Wei Wang, Huaming Zhang, Yu Huang,
- Abstract要約: 我々は、適応的で堅牢なデータサイエンス自動化のためのノートブック中心の大規模言語モデル(LLM)エージェントフレームワークであるDatawiseAgentを紹介する。
人間のデータサイエンティストが計算ノートブックでどのように機能するかに触発されたDatawiseAgentは、統一された相互作用表現とマルチステージアーキテクチャを導入した。
- 参考スコア(独自算出の注目度): 10.390461679868197
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing large language model (LLM) agents for automating data science show promise, but they remain constrained by narrow task scopes, limited generalization across tasks and models, and over-reliance on state-of-the-art (SOTA) LLMs. We introduce DatawiseAgent, a notebook-centric LLM agent framework for adaptive and robust data science automation. Inspired by how human data scientists work in computational notebooks, DatawiseAgent introduces a unified interaction representation and a multi-stage architecture based on finite-state transducers (FSTs). This design enables flexible long-horizon planning, progressive solution development, and robust recovery from execution failures. Extensive experiments across diverse data science scenarios and models show that DatawiseAgent consistently achieves SOTA performance by surpassing strong baselines such as AutoGen and TaskWeaver, demonstrating superior effectiveness and adaptability. Further evaluations reveal graceful performance degradation under weaker or smaller models, underscoring the robustness and scalability.
- Abstract(参考訳): データサイエンスを自動化するための既存の大規模言語モデル(LLM)エージェントは有望であるが、タスクの範囲の狭さ、タスクやモデル間の一般化の制限、最先端(SOTA)のLLMへの過度な依存に制約されている。
我々は、適応的で堅牢なデータサイエンス自動化のためのノートブック中心のLLMエージェントフレームワークであるDatawiseAgentを紹介する。
人間のデータ科学者が計算ノートでどのように機能するかに触発されたDatawiseAgentは、有限状態トランスデューサ(FST)に基づいた統一された相互作用表現と多段階アーキテクチャを導入した。
この設計により、柔軟な長期計画、プログレッシブソリューション開発、実行障害からの堅牢なリカバリが可能になる。
多様なデータサイエンスシナリオとモデルにわたる大規模な実験は、DatawiseAgentがAutoGenやTaskWeaverのような強力なベースラインを越え、優れた効率性と適応性を示すことによって、一貫してSOTAのパフォーマンスを達成することを示している。
さらなる評価により、より弱いモデルまたはより小さなモデルの下での優雅なパフォーマンス劣化が示され、堅牢性とスケーラビリティが強調される。
関連論文リスト
- FELA: A Multi-Agent Evolutionary System for Feature Engineering of Industrial Event Log Data [7.129004248608012]
イベントログデータは、現代のデジタルサービスにとって最も価値のある資産の1つである。
AutoMLや遺伝的手法のような既存の機能エンジニアリングアプローチは、しばしば限定的な説明責任に悩まされる。
複雑なイベントログデータから有意義かつ高性能な特徴を自律的に抽出するマルチエージェント進化システムFELAを提案する。
論文 参考訳(メタデータ) (2025-10-29T06:57:32Z) - VDSAgents: A PCS-Guided Multi-Agent System for Veridical Data Science Automation [11.521235834823301]
大規模言語モデル(LLM)は、自動システム設計のためのデータサイエンスにますます統合される。
本稿では,PCS(Predictability-Computability-Stability)の原則に基づくマルチエージェントシステムであるVDSAgentsを提案する。
VDSAgentsを、最先端のエンドツーエンドデータサイエンスシステムと比較し、様々な特徴を持つ9つのデータセット上で評価する。
論文 参考訳(メタデータ) (2025-10-28T12:07:50Z) - Automating Data-Driven Modeling and Analysis for Engineering Applications using Large Language Model Agents [3.344730946122235]
本稿では,Large Language Model (LLM) エージェントを用いてデータ駆動モデリングと分析を自動化する革新的なパイプラインを提案する。
協調エージェントを特徴とするマルチエージェントシステムと、Reasoning and Acting(ReAct)パラダイムに基づく単一エージェントシステムである。
論文 参考訳(メタデータ) (2025-10-01T19:28:35Z) - Autonomous Data Agents: A New Opportunity for Smart Data [50.02229219403014]
DataAgentsは、自律的なデータから知識システムへのパラダイムシフトを表している、とReportは主張する。
DataAgentsは、複雑で非構造化されたデータをコヒーレントで行動可能な知識に変換する。
エージェントAIとデータ・トゥ・ナレッジシステムの収束が重要なトレンドとなっている理由を最初に検討する。
論文 参考訳(メタデータ) (2025-09-23T06:46:41Z) - Structured Agentic Workflows for Financial Time-Series Modeling with LLMs and Reflective Feedback [16.04516547661581]
時系列データは金融市場における意思決定の中心であるが、ハイパフォーマンス、解釈可能、監査可能なモデルの構築は依然として大きな課題である。
textsfTSAgentは、金融アプリケーションの時系列モデリングの自動化と強化を目的として設計されたモジュラーエージェントフレームワークである。
論文 参考訳(メタデータ) (2025-08-19T15:14:49Z) - AgenticData: An Agentic Data Analytics System for Heterogeneous Data [12.67277567222908]
AgenticDataはエージェントデータ分析システムで、複数のドメインにまたがるデータソースを自律的に分析しながら、自然言語(NL)の質問に反応することができる。
本稿では,関連するデータを発見するためのデータプロファイリングエージェント,フィードバックに基づく反復最適化のためのセマンティッククロスバリデーションエージェント,短期文脈を維持するためのスマートメモリエージェントを利用するマルチエージェント協調戦略を提案する。
論文 参考訳(メタデータ) (2025-08-07T03:33:59Z) - LAM SIMULATOR: Advancing Data Generation for Large Action Model Training via Online Exploration and Trajectory Feedback [121.78866929908871]
AIエージェントのための大規模アクションモデル(LAM)は、素晴らしいポテンシャルを提供するが、高品質なトレーニングデータを必要とするため、課題に直面している。
LAM SIMULATORは,高品質なフィードバックによるエージェントタスクのオンライン探索を目的とした総合的なフレームワークである。
本フレームワークは,動的タスククエリジェネレータ,広範囲なツールコレクション,および大規模言語モデル(LLM)エージェントがツールを呼び出し,リアルタイムフィードバックを受信できる対話型環境を備えている。
論文 参考訳(メタデータ) (2025-06-02T22:36:02Z) - IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - R&D-Agent: An LLM-Agent Framework Towards Autonomous Data Science [70.1638335489284]
高レベルの機械学習エンジニアリングタスクは、労働集約的で反復的である。
機械学習プロセスを形式化する包括的で分離されたフレームワークであるR&D-Agentを紹介します。
R&D-AgentはMLEを2つのフェーズと6つのコンポーネントに定義し、MLEのエージェント設計を原則としてテスト可能なプロセスに変える。
論文 参考訳(メタデータ) (2025-05-20T06:07:00Z) - TAIJI: MCP-based Multi-Modal Data Analytics on Data Lakes [25.05627023905607]
モデルコンテキストプロトコル(MCP)に基づく新しいマルチモーダルデータ分析システムを提案する。
まず,データレイクにおけるマルチモーダルデータのクエリに適したセマンティック演算子階層を定義する。
次に、MPPベースの実行フレームワークを紹介し、各MPPサーバは、特定のデータモダリティに最適化された特別な基礎モデルをホストする。
論文 参考訳(メタデータ) (2025-05-16T14:03:30Z) - DataMosaic: Explainable and Verifiable Multi-Modal Data Analytics through Extract-Reason-Verify [11.10351765834947]
大規模言語モデル(LLM)はデータ分析を変革しているが、その普及は2つの限界によって妨げられている。
それらは説明不可能(不明確な推論プロセス)であり、検証不可能(幻覚や未確認の誤りが原因である)である。
データモザイク(DataMosaic)は、LCMを利用した分析を説明可能かつ検証可能とするために設計されたフレームワークである。
論文 参考訳(メタデータ) (2025-04-14T09:38:23Z) - Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - A Collaborative Multi-Agent Approach to Retrieval-Augmented Generation Across Diverse Data [0.0]
Retrieval-Augmented Generation (RAG)はLarge Language Models (LLM)を強化する
従来のRAGシステムでは、クエリ生成、データ検索、レスポンス合成に単一エージェントアーキテクチャを使用するのが一般的である。
本稿では,これらの制約に対処するマルチエージェントRAGシステムを提案する。
論文 参考訳(メタデータ) (2024-12-08T07:18:19Z) - Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - AutoML-Agent: A Multi-Agent LLM Framework for Full-Pipeline AutoML [56.565200973244146]
自動機械学習(Automated Machine Learning, ML)は、開発パイプライン内のタスクを自動化することによって、AI開発を加速する。
近年の作業では,そのような負担を軽減するために,大規模言語モデル(LLM)の利用が始まっている。
本稿では,フルパイプのAutoMLに適した新しいマルチエージェントフレームワークであるAutoML-Agentを提案する。
論文 参考訳(メタデータ) (2024-10-03T20:01:09Z) - Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows? [73.81908518992161]
我々は、プロのデータサイエンスとエンジニアリングに焦点を当てた最初のマルチモーダルエージェントベンチマークであるSpider2-Vを紹介する。
Spider2-Vは、本物のコンピュータ環境における現実世界のタスクを特徴とし、20のエンタープライズレベルのプロフェッショナルアプリケーションを組み込んでいる。
これらのタスクは、エンタープライズデータソフトウェアシステムにおいて、コードを書き、GUIを管理することで、マルチモーダルエージェントがデータ関連のタスクを実行する能力を評価する。
論文 参考訳(メタデータ) (2024-07-15T17:54:37Z) - AvaTaR: Optimizing LLM Agents for Tool Usage via Contrastive Reasoning [93.96463520716759]
大規模言語モデル(LLM)エージェントは、精度と幻覚を高めるために外部ツールと知識を活用する際、印象的な能力を示した。
本稿では、LLMエージェントを最適化して提供されたツールを効果的に活用し、与えられたタスクのパフォーマンスを向上させる新しい自動化フレームワークであるAvaTaRを紹介する。
論文 参考訳(メタデータ) (2024-06-17T04:20:02Z) - DCA-Bench: A Benchmark for Dataset Curation Agents [9.60250892491588]
隠れたデータセットの品質問題を検知する大規模言語モデルの能力を測定するために,データセットキュレーションエージェントベンチマークであるDCA-Benchを提案する。
具体的には、テストベッドとして8つのオープンデータセットプラットフォームから、さまざまな実世界のデータセット品質の問題を収集します。
提案したベンチマークは、単に問題解決を行うのではなく、問題発見におけるLLMの能力を測定するためのテストベッドとしても機能する。
論文 参考訳(メタデータ) (2024-06-11T14:02:23Z) - Data Interpreter: An LLM Agent For Data Science [43.13678782387546]
LLM(Large Language Model)ベースのエージェントは多くのアプリケーションで有効性を示している。
しかし、長期的な相互接続タスク、動的なデータ調整、ドメインの専門知識の解決を必要とするデータサイエンスのシナリオでの利用は、依然として困難である。
本稿では,LLMをベースとしたエージェントであるData Interpreterについて述べる。
論文 参考訳(メタデータ) (2024-02-28T19:49:55Z) - DS-Agent: Automated Data Science by Empowering Large Language Models with Case-Based Reasoning [56.887047551101574]
大規模言語モデル(LLM)エージェントとケースベース推論(CBR)を利用した新しいフレームワークであるDS-Agentを提案する。
開発段階では、DS-AgentはCBRフレームワークに従い、自動イテレーションパイプラインを構築する。
デプロイメントの段階では、DS-Agentは、シンプルなCBRパラダイムで低リソースのデプロイメントステージを実装し、LCMの基本能力に対する需要を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-27T12:26:07Z) - AgentOhana: Design Unified Data and Training Pipeline for Effective Agent Learning [98.26836657967162]
textbfAgentOhanaは、さまざまなシナリオにまたがって、異なる環境からエージェントのトラジェクトリを集約する。
AIエージェント用に調整された大規模なアクションモデルである textbfxLAM-v0.1 は、さまざまなベンチマークで例外的なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-23T18:56:26Z) - MatPlotAgent: Method and Evaluation for LLM-Based Agentic Scientific Data Visualization [86.61052121715689]
MatPlotAgentは、科学的データ可視化タスクを自動化するために設計された、モデルに依存しないフレームワークである。
MatPlotBenchは、100人の検証されたテストケースからなる高品質なベンチマークである。
論文 参考訳(メタデータ) (2024-02-18T04:28:28Z) - MLAgentBench: Evaluating Language Agents on Machine Learning Experimentation [96.71370747681078]
我々は,CIFAR-10におけるモデル性能の改善から,BabyLMのような最近の研究課題まで,13のタスクからなるMLAgentBenchを紹介した。
各タスクに対して、エージェントはファイルの読み書き、コードの実行、出力の検査などのアクションを実行することができる。
我々は、Claude v1.0、Claude v2.1、Claude v3 Opus、GPT-4、GPT-4-turbo、Gemini-Pro、Mixtralに基づいてベンチマークエージェントをベンチマークし、Claude v3 Opusエージェントが成功率の点で最高であることを示す。
論文 参考訳(メタデータ) (2023-10-05T04:06:12Z) - SEED: Domain-Specific Data Curation With Large Language Models [22.54280367957015]
LLM-as-compilerアプローチであるSEEDは,Large Language Models(LLM)を介して,ドメイン固有のデータキュレーションソリューションを自動的に生成する。
SEEDは、4つのLCMアシストモジュールから自動的に選択し、そのタスクに最も適したハイブリッド実行パイプラインを形成する。
論文 参考訳(メタデータ) (2023-10-01T17:59:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。