論文の概要: DS-STAR: Data Science Agent via Iterative Planning and Verification
- arxiv url: http://arxiv.org/abs/2509.21825v3
- Date: Thu, 02 Oct 2025 08:28:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 14:32:17.123837
- Title: DS-STAR: Data Science Agent via Iterative Planning and Verification
- Title(参考訳): DS-STAR:反復計画と検証によるデータサイエンスエージェント
- Authors: Jaehyun Nam, Jinsung Yoon, Jiefeng Chen, Tomas Pfister,
- Abstract要約: DS-STARは,様々なデータフォーマットからコンテキストを自動探索し抽出する新しいデータサイエンスエージェントである。
具体的には,(1)非構造化型を含む多種多様なデータ形式からコンテキストを自動的に探索・抽出するデータファイル解析モジュール,(2)LLMベースの審査員が各段階で解析計画の十分性を評価する検証ステップ,(3)単純で実行可能な計画から始まる逐次計画機構,(3)DS-STARの満足度が検証されるまでそのフィードバックに基づいて反復的に洗練する。
- 参考スコア(独自算出の注目度): 40.515508991802825
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data science, which transforms raw data into actionable insights, is critical for data-driven decision-making. However, these tasks are often complex, involving steps for exploring multiple data sources and synthesizing findings to deliver insightful answers. While large language models (LLMs) show significant promise in automating this process, they often struggle with heterogeneous data formats and generate sub-optimal analysis plans, as verifying plan sufficiency is inherently difficult without ground-truth labels for such open-ended tasks. To overcome these limitations, we introduce DS-STAR, a novel data science agent. Specifically, DS-STAR makes three key contributions: (1) a data file analysis module that automatically explores and extracts context from diverse data formats, including unstructured types; (2) a verification step where an LLM-based judge evaluates the sufficiency of the analysis plan at each stage; and (3) a sequential planning mechanism that starts with a simple, executable plan and iteratively refines it based on the DS-STAR's feedback until its sufficiency is verified. This iterative refinement allows DS-STAR to reliably navigate complex analyses involving diverse data sources. Our experiments show that DS-STAR achieves state-of-the-art performance across three challenging benchmarks: DABStep, KramaBench, and DA-Code. Moreover, DS-STAR particularly outperforms baselines on hard tasks that require processing multiple data files with heterogeneous formats.
- Abstract(参考訳): 生データを実用的な洞察に変換するデータサイエンスは、データ駆動による意思決定に不可欠である。
しかしながら、これらのタスクは複雑で、複数のデータソースを探索し、洞察に富んだ回答を提供するために発見を合成するステップを含むことが多い。
大規模言語モデル(LLM)は、このプロセスを自動化する上で大きな可能性を秘めている一方で、しばしば不均一なデータフォーマットと闘い、最適な分析計画を生成する。
これらの制約を克服するために,新しいデータサイエンスエージェントDS-STARを導入する。
具体的には,(1)非構造化型を含む多種多様なデータ形式からコンテキストを自動的に探索・抽出するデータファイル解析モジュール,(2)LLMベースの審査員が各段階で解析計画の十分性を評価する検証ステップ,(3)単純で実行可能な計画から始まる逐次計画機構,(3)DS-STARの満足度が検証されるまでそのフィードバックに基づいて反復的に洗練する。
この反復的な改良により、DS-STARは多様なデータソースを含む複雑な分析を確実にナビゲートできる。
実験の結果,DS-STARは,DABStep,KramaBench,DA-Codeの3つのベンチマークにおいて,最先端のパフォーマンスを実現することがわかった。
さらにDS-STARは、不均一なフォーマットで複数のデータファイルを処理する必要のあるハードタスクのベースラインを特に上回る。
関連論文リスト
- AgenticData: An Agentic Data Analytics System for Heterogeneous Data [12.67277567222908]
AgenticDataはエージェントデータ分析システムで、複数のドメインにまたがるデータソースを自律的に分析しながら、自然言語(NL)の質問に反応することができる。
本稿では,関連するデータを発見するためのデータプロファイリングエージェント,フィードバックに基づく反復最適化のためのセマンティッククロスバリデーションエージェント,短期文脈を維持するためのスマートメモリエージェントを利用するマルチエージェント協調戦略を提案する。
論文 参考訳(メタデータ) (2025-08-07T03:33:59Z) - Why Do Open-Source LLMs Struggle with Data Analysis? A Systematic Empirical Study [55.09905978813599]
大規模言語モデル(LLM)は、データ分析タスクの自動化を約束する。
しかし、オープンソースモデルは、このような推論集約的なシナリオにおいて、重大な制限に直面している。
本研究では,オープンソースLLMのデータ解析機能を強化するための戦略について検討する。
論文 参考訳(メタデータ) (2025-06-24T17:04:23Z) - DataMosaic: Explainable and Verifiable Multi-Modal Data Analytics through Extract-Reason-Verify [11.10351765834947]
大規模言語モデル(LLM)はデータ分析を変革しているが、その普及は2つの限界によって妨げられている。
それらは説明不可能(不明確な推論プロセス)であり、検証不可能(幻覚や未確認の誤りが原因である)である。
データモザイク(DataMosaic)は、LCMを利用した分析を説明可能かつ検証可能とするために設計されたフレームワークである。
論文 参考訳(メタデータ) (2025-04-14T09:38:23Z) - DatawiseAgent: A Notebook-Centric LLM Agent Framework for Automated Data Science [4.1431677219677185]
DatawiseAgentはノートブック中心のエージェントフレームワークで、ユーザ、エージェント、計算環境間のインタラクションを統合する。
DSFライクな計画、インクリメンタルな実行、自己老化、ポストフィルタの4つのステージを編成する。
一貫して、複数のモデル設定で最先端のメソッドを上回るか、マッチする。
論文 参考訳(メタデータ) (2025-03-10T08:32:33Z) - Towards Automated Cross-domain Exploratory Data Analysis through Large Language Models [14.236566119377352]
本稿では,自動クロスドメイン探索データ分析システムであるTiInsightについて述べる。
TiInsightは、GPT-4を用いてスパイダーデータセット上で86.3%の階層的実行精度を達成した。
また、Birdデータセット上での最先端のパフォーマンスも示す。
論文 参考訳(メタデータ) (2024-12-10T06:11:23Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - DataAgent: Evaluating Large Language Models' Ability to Answer Zero-Shot, Natural Language Queries [0.0]
OpenAIのGPT-3.5をLanguage Data Scientist(LDS)として評価する
このモデルは、さまざまなベンチマークデータセットでテストされ、そのパフォーマンスを複数の標準で評価した。
論文 参考訳(メタデータ) (2024-03-29T22:59:34Z) - STAR: Boosting Low-Resource Information Extraction by Structure-to-Text
Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。
我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。
実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-24T12:15:19Z) - Unsupervised Domain Adaptive Learning via Synthetic Data for Person
Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。
残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。
本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文 参考訳(メタデータ) (2021-09-12T15:51:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。