論文の概要: DS-STAR: Data Science Agent via Iterative Planning and Verification
- arxiv url: http://arxiv.org/abs/2509.21825v2
- Date: Mon, 29 Sep 2025 03:14:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 14:13:47.649945
- Title: DS-STAR: Data Science Agent via Iterative Planning and Verification
- Title(参考訳): DS-STAR:反復計画と検証によるデータサイエンスエージェント
- Authors: Jaehyun Nam, Jinsung Yoon, Jiefeng Chen, Tomas Pfister,
- Abstract要約: DS-STARは,様々なデータフォーマットからコンテキストを自動探索し抽出する新しいデータサイエンスエージェントである。
具体的には,(1)非構造化型を含む多種多様なデータ形式からコンテキストを自動的に探索・抽出するデータファイル解析モジュール,(2)LLMベースの審査員が各段階で解析計画の十分性を評価する検証ステップ,(3)単純で実行可能な計画から始まる逐次計画機構,(3)DS-STARの満足度が検証されるまでそのフィードバックに基づいて反復的に洗練する。
- 参考スコア(独自算出の注目度): 40.515508991802825
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data science, which transforms raw data into actionable insights, is critical for data-driven decision-making. However, these tasks are often complex, involving steps for exploring multiple data sources and synthesizing findings to deliver insightful answers. While large language models (LLMs) show significant promise in automating this process, they often struggle with heterogeneous data formats and generate sub-optimal analysis plans, as verifying plan sufficiency is inherently difficult without ground-truth labels for such open-ended tasks. To overcome these limitations, we introduce DS-STAR, a novel data science agent. Specifically, DS-STAR makes three key contributions: (1) a data file analysis module that automatically explores and extracts context from diverse data formats, including unstructured types; (2) a verification step where an LLM-based judge evaluates the sufficiency of the analysis plan at each stage; and (3) a sequential planning mechanism that starts with a simple, executable plan and iteratively refines it based on the DS-STAR's feedback until its sufficiency is verified. This iterative refinement allows DS-STAR to reliably navigate complex analyses involving diverse data sources. Our experiments show that DS-STAR achieves state-of-the-art performance across three challenging benchmarks: DABStep, KramaBench, and DA-Code. Moreover, DS-STAR particularly outperforms baselines on hard tasks that require processing multiple data files with heterogeneous formats.
- Abstract(参考訳): 生データを実用的な洞察に変換するデータサイエンスは、データ駆動による意思決定に不可欠である。
しかしながら、これらのタスクは複雑で、複数のデータソースを探索し、洞察に富んだ回答を提供するために発見を合成するステップを含むことが多い。
大規模言語モデル(LLM)は、このプロセスを自動化する上で大きな可能性を秘めている一方で、しばしば不均一なデータフォーマットと闘い、最適な分析計画を生成する。
これらの制約を克服するために,新しいデータサイエンスエージェントDS-STARを導入する。
具体的には,(1)非構造化型を含む多種多様なデータ形式からコンテキストを自動的に探索・抽出するデータファイル解析モジュール,(2)LLMベースの審査員が各段階で解析計画の十分性を評価する検証ステップ,(3)単純で実行可能な計画から始まる逐次計画機構,(3)DS-STARの満足度が検証されるまでそのフィードバックに基づいて反復的に洗練する。
この反復的な改良により、DS-STARは多様なデータソースを含む複雑な分析を確実にナビゲートできる。
実験の結果,DS-STARは,DABStep,KramaBench,DA-Codeの3つのベンチマークにおいて,最先端のパフォーマンスを実現することがわかった。
さらにDS-STARは、不均一なフォーマットで複数のデータファイルを処理する必要のあるハードタスクのベースラインを特に上回る。
関連論文リスト
- DataCross: A Unified Benchmark and Agent Framework for Cross-Modal Heterogeneous Data Analysis [8.171937411588015]
我々は、統合された洞察駆動分析のための新しいベンチマークと協調エージェントフレームワークであるDataCrossを紹介する。
DataCrossBenchには、ファイナンス、ヘルスケア、その他のドメインにわたる200のエンドツーエンド分析タスクが含まれている。
また、人間アナリストの「分割合成」ワークフローにインスパイアされたDataCrossAgentフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-29T08:40:45Z) - DSGym: A Holistic Framework for Evaluating and Training Data Science Agents [38.72287521565312]
DSGymは、自己完結型実行環境におけるデータサイエンスエージェントの評価とトレーニングのための標準化されたフレームワークである。
静的ベンチマークとは異なり、DSGymは、タスクやエージェントの足場、ツールを簡単に追加し、それをライブのテストベッドとして配置するモジュールアーキテクチャを提供する。
2,000サンプルのトレーニングセットを構築し,標準解析ベンチマークでGPT-4oを上回ったDSGymの4Bモデルを訓練した。
論文 参考訳(メタデータ) (2026-01-22T22:03:29Z) - Can LLMs Clean Up Your Mess? A Survey of Application-Ready Data Preparation with LLMs [66.63911043019294]
データ準備は、生のデータセットを識別し、データセット間の関係を解明し、それらから貴重な洞察を抽出することを目的としている。
本稿では,様々な下流タスクのためのデータ準備にLLM技術を用いることに焦点を当てる。
データクリーニング、標準化、エラー処理、計算、データ統合、データ豊か化という3つの主要なタスクにフィールドを編成するタスク中心の分類を導入します。
論文 参考訳(メタデータ) (2026-01-22T12:02:45Z) - CoDA: Agentic Systems for Collaborative Data Visualization [57.270599188947294]
深層研究はデータ分析に革命をもたらしたが、データサイエンティストは依然として手作業による視覚化にかなりの時間を費やしている。
単純なシングルエージェントシステムやマルチエージェントシステムを含む既存のアプローチは、しばしばタスクを単純化する。
本稿では,メタデータ分析,タスク計画,コード生成,自己回帰に特殊なLLMエージェントを利用するマルチエージェントシステムであるCoDAを紹介する。
論文 参考訳(メタデータ) (2025-10-03T17:30:16Z) - Scaling Generalist Data-Analytic Agents [95.05161133349242]
DataMindは、汎用データ分析エージェントを構築するために設計されたスケーラブルなデータ合成およびエージェントトレーニングレシピである。
DataMindは、オープンソースのデータ分析エージェントを構築する上で重要な3つの課題に取り組む。
論文 参考訳(メタデータ) (2025-09-29T17:23:08Z) - LLM/Agent-as-Data-Analyst: A Survey [54.08761322298559]
大規模言語モデル(LLM)とエージェント技術は、データ分析タスクの機能と開発パラダイムに根本的な変化をもたらした。
LLMは複雑なデータ理解、自然言語、意味分析機能、自律パイプラインオーケストレーションを可能にする。
論文 参考訳(メタデータ) (2025-09-28T17:31:38Z) - AgenticData: An Agentic Data Analytics System for Heterogeneous Data [12.67277567222908]
AgenticDataはエージェントデータ分析システムで、複数のドメインにまたがるデータソースを自律的に分析しながら、自然言語(NL)の質問に反応することができる。
本稿では,関連するデータを発見するためのデータプロファイリングエージェント,フィードバックに基づく反復最適化のためのセマンティッククロスバリデーションエージェント,短期文脈を維持するためのスマートメモリエージェントを利用するマルチエージェント協調戦略を提案する。
論文 参考訳(メタデータ) (2025-08-07T03:33:59Z) - Why Do Open-Source LLMs Struggle with Data Analysis? A Systematic Empirical Study [55.09905978813599]
大規模言語モデル(LLM)は、データ分析タスクの自動化を約束する。
しかし、オープンソースモデルは、このような推論集約的なシナリオにおいて、重大な制限に直面している。
本研究では,オープンソースLLMのデータ解析機能を強化するための戦略について検討する。
論文 参考訳(メタデータ) (2025-06-24T17:04:23Z) - DataMosaic: Explainable and Verifiable Multi-Modal Data Analytics through Extract-Reason-Verify [11.10351765834947]
大規模言語モデル(LLM)はデータ分析を変革しているが、その普及は2つの限界によって妨げられている。
それらは説明不可能(不明確な推論プロセス)であり、検証不可能(幻覚や未確認の誤りが原因である)である。
データモザイク(DataMosaic)は、LCMを利用した分析を説明可能かつ検証可能とするために設計されたフレームワークである。
論文 参考訳(メタデータ) (2025-04-14T09:38:23Z) - DatawiseAgent: A Notebook-Centric LLM Agent Framework for Automated Data Science [4.1431677219677185]
DatawiseAgentはノートブック中心のエージェントフレームワークで、ユーザ、エージェント、計算環境間のインタラクションを統合する。
DSFライクな計画、インクリメンタルな実行、自己老化、ポストフィルタの4つのステージを編成する。
一貫して、複数のモデル設定で最先端のメソッドを上回るか、マッチする。
論文 参考訳(メタデータ) (2025-03-10T08:32:33Z) - Towards Automated Cross-domain Exploratory Data Analysis through Large Language Models [14.236566119377352]
本稿では,自動クロスドメイン探索データ分析システムであるTiInsightについて述べる。
TiInsightは、GPT-4を用いてスパイダーデータセット上で86.3%の階層的実行精度を達成した。
また、Birdデータセット上での最先端のパフォーマンスも示す。
論文 参考訳(メタデータ) (2024-12-10T06:11:23Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - DataAgent: Evaluating Large Language Models' Ability to Answer Zero-Shot, Natural Language Queries [0.0]
OpenAIのGPT-3.5をLanguage Data Scientist(LDS)として評価する
このモデルは、さまざまなベンチマークデータセットでテストされ、そのパフォーマンスを複数の標準で評価した。
論文 参考訳(メタデータ) (2024-03-29T22:59:34Z) - STAR: Boosting Low-Resource Information Extraction by Structure-to-Text
Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。
我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。
実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-24T12:15:19Z) - Unsupervised Domain Adaptive Learning via Synthetic Data for Person
Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。
残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。
本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文 参考訳(メタデータ) (2021-09-12T15:51:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。