論文の概要: Scaling Generalist Data-Analytic Agents
- arxiv url: http://arxiv.org/abs/2509.25084v1
- Date: Mon, 29 Sep 2025 17:23:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:20.161857
- Title: Scaling Generalist Data-Analytic Agents
- Title(参考訳): 汎用データ分析エージェントのスケーリング
- Authors: Shuofei Qiao, Yanqiu Zhao, Zhisong Qiu, Xiaobin Wang, Jintian Zhang, Zhao Bin, Ningyu Zhang, Yong Jiang, Pengjun Xie, Fei Huang, Huajun Chen,
- Abstract要約: DataMindは、汎用データ分析エージェントを構築するために設計されたスケーラブルなデータ合成およびエージェントトレーニングレシピである。
DataMindは、オープンソースのデータ分析エージェントを構築する上で重要な3つの課題に取り組む。
- 参考スコア(独自算出の注目度): 95.05161133349242
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data-analytic agents are emerging as a key catalyst for automated scientific discovery and for the vision of Innovating AI. Current approaches, however, rely heavily on prompt engineering over proprietary models, while open-source models struggle to face diverse-format, large-scale data files and long-horizon, multi-step reasoning that real-world analytics demands. This paper introduces DataMind, a scalable data synthesis and agent training recipe designed to build generalist data-analytic agents. DataMind tackles three key challenges in building open-source data-analytic agents, including insufficient data resources, improper training strategy, and unstable code-based multi-turn rollout. Concretely, DataMind applies 1) a fine-grained task taxonomy and a recursive easy-to-hard task composition mechanism to increase the diversity and difficulty of synthesized queries; 2) a knowledge-augmented trajectory sampling strategy followed by model-based and rule-based filtering; 3) a dynamically adjustable training objective combining both SFT and RL losses; 4) a memory-frugal and stable code-based multi-turn rollout framework. Built on DataMind, we curate DataMind-12K, a high-quality trajectory set spanning diverse domains, task categories, and data file formats for data-analytic tasks. Trained on DataMind-12K, our DataMind-14B achieves state-of-the-art with an average score of 71.16% on multiple data analysis benchmarks, outperforming the strongest proprietary baselines DeepSeek-V3.1 and GPT-5. Our DataMind-7B also performs best among all open-source models with a score of 68.10%. We also incorporate some empirical insights gained from our exploratory trials into the analysis experiments, aiming to provide actionable insights about agentic training for the community. We will release DataMind-12K and DataMind-7B,14B for the community's future research.
- Abstract(参考訳): データ分析エージェントは、自動科学的発見とイノベーションAIのビジョンのための重要な触媒として登場しつつある。
しかし現在のアプローチは、プロプライエタリなモデルよりも迅速なエンジニアリングに大きく依存しているが、オープンソースのモデルは、さまざまなフォーマット、大規模なデータファイルと、現実世界の分析要求に対する長期的マルチステップの推論に直面するのに苦労している。
本稿では、汎用データ分析エージェントを構築するために設計されたスケーラブルなデータ合成およびエージェントトレーニングレシピであるDataMindを紹介する。
DataMindは、不十分なデータリソース、不適切なトレーニング戦略、不安定なコードベースのマルチターンロールアウトなど、オープンソースのデータ分析エージェントを構築する上で重要な3つの課題に取り組む。
具体的には、DataMindが適用される
1 微粒なタスク分類と再帰的容易なタスク構成機構により、合成クエリの多様性及び難易度を高めること。
2 知識強化軌道サンプリング戦略及びモデルベース及びルールベースフィルタリング
3) SFTとRLの両方の損失を組み合わせた動的に調整可能な訓練目標。
4) メモリフルールで安定したコードベースのマルチターンロールアウトフレームワーク。
DataMind上に構築されたDataMind-12Kは、さまざまなドメイン、タスクカテゴリ、データ分析タスク用のデータファイルフォーマットにまたがる高品質なトラジェクトリセットです。
DataMind-12KでトレーニングされたDataMind-14Bは、複数のデータ分析ベンチマークの平均スコア71.16%の最先端を実現し、DeepSeek-V3.1とGPT-5で最強のプロプライエタリベースラインを上回りました。
当社のDataMind-7Bは,68.10%のスコアを持つすべてのオープンソースモデルの中でも,最高のパフォーマンスを実現しています。
また,調査試験から得られた経験的洞察を分析実験に取り入れ,エージェントトレーニングに関する実践的な洞察をコミュニティに提供することを目的としている。
私たちはコミュニティの将来の研究のためにDataMind-12KとDataMind-7B,14Bをリリースします。
関連論文リスト
- Multimodal Data Storage and Retrieval for Embodied AI: A Survey [8.079598907674903]
EAI(Embodied AI)エージェントは物理的世界と相互作用し、巨大で異質なマルチモーダルデータストリームを生成する。
EAIの中核となる要件は、物理的グラウンディング、低レイテンシアクセス、動的スケーラビリティである。
私たちの調査は180以上の関連する研究の包括的なレビューに基づいており、堅牢で高性能なデータ管理フレームワークを設計するための厳密なロードマップを提供しています。
論文 参考訳(メタデータ) (2025-08-19T15:04:02Z) - Why Do Open-Source LLMs Struggle with Data Analysis? A Systematic Empirical Study [55.09905978813599]
大規模言語モデル(LLM)は、データ分析タスクの自動化を約束する。
しかし、オープンソースモデルは、このような推論集約的なシナリオにおいて、重大な制限に直面している。
本研究では,オープンソースLLMのデータ解析機能を強化するための戦略について検討する。
論文 参考訳(メタデータ) (2025-06-24T17:04:23Z) - Making Sense of Data in the Wild: Data Analysis Automation at Scale [0.1747623282473278]
本稿では,インテリジェントエージェントと検索拡張生成を組み合わせることで,データ解析,データセットキュレーション,インデックス作成を大規模に自動化する手法を提案する。
提案手法により,より詳細なデータセット記述,より高いヒット率,データセット検索タスクの多様性が得られた。
論文 参考訳(メタデータ) (2025-01-27T10:04:10Z) - Putting Data at the Centre of Offline Multi-Agent Reinforcement Learning [3.623224034411137]
オフラインマルチエージェント強化学習(英語: offline multi-agent reinforcement learning, MARL)は、静的データセットを用いてマルチエージェントシステムの最適制御ポリシーを見つける研究のエキサイティングな方向である。
この分野は定義上はデータ駆動型だが、これまでのところ、最先端の結果を達成するための努力は、データを無視してきた。
研究の大部分は、一貫した方法論を使わずに独自のデータセットを生成し、これらのデータセットの特徴に関するまばらな情報を提供する。
論文 参考訳(メタデータ) (2024-09-18T14:13:24Z) - DSBench: How Far Are Data Science Agents from Becoming Data Science Experts? [58.330879414174476]
現実的なタスクでデータサイエンスエージェントを評価するためのベンチマークであるDSBenchを紹介する。
このベンチマークには、466のデータ分析タスクと、EloquenceとKaggleのコンペからソースされた74のデータモデリングタスクが含まれている。
現状のLLM, LVLM, エージェントを評価したところ, 最高のエージェントはデータ解析タスクの34.12%しか解決できず, RPG(Relative Performance Gap)は34.74%であった。
論文 参考訳(メタデータ) (2024-09-12T02:08:00Z) - CMDBench: A Benchmark for Coarse-to-fine Multimodal Data Discovery in Compound AI Systems [10.71630696651595]
知識集約的なタスクを達成するエージェントとしてLLMを使用する複合AIシステム(CAS)は、データベースやAIコミュニティにおいて大きな関心を集めている。
マルチモーダルデータソースのサイロは、そのタスクを達成するための適切なデータソースを特定するのを困難にしている。
我々はエンタープライズデータプラットフォームの複雑さをモデル化したベンチマークであるCMDBenchを提案する。
論文 参考訳(メタデータ) (2024-06-02T01:10:41Z) - DACO: Towards Application-Driven and Comprehensive Data Analysis via Code Generation [83.30006900263744]
データ分析は、詳細な研究と決定的な洞察を生み出すための重要な分析プロセスである。
LLMのコード生成機能を活用した高品質な応答アノテーションの自動生成を提案する。
我々のDACO-RLアルゴリズムは、57.72%のケースにおいて、SFTモデルよりも有用な回答を生成するために、人間のアノテータによって評価される。
論文 参考訳(メタデータ) (2024-03-04T22:47:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。