論文の概要: AgenticData: An Agentic Data Analytics System for Heterogeneous Data
- arxiv url: http://arxiv.org/abs/2508.05002v1
- Date: Thu, 07 Aug 2025 03:33:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 18:59:39.697253
- Title: AgenticData: An Agentic Data Analytics System for Heterogeneous Data
- Title(参考訳): AgenticData: 異種データのためのエージェントデータ分析システム
- Authors: Ji Sun, Guoliang Li, Peiyao Zhou, Yihui Ma, Jingzhe Xu, Yuan Li,
- Abstract要約: AgenticDataはエージェントデータ分析システムで、複数のドメインにまたがるデータソースを自律的に分析しながら、自然言語(NL)の質問に反応することができる。
本稿では,関連するデータを発見するためのデータプロファイリングエージェント,フィードバックに基づく反復最適化のためのセマンティッククロスバリデーションエージェント,短期文脈を維持するためのスマートメモリエージェントを利用するマルチエージェント協調戦略を提案する。
- 参考スコア(独自算出の注目度): 12.67277567222908
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing unstructured data analytics systems rely on experts to write code and manage complex analysis workflows, making them both expensive and time-consuming. To address these challenges, we introduce AgenticData, an innovative agentic data analytics system that allows users to simply pose natural language (NL) questions while autonomously analyzing data sources across multiple domains, including both unstructured and structured data. First, AgenticData employs a feedback-driven planning technique that automatically converts an NL query into a semantic plan composed of relational and semantic operators. We propose a multi-agent collaboration strategy by utilizing a data profiling agent for discovering relevant data, a semantic cross-validation agent for iterative optimization based on feedback, and a smart memory agent for maintaining short-term context and long-term knowledge. Second, we propose a semantic optimization model to refine and execute semantic plans effectively. Our system, AgenticData, has been tested using three benchmarks. Experimental results showed that AgenticData achieved superior accuracy on both easy and difficult tasks, significantly outperforming state-of-the-art methods.
- Abstract(参考訳): 既存の構造化されていないデータ分析システムは、専門家に頼ってコードを書き、複雑な分析ワークフローを管理する。
このような課題に対処するために、AgenticDataは、自然言語(NL)の質問に簡単に対応し、非構造化データと構造化データの両方を含む複数のドメインにわたるデータソースを自律的に分析できる革新的なエージェントデータ分析システムである。
まず、AgenticDataはフィードバック駆動のプランニング技術を用いて、NLクエリをリレーショナルおよびセマンティック演算子で構成されるセマンティックプランに自動的に変換する。
本稿では,関連するデータを発見するためのデータプロファイリングエージェント,フィードバックに基づく反復最適化のためのセマンティッククロスバリデーションエージェント,短期的文脈と長期的知識を維持するためのスマートメモリエージェントを利用するマルチエージェント協調戦略を提案する。
次に,セマンティックプランを効果的に洗練・実行するためのセマンティック最適化モデルを提案する。
当社のシステムであるAgenticDataは3つのベンチマークを用いてテストされている。
実験結果から,AgenticDataは難易度と難易度の両方で精度が高く,最先端の手法よりも優れていた。
関連論文リスト
- I2I-STRADA -- Information to Insights via Structured Reasoning Agent for Data Analysis [0.0]
現実世界のデータ分析には一貫した認知ワークフローが必要です。
この推論プロセスの形式化を目的としたエージェントアーキテクチャであるI2I-STRADAを紹介する。
論文 参考訳(メタデータ) (2025-07-23T18:58:42Z) - Data Agent: A Holistic Architecture for Orchestrating Data+AI Ecosystems [8.816332263275305]
従来のData+AIシステムは、システムパイプラインのオーケストレーションに人間の専門家に大きく依存しています。
既存のData+AIシステムは、セマンティック理解、推論、計画の能力に制限がある。
データエージェント(Data Agent) - データ+AIエコシステムのオーケストレーションを目的とした包括的なアーキテクチャ。
論文 参考訳(メタデータ) (2025-07-02T11:04:49Z) - Deep Research Agents: A Systematic Examination And Roadmap [79.04813794804377]
Deep Research (DR) エージェントは複雑な多ターン情報研究タスクに取り組むように設計されている。
本稿では,DRエージェントを構成する基礎技術とアーキテクチャコンポーネントの詳細な分析を行う。
論文 参考訳(メタデータ) (2025-06-22T16:52:48Z) - Structuring the Unstructured: A Multi-Agent System for Extracting and Querying Financial KPIs and Guidance [54.25184684077833]
構造化されていない財務文書から定量的な洞察を抽出する,効率的でスケーラブルな手法を提案する。
提案システムは,emphExtraction AgentとemphText-to-Agentの2つの特殊エージェントから構成される。
論文 参考訳(メタデータ) (2025-05-25T15:45:46Z) - TAIJI: MCP-based Multi-Modal Data Analytics on Data Lakes [25.05627023905607]
モデルコンテキストプロトコル(MCP)に基づく新しいマルチモーダルデータ分析システムを提案する。
まず,データレイクにおけるマルチモーダルデータのクエリに適したセマンティック演算子階層を定義する。
次に、MPPベースの実行フレームワークを紹介し、各MPPサーバは、特定のデータモダリティに最適化された特別な基礎モデルをホストする。
論文 参考訳(メタデータ) (2025-05-16T14:03:30Z) - DatawiseAgent: A Notebook-Centric LLM Agent Framework for Automated Data Science [4.1431677219677185]
DatawiseAgentはノートブック中心のエージェントフレームワークで、ユーザ、エージェント、計算環境間のインタラクションを統合する。
DSFライクな計画、インクリメンタルな実行、自己老化、ポストフィルタの4つのステージを編成する。
一貫して、複数のモデル設定で最先端のメソッドを上回るか、マッチする。
論文 参考訳(メタデータ) (2025-03-10T08:32:33Z) - InsightBench: Evaluating Business Analytics Agents Through Multi-Step Insight Generation [79.09622602860703]
3つの重要な特徴を持つベンチマークデータセットであるInsightBenchを紹介します。
財務やインシデント管理といったさまざまなビジネスユースケースを表す100のデータセットで構成されている。
単一のクエリに回答することに焦点を当てた既存のベンチマークとは異なり、InsightBenchは、エンドツーエンドのデータ分析を実行する能力に基づいてエージェントを評価する。
論文 参考訳(メタデータ) (2024-07-08T22:06:09Z) - CMDBench: A Benchmark for Coarse-to-fine Multimodal Data Discovery in Compound AI Systems [10.71630696651595]
知識集約的なタスクを達成するエージェントとしてLLMを使用する複合AIシステム(CAS)は、データベースやAIコミュニティにおいて大きな関心を集めている。
マルチモーダルデータソースのサイロは、そのタスクを達成するための適切なデータソースを特定するのを困難にしている。
我々はエンタープライズデータプラットフォームの複雑さをモデル化したベンチマークであるCMDBenchを提案する。
論文 参考訳(メタデータ) (2024-06-02T01:10:41Z) - DACO: Towards Application-Driven and Comprehensive Data Analysis via Code Generation [83.30006900263744]
データ分析は、詳細な研究と決定的な洞察を生み出すための重要な分析プロセスである。
LLMのコード生成機能を活用した高品質な応答アノテーションの自動生成を提案する。
我々のDACO-RLアルゴリズムは、57.72%のケースにおいて、SFTモデルよりも有用な回答を生成するために、人間のアノテータによって評価される。
論文 参考訳(メタデータ) (2024-03-04T22:47:58Z) - InfiAgent-DABench: Evaluating Agents on Data Analysis Tasks [84.7788065721689]
本稿では,データ解析タスクにおけるLSMに基づくエージェントの評価に特化して設計された最初のベンチマークであるInfiAgent-DABenchを紹介する。
このベンチマークには52のCSVファイルから得られた257のデータ分析質問からなるデータセットであるDAEvalが含まれている。
エージェントフレームワーク上に構築し,DABench 上で GPT-3.5 を3.9% 上回る特殊エージェント DAAgent を開発した。
論文 参考訳(メタデータ) (2024-01-10T19:04:00Z) - Unsupervised Domain Adaptive Learning via Synthetic Data for Person
Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。
残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。
本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文 参考訳(メタデータ) (2021-09-12T15:51:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。