論文の概要: Data Agent: A Holistic Architecture for Orchestrating Data+AI Ecosystems
- arxiv url: http://arxiv.org/abs/2507.01599v1
- Date: Wed, 02 Jul 2025 11:04:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:23:00.164429
- Title: Data Agent: A Holistic Architecture for Orchestrating Data+AI Ecosystems
- Title(参考訳): Data Agent: データ+AIエコシステムのオーケストレーションのための全体的アーキテクチャ
- Authors: Zhaoyan Sun, Jiayi Wang, Xinyang Zhao, Jiachi Wang, Guoliang Li,
- Abstract要約: 従来のData+AIシステムは、システムパイプラインのオーケストレーションに人間の専門家に大きく依存しています。
既存のData+AIシステムは、セマンティック理解、推論、計画の能力に制限がある。
データエージェント(Data Agent) - データ+AIエコシステムのオーケストレーションを目的とした包括的なアーキテクチャ。
- 参考スコア(独自算出の注目度): 8.816332263275305
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional Data+AI systems utilize data-driven techniques to optimize performance, but they rely heavily on human experts to orchestrate system pipelines, enabling them to adapt to changes in data, queries, tasks, and environments. For instance, while there are numerous data science tools available, developing a pipeline planning system to coordinate these tools remains challenging. This difficulty arises because existing Data+AI systems have limited capabilities in semantic understanding, reasoning, and planning. Fortunately, we have witnessed the success of large language models (LLMs) in enhancing semantic understanding, reasoning, and planning abilities. It is crucial to incorporate LLM techniques to revolutionize data systems for orchestrating Data+AI applications effectively. To achieve this, we propose the concept of a 'Data Agent' - a comprehensive architecture designed to orchestrate Data+AI ecosystems, which focuses on tackling data-related tasks by integrating knowledge comprehension, reasoning, and planning capabilities. We delve into the challenges involved in designing data agents, such as understanding data/queries/environments/tools, orchestrating pipelines/workflows, optimizing and executing pipelines, and fostering pipeline self-reflection. Furthermore, we present examples of data agent systems, including a data science agent, data analytics agents (such as unstructured data analytics agent, semantic structured data analytics agent, data lake analytics agent, and multi-modal data analytics agent), and a database administrator (DBA) agent. We also outline several open challenges associated with designing data agent systems.
- Abstract(参考訳): 従来のData+AIシステムはパフォーマンスを最適化するためにデータ駆動技術を使用しているが、システムパイプラインのオーケストレーションには人間の専門家に大きく依存しているため、データ、クエリ、タスク、環境の変化に適応することができる。
例えば、多くのデータサイエンスツールが利用可能だが、これらのツールを調整するパイプライン計画システムを開発することは、依然として難しい。
既存のData+AIシステムはセマンティック理解、推論、計画の能力に制限があるため、この困難が生じる。
幸いにも私たちは,意味理解,推論,計画能力の向上において,大規模言語モデル(LLM)の成功を目の当たりにしています。
データ+AIアプリケーションを効率的にオーケストレーションするためのデータシステムに革命を起こすために、LLM技術を導入することが不可欠である。
これを実現するために、知識理解、推論、計画機能を統合することで、データ関連タスクに取り組むことに焦点を当てた、データ+AIエコシステムのオーケストレーションを目的とした包括的なアーキテクチャである「データエージェント」の概念を提案する。
データ/クエリ/環境/ツールの理解、パイプライン/ワークフローのオーケストレーション、パイプラインの最適化と実行、パイプラインの自己修正の促進など、データエージェントの設計に関わる課題について調べています。
さらに、データサイエンスエージェント、データ分析エージェント(非構造化データ分析エージェント、セマンティック構造化データ分析エージェント、データレイク分析エージェント、マルチモーダルデータ分析エージェントなど)、データベース管理者(DBA)エージェントなどのデータエージェントシステムの例を示す。
データエージェントシステムの設計に関わるいくつかのオープンな課題についても概説する。
関連論文リスト
- Data Science and Technology Towards AGI Part I: Tiered Data Management [53.64581824953229]
我々は、人工知能の開発がデータモデル共進化の新しい段階に入ったと論じる。
我々は、未処理のリソースから組織的で検証可能な知識まで、L0-L4階層のデータ管理フレームワークを紹介します。
提案手法の有効性を実証研究により検証する。
論文 参考訳(メタデータ) (2026-02-09T18:47:51Z) - Can LLMs Clean Up Your Mess? A Survey of Application-Ready Data Preparation with LLMs [66.63911043019294]
データ準備は、生のデータセットを識別し、データセット間の関係を解明し、それらから貴重な洞察を抽出することを目的としている。
本稿では,様々な下流タスクのためのデータ準備にLLM技術を用いることに焦点を当てる。
データクリーニング、標準化、エラー処理、計算、データ統合、データ豊か化という3つの主要なタスクにフィールドを編成するタスク中心の分類を導入します。
論文 参考訳(メタデータ) (2026-01-22T12:02:45Z) - A Survey of Data Agents: Emerging Paradigm or Overstated Hype? [66.1526688475023]
現在「データエージェント」は用語的曖昧さと不整合性に悩まされている。
この調査では、データエージェントのための最初の体系的な階層型分類を紹介した。
プロアクティブな生成データエージェントの出現を想定する、先見的なロードマップで締めくくります。
論文 参考訳(メタデータ) (2025-10-27T17:54:07Z) - InferA: A Smart Assistant for Cosmological Ensemble Data [0.5130440339897478]
InferAは、スケーラブルで効率的な科学的データ分析を可能にするマルチエージェントシステムである。
アーキテクチャの中核は、データ検索と分析の異なるフェーズに責任を持つ専門エージェントのチームを編成するスーパーバイザーエージェントである。
本フレームワークのユーザビリティを示すため,複数のテラバイトからなるHACC宇宙論シミュレーションから,アンサンブルランを用いたシステムの評価を行った。
論文 参考訳(メタデータ) (2025-10-14T18:47:22Z) - LLM/Agent-as-Data-Analyst: A Survey [54.08761322298559]
大規模言語モデル(LLM)とエージェント技術は、データ分析タスクの機能と開発パラダイムに根本的な変化をもたらした。
LLMは複雑なデータ理解、自然言語、意味分析機能、自律パイプラインオーケストレーションを可能にする。
論文 参考訳(メタデータ) (2025-09-28T17:31:38Z) - Autonomous Data Agents: A New Opportunity for Smart Data [50.02229219403014]
DataAgentsは、自律的なデータから知識システムへのパラダイムシフトを表している、とReportは主張する。
DataAgentsは、複雑で非構造化されたデータをコヒーレントで行動可能な知識に変換する。
エージェントAIとデータ・トゥ・ナレッジシステムの収束が重要なトレンドとなっている理由を最初に検討する。
論文 参考訳(メタデータ) (2025-09-23T06:46:41Z) - AgenticData: An Agentic Data Analytics System for Heterogeneous Data [12.67277567222908]
AgenticDataはエージェントデータ分析システムで、複数のドメインにまたがるデータソースを自律的に分析しながら、自然言語(NL)の質問に反応することができる。
本稿では,関連するデータを発見するためのデータプロファイリングエージェント,フィードバックに基づく反復最適化のためのセマンティッククロスバリデーションエージェント,短期文脈を維持するためのスマートメモリエージェントを利用するマルチエージェント協調戦略を提案する。
論文 参考訳(メタデータ) (2025-08-07T03:33:59Z) - WebShaper: Agentically Data Synthesizing via Information-Seeking Formalization [68.46693401421923]
WebShaperは集合論を通してISタスクを体系的に定式化する。
WebShaperは、GAIAおよびWebWalkerQAベンチマーク上で、オープンソースISエージェントの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-07-20T17:53:37Z) - KramaBench: A Benchmark for AI Systems on Data-to-Insight Pipelines over Data Lakes [20.75018548918123]
104個の実世界のデータサイエンスパイプラインを手作業でキュレートしたベンチマークであるKRAMABENCHを紹介する。
これらのパイプラインは、データ処理におけるAIシステムのエンドツーエンド機能をテストする。
以上の結果から,既存のアウト・オブ・ボックスモデルでは,適切なデータサイエンスコード生成タスクを十分に解決できるが,既存のアウト・オブ・ボックスモデルでは不十分であることが示唆された。
論文 参考訳(メタデータ) (2025-06-06T21:18:45Z) - Toward Data Systems That Are Business Semantic Centric and AI Agents Assisted [0.0]
ビジネスSemantics Centric, AI Agents Assisted Data System (BSDS)
BSDSは、データシステムをビジネス成功の動的な実現手段として再定義する。
システムには、ビジネスエンティティにリンクされたキュレートされたデータ、コンテキスト認識AIエージェントの知識ベース、効率的なデータパイプラインが含まれる。
論文 参考訳(メタデータ) (2025-06-05T19:06:06Z) - Data-Juicer 2.0: Cloud-Scale Adaptive Data Processing for and with Foundation Models [64.28420991770382]
Data-Juicer 2.0は、テキスト、画像、ビデオ、オーディオのモダリティにまたがるデータ処理オペレーターがバックアップするデータ処理システムである。
データ分析、アノテーション、基礎モデルポストトレーニングなど、より重要なタスクをサポートする。
さまざまな研究分野やAlibaba Cloud PAIのような現実世界の製品で広く採用されている。
論文 参考訳(メタデータ) (2024-12-23T08:29:57Z) - Building Multi-Agent Copilot towards Autonomous Agricultural Data Management and Analysis [2.763670421921841]
我々はADMA Copilotと呼ばれる概念実証マルチエージェントシステムを構築し,ユーザの意図を理解する。
ADMA Copilotは、LSMベースのコントローラ、入力フォーマッター、出力フォーマッターの3つのエージェントが協調して、自動的にタスクを実行する。
論文 参考訳(メタデータ) (2024-10-31T20:15:14Z) - CMDBench: A Benchmark for Coarse-to-fine Multimodal Data Discovery in Compound AI Systems [10.71630696651595]
知識集約的なタスクを達成するエージェントとしてLLMを使用する複合AIシステム(CAS)は、データベースやAIコミュニティにおいて大きな関心を集めている。
マルチモーダルデータソースのサイロは、そのタスクを達成するための適切なデータソースを特定するのを困難にしている。
我々はエンタープライズデータプラットフォームの複雑さをモデル化したベンチマークであるCMDBenchを提案する。
論文 参考訳(メタデータ) (2024-06-02T01:10:41Z) - Data-Copilot: Bridging Billions of Data and Humans with Autonomous Workflow [49.28944613907541]
金融、気象学、エネルギーといった産業は毎日大量のデータを生み出している。
本研究では,データ分析エージェントであるData-Copilotを提案する。
論文 参考訳(メタデータ) (2023-06-12T16:12:56Z) - Demonstration of InsightPilot: An LLM-Empowered Automated Data
Exploration System [48.62158108517576]
本稿では,データ探索プロセスの簡略化を目的とした自動データ探索システムであるInsightPilotを紹介する。
InsightPilotは、理解、要約、説明などの適切な分析意図を自動的に選択する。
簡単に言うと、IQueryはデータ分析操作の抽象化と自動化であり、データアナリストのアプローチを模倣しています。
論文 参考訳(メタデータ) (2023-04-02T07:27:49Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - Nemo: Guiding and Contextualizing Weak Supervision for Interactive Data
Programming [77.38174112525168]
私たちは、WS 学習パイプラインの全体的な生産性を、一般的な WS 監督アプローチと比較して平均20%(最大 47% のタスク)改善する、エンドツーエンドのインタラクティブなスーパービジョンシステムである Nemo を紹介します。
論文 参考訳(メタデータ) (2022-03-02T19:57:32Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。