論文の概要: LLM/Agent-as-Data-Analyst: A Survey
- arxiv url: http://arxiv.org/abs/2509.23988v1
- Date: Sun, 28 Sep 2025 17:31:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.573291
- Title: LLM/Agent-as-Data-Analyst: A Survey
- Title(参考訳): LLM/Agent-as-Data-Analyst:調査
- Authors: Zirui Tang, Weizheng Wang, Zihang Zhou, Yang Jiao, Bangrui Xu, Boyu Niu, Xuanhe Zhou, Guoliang Li, Yeye He, Wei Zhou, Yitong Song, Cheng Tan, Bin Wang, Conghui He, Xiaoyang Wang, Fan Wu,
- Abstract要約: 大規模言語モデル(LLM)とデータ分析のためのエージェント技術は、学術と産業の両方に大きな影響を与えている。
この技術進化は、インテリジェントなデータ分析エージェントのための5つの重要な設計目標、すなわちセマンティック・アウェア・デザイン、ハイブリッド統合、自律パイプライン、ツールの拡張されたモダリティ、オープンワールドタスクのサポートをさらに強化する。
- 参考スコア(独自算出の注目度): 51.19078438787228
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model (LLM) and agent techniques for data analysis (a.k.a LLM/Agent-as-Data-Analyst) have demonstrated substantial impact in both academica and industry. In comparison with traditional rule or small-model based approaches, (agentic) LLMs enable complex data understanding, natural language interfaces, semantic analysis functions, and autonomous pipeline orchestration. The technical evolution further distills five key design goals for intelligent data analysis agents, namely semantic-aware design, modality-hybrid integration, autonomous pipelines, tool-augmented workflows, and support for open-world tasks. From a modality perspective, we review LLM-based techniques for (i) structured data (e.g., table question answering for relational data and NL2GQL for graph data), (ii) semi-structured data (e.g., markup languages understanding and semi-structured table modeling), (iii) unstructured data (e.g., chart understanding, document understanding, programming languages vulnerable detection), and (iv) heterogeneous data (e.g., data retrieval and modality alignment for data lakes). Finally, we outline the remaining challenges and propose several insights and practical directions for advancing LLM/Agent-powered data analysis.
- Abstract(参考訳): 大規模言語モデル(LLM)とデータ分析のためのエージェント技術(LLM/Agent-as-Data-Analyst)は、学術と産業の両方に大きな影響を与えている。
従来のルールや小さなモデルベースのアプローチと比較すると、LLMは複雑なデータ理解、自然言語インターフェース、意味分析機能、自律的なパイプラインオーケストレーションを可能にします。
この技術進化は、インテリジェントなデータ分析エージェントのための5つの重要な設計目標、すなわちセマンティック・アウェア・デザイン、モダリティ・ハイブリッド統合、自律パイプライン、ツール拡張ワークフロー、オープンワールドタスクのサポートをさらに強化する。
モダリティの観点から LLM を用いた手法を概観する
(i)構造化データ(例えば、関係データのテーブル質問応答、グラフデータのNL2GQL)
(ii)半構造化データ(例えば、マークアップ言語理解と半構造化テーブルモデリング)
三 構造化されていないデータ(チャート理解、文書理解、プログラミング言語の脆弱性検出等)及び
(4)異種データ(例えば、データ検索とデータレイクのモダリティアライメント)
最後に、残りの課題を概説し、LLM/Agentを用いたデータ分析の進歩に向けたいくつかの洞察と実践的方向性を提案する。
関連論文リスト
- LLM Agents for Interactive Workflow Provenance: Reference Architecture and Evaluation Methodology [3.470217255779291]
本稿では,対話型大規模言語モデル(LLM)エージェントをランタイムデータ解析に活用する評価手法,参照アーキテクチャ,オープンソース実装を提案する。
提案手法では,自然言語を構造化された前処理クエリに変換する軽量なメタデータ駆動型設計を用いる。
LLaMA、GPT、Gemini、Claudeにまたがる評価では、多様なクエリクラスと現実世界の化学ワークフローを網羅し、モジュール設計、即時チューニング、Retrieval-Augmented Generation (RAG)が正確で洞察に富んだエージェント応答を可能にすることを示している。
論文 参考訳(メタデータ) (2025-09-17T13:51:29Z) - A Survey of LLM $\times$ DATA [71.96808497574658]
大規模言語モデル(LLM)とデータ管理(Data4LLM)の統合は、両方のドメインを急速に再定義しています。
一方、Data data4LLMは、事前トレーニング、後トレーニング、検索強化生成、エージェント生成などの段階に必要なデータの高品質、多様性、タイムラインをLLMに提供する。
一方、LLMはデータ管理のための汎用エンジンとして登場しつつある。
論文 参考訳(メタデータ) (2025-05-24T01:57:12Z) - IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - TAIJI: MCP-based Multi-Modal Data Analytics on Data Lakes [25.05627023905607]
モデルコンテキストプロトコル(MCP)に基づく新しいマルチモーダルデータ分析システムを提案する。
まず,データレイクにおけるマルチモーダルデータのクエリに適したセマンティック演算子階層を定義する。
次に、MPPベースの実行フレームワークを紹介し、各MPPサーバは、特定のデータモダリティに最適化された特別な基礎モデルをホストする。
論文 参考訳(メタデータ) (2025-05-16T14:03:30Z) - CoddLLM: Empowering Large Language Models for Data Analytics [38.23203246023766]
大規模言語モデル(LLM)は、データ分析に革命をもたらす可能性がある。
我々は、Turbo後合成のための新しいデータレシピを公開した。
我々はMistralNeMo-12Bに基づく新しい基礎モデルであるCoddLLMをポストトレーニングする。
論文 参考訳(メタデータ) (2025-02-01T06:03:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。