論文の概要: TAIJI: MCP-based Multi-Modal Data Analytics on Data Lakes
- arxiv url: http://arxiv.org/abs/2505.11270v1
- Date: Fri, 16 May 2025 14:03:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:15.186909
- Title: TAIJI: MCP-based Multi-Modal Data Analytics on Data Lakes
- Title(参考訳): TAIJI:データレイクにおけるMPPベースのマルチモーダルデータ分析
- Authors: Chao Zhang, Shaolei Zhang, Quehuan Liu, Sibei Chen, Tong Li, Ju Fan,
- Abstract要約: モデルコンテキストプロトコル(MCP)に基づく新しいマルチモーダルデータ分析システムを提案する。
まず,データレイクにおけるマルチモーダルデータのクエリに適したセマンティック演算子階層を定義する。
次に、MPPベースの実行フレームワークを紹介し、各MPPサーバは、特定のデータモダリティに最適化された特別な基礎モデルをホストする。
- 参考スコア(独自算出の注目度): 25.05627023905607
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The variety of data in data lakes presents significant challenges for data analytics, as data scientists must simultaneously analyze multi-modal data, including structured, semi-structured, and unstructured data. While Large Language Models (LLMs) have demonstrated promising capabilities, they still remain inadequate for multi-modal data analytics in terms of accuracy, efficiency, and freshness. First, current natural language (NL) or SQL-like query languages may struggle to precisely and comprehensively capture users' analytical intent. Second, relying on a single unified LLM to process diverse data modalities often leads to substantial inference overhead. Third, data stored in data lakes may be incomplete or outdated, making it essential to integrate external open-domain knowledge to generate timely and relevant analytics results. In this paper, we envision a new multi-modal data analytics system. Specifically, we propose a novel architecture built upon the Model Context Protocol (MCP), an emerging paradigm that enables LLMs to collaborate with knowledgeable agents. First, we define a semantic operator hierarchy tailored for querying multi-modal data in data lakes and develop an AI-agent-powered NL2Operator translator to bridge user intent and analytical execution. Next, we introduce an MCP-based execution framework, in which each MCP server hosts specialized foundation models optimized for specific data modalities. This design enhances both accuracy and efficiency, while supporting high scalability through modular deployment. Finally, we propose a updating mechanism by harnessing the deep research and machine unlearning techniques to refresh the data lakes and LLM knowledges, with the goal of balancing the data freshness and inference efficiency.
- Abstract(参考訳): データレイクにおけるさまざまなデータには、データサイエンティストが構造化データ、半構造化データ、非構造化データを含むマルチモーダルデータを同時に分析する必要があるため、データ分析に重大な課題が生じる。
LLM(Large Language Models)は有望な能力を示しているが、精度、効率、鮮度の観点からは、マルチモーダルなデータ分析には相変わらず不十分である。
まず、現在の自然言語(NL)やSQLライクなクエリ言語は、ユーザの分析意図を正確かつ包括的に捉えるのに苦労する可能性がある。
第二に、多様なデータモダリティを処理するために単一の統一LDMに頼ると、しばしばかなりの推測オーバーヘッドが発生する。
第三に、データレイクに格納されたデータは不完全あるいは時代遅れである可能性があるため、タイムリーで関連する分析結果を生成するために外部のオープンドメイン知識を統合することが不可欠である。
本稿では,新しいマルチモーダルデータ分析システムを提案する。
具体的には,モデルコンテキストプロトコル(MCP)上に構築された新しいアーキテクチャを提案する。
まず,データレイクにおけるマルチモーダルデータのクエリに適したセマンティック演算子階層を定義し,ユーザ意図と分析実行をブリッジするAIエージェントを用いたNL2Operatorトランスレータを開発する。
次に、MPPベースの実行フレームワークを紹介し、各MPPサーバは、特定のデータモダリティに最適化された特別な基礎モデルをホストする。
この設計は、モジュール配置による高いスケーラビリティをサポートしながら、正確性と効率性を両立させる。
最後に,データ更新性と推論効率のバランスをとることを目的として,深層研究と機械学習技術を活用して,データレイクとLLM知識を更新する更新メカニズムを提案する。
関連論文リスト
- DataMosaic: Explainable and Verifiable Multi-Modal Data Analytics through Extract-Reason-Verify [11.10351765834947]
大規模言語モデル(LLM)はデータ分析を変革しているが、その普及は2つの限界によって妨げられている。
それらは説明不可能(不明確な推論プロセス)であり、検証不可能(幻覚や未確認の誤りが原因である)である。
データモザイク(DataMosaic)は、LCMを利用した分析を説明可能かつ検証可能とするために設計されたフレームワークである。
論文 参考訳(メタデータ) (2025-04-14T09:38:23Z) - CoddLLM: Empowering Large Language Models for Data Analytics [38.23203246023766]
大規模言語モデル(LLM)は、データ分析に革命をもたらす可能性がある。
我々は、Turbo後合成のための新しいデータレシピを公開した。
我々はMistralNeMo-12Bに基づく新しい基礎モデルであるCoddLLMをポストトレーニングする。
論文 参考訳(メタデータ) (2025-02-01T06:03:55Z) - MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。
既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。
そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文 参考訳(メタデータ) (2024-12-06T18:14:24Z) - Personalized Federated Fine-Tuning for LLMs via Data-Driven Heterogeneous Model Architectures [15.645254436094055]
フェデレートラーニング(FL)は、データ共有なしで大規模言語モデルの協調的な微調整を可能にする。
データ駆動の異種モデルアーキテクチャを実現する軽量なパーソナライズFLフレームワークであるFedAMoLEを提案する。
実験によると、FedAMoLEは既存の手法に比べて平均5.14%精度が向上している。
論文 参考訳(メタデータ) (2024-11-28T13:20:38Z) - LAMBDA: A Large Model Based Data Agent [7.240586338370509]
本稿では,LArge Model Based Data Agent (LAMBDA)を紹介する。
LAMBDAは、複雑なデータ駆動アプリケーションにおけるデータ分析の課題に対処するように設計されている。
それは、人間と人工知能をシームレスに統合することで、データ分析パラダイムを強化する可能性がある。
論文 参考訳(メタデータ) (2024-07-24T06:26:36Z) - The Synergy between Data and Multi-Modal Large Language Models: A Survey from Co-Development Perspective [53.48484062444108]
モデルとデータの開発は2つの別々のパスではなく、むしろ相互接続であることがわかった。
一方,MLLMはデータ開発に役立てることができるため,MLLMの性能向上に寄与する。
MLLMコミュニティにおけるデータモデル共同開発を促進するために,データモデル共同開発の観点からMLLMに関連する既存の研究を体系的にレビューする。
論文 参考訳(メタデータ) (2024-07-11T15:08:11Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。