論文の概要: Automatic End-to-End Data Integration using Large Language Models
- arxiv url: http://arxiv.org/abs/2603.10547v1
- Date: Wed, 11 Mar 2026 08:56:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.858725
- Title: Automatic End-to-End Data Integration using Large Language Models
- Title(参考訳): 大規模言語モデルを用いたエンドツーエンドの自動データ統合
- Authors: Aaron Steiner, Christian Bizer,
- Abstract要約: 我々は、GPT-5.2を使用して、パイプラインを特定のユースケースに適応させるために必要なすべてのアーティファクトを生成する自動データ統合パイプラインを提案する。
このLLMパイプラインの性能と人間設計パイプラインの性能を3つのケーススタディで比較した。
我々の実験によると、LLMベースのパイプラインは、人間設計のパイプラインのように、いくつかのタスクでさらに良い結果をもたらすことができる。
- 参考スコア(独自算出の注目度): 3.188426002064626
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Designing data integration pipelines typically requires substantial manual effort from data engineers to configure pipeline components and label training data. While LLMs have shown promise in handling individual steps of the integration process, their potential to replace all human input across end-to-end data integration pipelines has not been investigated. As a step toward exploring this potential, we present an automatic data integration pipeline that uses GPT-5.2 to generate all artifacts required to adapt the pipeline to specific use cases. These artifacts are schema mappings, value mappings for data normalization, training data for entity matching, and validation data for selecting conflict resolution heuristics in data fusion. We compare the performance of this LLM-based pipeline to the performance of human-designed pipelines along three case studies requiring the integration of video game, music, and company related data. Our experiments show that the LLM-based pipeline is able to produce similar results, for some tasks even better results, as the human-designed pipelines. End-to-end, the human and the LLM pipelines produce integrated datasets of comparable size and density. Having the LLM configure the pipelines costs approximately \$10 per case study, which represents only a small fraction of the cost of having human data engineers perform the same tasks.
- Abstract(参考訳): データ統合パイプラインの設計には、パイプラインコンポーネントの設定やトレーニングデータのラベル付けに、データエンジニアによるかなりの手作業が必要になるのが一般的だ。
LLMは、統合プロセスの個々のステップを扱うことを約束しているが、エンドツーエンドのデータ統合パイプライン間での人間の入力を置き換える可能性については調査されていない。
この可能性を探求するためのステップとして、GPT-5.2を使用してパイプラインを特定のユースケースに適応させるために必要なすべてのアーティファクトを生成する自動データ統合パイプラインを提案する。
これらのアーティファクトは、スキーママッピング、データの正規化のための値マッピング、エンティティマッチングのためのトレーニングデータ、データ融合における競合解決ヒューリスティックを選択するための検証データである。
我々は,このLLMパイプラインの性能と人間設計パイプラインの性能を,ビデオゲーム,音楽,企業関連データの統合を必要とする3つのケーススタディと比較した。
我々の実験によると、LLMベースのパイプラインは、人間設計のパイプラインのように、いくつかのタスクでさらに良い結果をもたらすことができる。
エンドツーエンドでは、人間とLLMパイプラインは、同等のサイズと密度のデータセットを生成する。
LLMを構成するパイプラインはケーススタディあたり約10ドルで、これは人間のデータエンジニアが同じタスクを実行する場合のコストのごく一部に過ぎません。
関連論文リスト
- SemPipes -- Optimizable Semantic Data Operators for Tabular Machine Learning Pipelines [12.816711873869984]
本稿では,セマンティックデータ演算子をMLパイプラインに統合する新しい宣言型プログラミングモデルであるSemPipesを紹介する。
SemPipesはデータ特性、演算子命令、パイプラインコンテキストに基づいて、カスタム演算子実装を合成する。
セマンティック演算子は、専門家が設計したパイプラインとエージェント生成パイプラインの両方において、エンドツーエンドの予測性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2026-02-04T23:36:29Z) - DataFlow: An LLM-Driven Framework for Unified Data Preparation and Workflow Automation in the Era of Data-Centric AI [42.191938707504406]
DataFlowは、統一的でLLM駆動のデータ準備フレームワークである。
システムレベルの抽象化により、モジュラー、再利用可能な、構成可能なデータ変換が可能になる。
DataFlowは、ダウンストリームのLarge Language Modelsのパフォーマンスを継続的に改善します。
論文 参考訳(メタデータ) (2025-12-18T15:46:15Z) - KGpipe: Generation and Evaluation of Pipelines for Data Integration into Knowledge Graphs [1.5397834466394758]
多様な情報源から高品質な知識グラフ(KG)を構築するには、情報抽出、データ変換、オントロジーマッピング、エンティティマッチング、データ融合の手法を組み合わせる必要がある。
既存のツールやLLM(Large Language Model)機能を組み合わせてパイプラインを定義し実行するための新しいフレームワークであるKGpipeを提案する。
論文 参考訳(メタデータ) (2025-11-23T09:21:14Z) - FlowETL: An Autonomous Example-Driven Pipeline for Data Engineering [1.3599496385950987]
FlowETLは、入力データセットの自動標準化と準備のために設計された、サンプルベースの自律パイプラインアーキテクチャである。
Planning Engineは、ペア化された入出力データセットを使用して変換計画を構築し、ワーカーがソースに適用する。
結果は、さまざまなドメイン、ファイル構造、ファイルサイズからなる14のデータセットにまたがる有望な一般化能力を示している。
論文 参考訳(メタデータ) (2025-07-30T21:46:22Z) - ToolACE: Winning the Points of LLM Function Calling [139.07157814653638]
ToolACEは、正確で複雑で多様なツール学習データを生成するように設計された自動エージェントパイプラインである。
我々は、合成データに基づいてトレーニングされたモデルが、8Bパラメータだけで、バークレー・ファンクション・カリング・リーダーボード上で最先端のパフォーマンスを達成することを実証した。
論文 参考訳(メタデータ) (2024-09-02T03:19:56Z) - Data-Copilot: Bridging Billions of Data and Humans with Autonomous Workflow [49.28944613907541]
金融、気象学、エネルギーといった産業は毎日大量のデータを生み出している。
本研究では,データ分析エージェントであるData-Copilotを提案する。
論文 参考訳(メタデータ) (2023-06-12T16:12:56Z) - SapientML: Synthesizing Machine Learning Pipelines by Learning from
Human-Written Solutions [28.718446733713183]
既存のデータセットとその人手によるパイプラインのコーパスから学習できるAutoML SapientMLを提案する。
我々は、170のデータセットにまたがる1094のパイプラインのトレーニングコーパスを作成し、41のベンチマークデータセットでSapientMLを評価した。
我々の評価によると、SapientMLは27のベンチマークでベストまたは同等の精度で、第2のツールでは9のインスタンスでパイプラインを生成できない。
論文 参考訳(メタデータ) (2022-02-18T20:45:47Z) - Where Is My Training Bottleneck? Hidden Trade-Offs in Deep Learning
Preprocessing Pipelines [77.45213180689952]
ディープラーニングにおける前処理パイプラインは、トレーニングプロセスを忙しくするための十分なデータスループットの提供を目的としている。
エンドツーエンドのディープラーニングパイプラインのためのデータセットを効率的に準備する新たな視点を導入する。
チューニングされていないシステムに比べてスループットが3倍から13倍に向上する。
論文 参考訳(メタデータ) (2022-02-17T14:31:58Z) - Omnidata: A Scalable Pipeline for Making Multi-Task Mid-Level Vision
Datasets from 3D Scans [103.92680099373567]
本稿では,実世界の包括的3Dスキャンからマルチタスク視覚データセットをパラメトリックサンプリングし,レンダリングするパイプラインを提案する。
サンプリングパラメータを変更することで、生成されたデータセットを“ステア”して、特定の情報を強調することが可能になる。
生成されたスタータデータセットでトレーニングされた共通アーキテクチャは、複数の共通ビジョンタスクとベンチマークで最先端のパフォーマンスに達した。
論文 参考訳(メタデータ) (2021-10-11T04:21:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。