論文の概要: Can LLMs Clean Up Your Mess? A Survey of Application-Ready Data Preparation with LLMs
- arxiv url: http://arxiv.org/abs/2601.17058v1
- Date: Thu, 22 Jan 2026 12:02:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:07.10625
- Title: Can LLMs Clean Up Your Mess? A Survey of Application-Ready Data Preparation with LLMs
- Title(参考訳): LLMはあなたのメスをきれいにできるか? LLMによるアプリケーション対応データ作成に関する調査
- Authors: Wei Zhou, Jun Zhou, Haoyu Wang, Zhenghao Li, Qikang He, Shaokun Han, Guoliang Li, Xuanhe Zhou, Yeye He, Chunwei Liu, Zirui Tang, Bin Wang, Shen Tang, Kai Zuo, Yuyu Luo, Zhenzhe Zheng, Conghui He, Jingren Zhou, Fan Wu,
- Abstract要約: データ準備は、生のデータセットを識別し、データセット間の関係を解明し、それらから貴重な洞察を抽出することを目的としている。
本稿では,様々な下流タスクのためのデータ準備にLLM技術を用いることに焦点を当てる。
データクリーニング、標準化、エラー処理、計算、データ統合、データ豊か化という3つの主要なタスクにフィールドを編成するタスク中心の分類を導入します。
- 参考スコア(独自算出の注目度): 66.63911043019294
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data preparation aims to denoise raw datasets, uncover cross-dataset relationships, and extract valuable insights from them, which is essential for a wide range of data-centric applications. Driven by (i) rising demands for application-ready data (e.g., for analytics, visualization, decision-making), (ii) increasingly powerful LLM techniques, and (iii) the emergence of infrastructures that facilitate flexible agent construction (e.g., using Databricks Unity Catalog), LLM-enhanced methods are rapidly becoming a transformative and potentially dominant paradigm for data preparation. By investigating hundreds of recent literature works, this paper presents a systematic review of this evolving landscape, focusing on the use of LLM techniques to prepare data for diverse downstream tasks. First, we characterize the fundamental paradigm shift, from rule-based, model-specific pipelines to prompt-driven, context-aware, and agentic preparation workflows. Next, we introduce a task-centric taxonomy that organizes the field into three major tasks: data cleaning (e.g., standardization, error processing, imputation), data integration (e.g., entity matching, schema matching), and data enrichment (e.g., data annotation, profiling). For each task, we survey representative techniques, and highlight their respective strengths (e.g., improved generalization, semantic understanding) and limitations (e.g., the prohibitive cost of scaling LLMs, persistent hallucinations even in advanced agents, the mismatch between advanced methods and weak evaluation). Moreover, we analyze commonly used datasets and evaluation metrics (the empirical part). Finally, we discuss open research challenges and outline a forward-looking roadmap that emphasizes scalable LLM-data systems, principled designs for reliable agentic workflows, and robust evaluation protocols.
- Abstract(参考訳): データ準備は、生のデータセットを識別し、データセット間の関係を解明し、それらから貴重な洞察を抽出することを目的としており、これは幅広いデータ中心のアプリケーションに必須である。
駆動
(i)アプリケーション対応データ(分析、可視化、意思決定など)の需要増加
(二)ますます強力なLDM技術、及び
3) フレキシブルエージェント構築を容易にするインフラの出現(例えば、Databricks Unity Catalog)により、LLMを拡張した手法は、データ準備において、急速に変化し、潜在的に支配的なパラダイムになりつつある。
本論文は,近年の何百もの文献を調査し,多様な下流タスクのためのデータ作成にLLM技術を用いることに着目し,この発展途上の展望を体系的に考察する。
まず、ルールベース、モデル固有のパイプラインから、プロンプト駆動、コンテキスト認識、エージェント準備ワークフローへの根本的なパラダイムシフトを特徴付ける。
次に、データクリーニング(例えば、標準化、エラー処理、計算)、データ統合(例えば、エンティティマッチング、スキーママッチング)、データ濃縮(例えば、データアノテーション、プロファイリング)の3つの主要なタスクにフィールドを整理するタスク中心の分類法を紹介します。
各課題について、代表的手法を調査し、それぞれの強み(例えば、一般化、意味理解の改善)と限界(例えば、LLMのスケーリングの禁止コスト、高度なエージェントにおいても持続的な幻覚、高度なメソッド間のミスマッチ、弱い評価)を強調した。
さらに,一般的なデータセットと評価指標(経験的部分)を分析した。
最後に、オープンな研究課題について議論し、スケーラブルなLCMデータシステム、信頼性の高いエージェントワークフローのための原則設計、堅牢な評価プロトコルを強調した先見的なロードマップを概説する。
関連論文リスト
- A Survey on Efficient Large Language Model Training: From Data-centric Perspectives [42.897899343082806]
本稿では,データ中心の観点から学習後のデータ効率の高い大規模言語モデルに関する最初の体系的な調査を示す。
本稿では,データ選択,データ品質向上,合成データ生成,データ蒸留・圧縮,自己進化型データエコシステムを対象とする,データ効率の高いLCMポストトレーニング手法の分類法を提案する。
我々の研究が、大規模モデルトレーニングにおけるデータ利用の可能性の最大化に、さらなる探究を促すことを願っています。
論文 参考訳(メタデータ) (2025-10-29T17:01:55Z) - LLM/Agent-as-Data-Analyst: A Survey [54.08761322298559]
大規模言語モデル(LLM)とエージェント技術は、データ分析タスクの機能と開発パラダイムに根本的な変化をもたらした。
LLMは複雑なデータ理解、自然言語、意味分析機能、自律パイプラインオーケストレーションを可能にする。
論文 参考訳(メタデータ) (2025-09-28T17:31:38Z) - A Survey of LLM $\times$ DATA [71.96808497574658]
大規模言語モデル(LLM)とデータ管理(Data4LLM)の統合は、両方のドメインを急速に再定義しています。
一方、Data data4LLMは、事前トレーニング、後トレーニング、検索強化生成、エージェント生成などの段階に必要なデータの高品質、多様性、タイムラインをLLMに提供する。
一方、LLMはデータ管理のための汎用エンジンとして登場しつつある。
論文 参考訳(メタデータ) (2025-05-24T01:57:12Z) - Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト is Key" (CiK) は、数値データを多種多様なテキストコンテキストと組み合わせた予測ベンチマークである。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
提案手法は,提案するベンチマークにおいて,他の試験手法よりも優れる簡易かつ効果的なLCMプロンプト法である。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - AvaTaR: Optimizing LLM Agents for Tool Usage via Contrastive Reasoning [93.96463520716759]
大規模言語モデル(LLM)エージェントは、精度と幻覚を高めるために外部ツールと知識を活用する際、印象的な能力を示した。
本稿では、LLMエージェントを最適化して提供されたツールを効果的に活用し、与えられたタスクのパフォーマンスを向上させる新しい自動化フレームワークであるAvaTaRを紹介する。
論文 参考訳(メタデータ) (2024-06-17T04:20:02Z) - Large Language Models for Data Annotation and Synthesis: A Survey [49.8318827245266]
本調査は,データアノテーションと合成のための大規模言語モデルの有用性に焦点を当てる。
LLMがアノテートできるデータタイプの詳細な分類、LLM生成アノテーションを利用したモデルの学習戦略のレビュー、データアノテーションと合成にLLMを使用する際の主な課題と制限に関する詳細な議論を含む。
論文 参考訳(メタデータ) (2024-02-21T00:44:04Z) - Large Language Models as Data Preprocessors [9.99065004972981]
大規模言語モデル (LLM) は人工知能において大きな進歩を遂げている。
本研究では、データマイニングおよび分析アプリケーションにおいて重要な段階である、データ前処理におけるその可能性について検討する。
我々は,最先端のプロンプトエンジニアリング技術を統合したデータ前処理のためのLLMベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-30T23:28:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。