論文の概要: AutoDCWorkflow: LLM-based Data Cleaning Workflow Auto-Generation and Benchmark
- arxiv url: http://arxiv.org/abs/2412.06724v2
- Date: Fri, 13 Dec 2024 03:43:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-16 11:42:56.309921
- Title: AutoDCWorkflow: LLM-based Data Cleaning Workflow Auto-Generation and Benchmark
- Title(参考訳): AutoDCWorkflow: LLMベースのデータクリーニングワークフローの自動生成とベンチマーク
- Authors: Lan Li, Liri Fang, Vetle I. Torvik,
- Abstract要約: データクリーニングを自動的に生成する大規模言語モデル(LLM)の推論能力を評価する。
本研究では, LLMエージェントが, 様々な難易度でそのアドレスデータクリーニング目的を自動的に生成する能力を評価するためのデータクリーニングベンチマークを提案する。
- 参考スコア(独自算出の注目度): 2.5671111123644894
- License:
- Abstract: We investigate the reasoning capabilities of large language models (LLMs) for automatically generating data-cleaning workflows. To evaluate LLMs' ability to complete data-cleaning tasks, we implemented a pipeline for LLM-based Auto Data Cleaning Workflow (AutoDCWorkflow), prompting LLMs on data cleaning operations to repair three types of data quality issues: duplicates, missing values, and inconsistent data formats. Given a dirty table and a purpose (expressed as a query), this pipeline generates a minimal, clean table sufficient to address the purpose and the data cleaning workflow used to produce the table. The planning process involves three main LLM-driven components: (1) Select Target Columns: Identifies a set of target columns related to the purpose. (2) Inspect Column Quality: Assesses the data quality for each target column and generates a Data Quality Report as operation objectives. (3) Generate Operation & Arguments: Predicts the next operation and arguments based on the data quality report results. Additionally, we propose a data cleaning benchmark to evaluate the capability of LLM agents to automatically generate workflows that address data cleaning purposes of varying difficulty levels. The benchmark comprises the annotated datasets as a collection of purpose, raw table, clean table, data cleaning workflow, and answer set. In our experiments, we evaluated three LLMs that auto-generate purpose-driven data cleaning workflows. The results indicate that LLMs perform well in planning and generating data-cleaning workflows without the need for fine-tuning.
- Abstract(参考訳): 本稿では,大規模言語モデル (LLM) の推論機能について検討する。
データクリーニングタスクを完了させるLLMの能力を評価するため,LLMベースのAuto Data Cleaning Workflow(AutoDCWorkflow)のパイプラインを実装した。
汚いテーブルと目的(クエリとして表現される)が与えられたパイプラインは、目的とテーブルの生成に使用するデータクリーニングワークフローに対応するのに十分な、最小限のクリーンなテーブルを生成する。
1) ターゲットカラムの選択: 目的に関連するターゲット列のセットを識別する。
2)カラムの品質を検査する:各カラムのデータ品質を解析し、運用目的としてデータ品質レポートを生成する。
(3) 運用・調停の生成:データ品質報告結果に基づいて次の操作及び引数を予測する。
さらに,LLMエージェントがデータクリーニングの目的に応じて様々な難易度に対処するワークフローを自動生成する能力を評価するためのデータクリーニングベンチマークを提案する。
ベンチマークには、目的、生のテーブル、クリーンテーブル、データクリーニングワークフロー、回答セットのコレクションとして、アノテーション付きデータセットが含まれている。
実験では、目的駆動型データクリーニングワークフローを自動生成する3つのLCMを評価した。
その結果,LLMは微調整を必要とせず,データクリーニングワークフローの計画と生成に優れていたことが示唆された。
関連論文リスト
- WorkflowLLM: Enhancing Workflow Orchestration Capability of Large Language Models [105.46456444315693]
ワークフローオーケストレーションにおける大規模言語モデルの能力を高めるための,データ中心のフレームワークであるLLMを提案する。
最初は106,763のサンプルで大規模な微調整Benchを構築し、28のカテゴリにわたる83のアプリケーションから1,503のAPIをカバーしている。
LlamaLlamaは複雑なAPIをオーケストレーションする能力を示しながら、優れた一般化性能を実現している。
論文 参考訳(メタデータ) (2024-11-08T09:58:02Z) - Benchmarking Agentic Workflow Generation [80.74757493266057]
複数面シナリオと複雑なグラフワークフロー構造を備えた統合ワークフロー生成ベンチマークであるWorFBenchを紹介する。
また,サブシーケンスとサブグラフマッチングアルゴリズムを利用したシステム評価プロトコルWorFEvalを提案する。
我々は、生成されたタスクが下流のタスクを強化し、推論中により少ない時間で優れたパフォーマンスを達成することができることを観察する。
論文 参考訳(メタデータ) (2024-10-10T12:41:19Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - Are you still on track!? Catching LLM Task Drift with Activations [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - TableLLM: Enabling Tabular Data Manipulation by LLMs in Real Office Usage Scenarios [52.73289223176475]
TableLLMは、13億のパラメータを持つ堅牢な大規模言語モデル(LLM)である。
TableLLMはデータ操作タスクを巧みに扱うために構築されている。
我々は、ユーザインタラクションのためのモデルチェックポイント、ソースコード、ベンチマーク、Webアプリケーションをリリースした。
論文 参考訳(メタデータ) (2024-03-28T11:21:12Z) - Task Contamination: Language Models May Not Be Few-Shot Anymore [9.696290050028237]
大きな言語モデル(LLM)は、様々なゼロショットおよび少数ショットタスクで素晴らしいパフォーマンスを提供する。
しかし、ゼロショットや少数ショットの設定での成功はタスクの汚染に影響される可能性がある。
本稿では,LLMのゼロショット性能と少数ショット性能が,時間とともに時間とともにどのように変化したかを検討する。
論文 参考訳(メタデータ) (2023-12-26T21:17:46Z) - SEED: Domain-Specific Data Curation With Large Language Models [22.54280367957015]
LLM-as-compilerアプローチであるSEEDは,Large Language Models(LLM)を介して,ドメイン固有のデータキュレーションソリューションを自動的に生成する。
SEEDは、4つのLCMアシストモジュールから自動的に選択し、そのタスクに最も適したハイブリッド実行パイプラインを形成する。
論文 参考訳(メタデータ) (2023-10-01T17:59:20Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z) - DataAssist: A Machine Learning Approach to Data Cleaning and Preparation [0.0]
DataAssistは、MLインフォームドメソッドを使用してデータセットの品質を向上させる自動データ準備およびクリーニングプラットフォームである。
我々のツールは、経済、ビジネス、予測アプリケーションなど、さまざまな分野に適用でき、データの浄化と準備に費やした時間の50%以上を節約できる。
論文 参考訳(メタデータ) (2023-07-14T01:50:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。