論文の概要: Data Wrangling Task Automation Using Code-Generating Language Models
- arxiv url: http://arxiv.org/abs/2502.15732v1
- Date: Wed, 05 Feb 2025 03:36:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-02 03:56:21.699708
- Title: Data Wrangling Task Automation Using Code-Generating Language Models
- Title(参考訳): コード生成言語モデルを用いたデータラングリングタスク自動化
- Authors: Ashlesha Akella, Krishnasuri Narayanam,
- Abstract要約: 本稿では,不備な値計算,エラー検出,エラー訂正などのタスクに対して実行可能なコードを生成する自動システムを提案する。
本システムは,外部知識を活用してデータ固有のパターンを識別し,メモリ依存タスクとメモリ依存タスクの両方に効果的に対処することを目的としている。
- 参考スコア(独自算出の注目度): 1.629488438606726
- License:
- Abstract: Ensuring data quality in large tabular datasets is a critical challenge, typically addressed through data wrangling tasks. Traditional statistical methods, though efficient, cannot often understand the semantic context and deep learning approaches are resource-intensive, requiring task and dataset-specific training. To overcome these shortcomings, we present an automated system that utilizes large language models to generate executable code for tasks like missing value imputation, error detection, and error correction. Our system aims to identify inherent patterns in the data while leveraging external knowledge, effectively addressing both memory-dependent and memory-independent tasks.
- Abstract(参考訳): 大きな表のデータセットでデータ品質を保証することは、典型的にはデータラングリングタスクによって対処される、重要な課題である。
従来の統計手法は、効率的ではあるが、意味的コンテキストを理解できないことが多く、ディープラーニングアプローチはリソース集約であり、タスクとデータセット固有のトレーニングを必要とする。
これらの欠点を克服するために,大規模な言語モデルを用いて,不足値の計算やエラー検出,エラー訂正などのタスクに対して実行可能なコードを生成する自動システムを提案する。
本システムは,外部知識を活用してデータ固有のパターンを識別し,メモリ依存タスクとメモリ依存タスクの両方に効果的に対処することを目的としている。
関連論文リスト
- Learning Task Representations from In-Context Learning [73.72066284711462]
大規模言語モデル(LLM)は、文脈内学習において顕著な習熟性を示している。
ICLプロンプトにおけるタスク情報をアテンションヘッドの関数として符号化するための自動定式化を導入する。
提案手法の有効性は,最後の隠れ状態の分布と最適に実行されたテキスト内学習モデルとの整合性に起因していることを示す。
論文 参考訳(メタデータ) (2025-02-08T00:16:44Z) - CodeUnlearn: Amortized Zero-Shot Machine Unlearning in Language Models Using Discrete Concept [5.345828824625758]
コードブック機能とスパースオートエンコーダ(SAEs)を用いた新しいアンラーニング手法を提案する。
ボトルネックを利用して、アクティベーション空間を分解し、情報の流れを規制することにより、モデルの性能を無関係なデータに保ちながら、ターゲットとなる情報を効率的に解き放つ。
論文 参考訳(メタデータ) (2024-10-08T10:26:22Z) - Towards Explainable Automated Data Quality Enhancement without Domain Knowledge [0.0]
我々は,任意のデータセットにおけるデータ品質問題を自動的に評価し,修正するための包括的フレームワークを提案する。
私たちの主な目的は、欠如、冗長性、不整合という3つの基本的な欠陥に対処することです。
統計的手法と機械学習アルゴリズムを統合するハイブリッドアプローチを採用する。
論文 参考訳(メタデータ) (2024-09-16T10:08:05Z) - Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z) - Multi-label and Multi-target Sampling of Machine Annotation for
Computational Stance Detection [44.90471123149513]
アノテーションの品質を最適化するために,マルチラベルおよびマルチターゲットサンプリング戦略を導入する。
ベンチマークスタンス検出コーパスの実験結果から,本手法は性能と学習効率を大幅に向上させることができることが示された。
論文 参考訳(メタデータ) (2023-11-08T06:54:34Z) - STAR: Boosting Low-Resource Information Extraction by Structure-to-Text
Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。
我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。
実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-24T12:15:19Z) - Curriculum-Based Self-Training Makes Better Few-Shot Learners for
Data-to-Text Generation [56.98033565736974]
テキスト生成の困難さによって決定される並べ替え順序でラベルのないデータを活用するために,カリキュラムベースの自己学習(CBST)を提案する。
提案手法は、微調整およびタスク適応型事前学習法より優れており、データ・テキスト・ジェネレーションのわずかな設定で最先端の性能を実現することができる。
論文 参考訳(メタデータ) (2022-06-06T16:11:58Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - Adaptive Self-training for Few-shot Neural Sequence Labeling [55.43109437200101]
ニューラルシークエンスラベリングモデルにおけるラベル不足問題に対処する手法を開発した。
自己学習は、大量のラベルのないデータから学ぶための効果的なメカニズムとして機能する。
メタラーニングは、適応的なサンプル再重み付けにおいて、ノイズのある擬似ラベルからのエラー伝播を軽減するのに役立つ。
論文 参考訳(メタデータ) (2020-10-07T22:29:05Z) - Learning Generalized Relational Heuristic Networks for Model-Agnostic
Planning [29.714818991696088]
本稿では,記号的行動モデルが存在しない場合の一般化を学習するための新しいアプローチを開発する。
データの効率的で一般化可能な学習を容易にするために、抽象状態表現を使用する。
論文 参考訳(メタデータ) (2020-07-10T06:08:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。