Fugu-MT 論文翻訳(概要): Exploring LLM Agents for Cleaning Tabular Machine Learning Datasets

論文の概要: Exploring LLM Agents for Cleaning Tabular Machine Learning Datasets

arxiv url: http://arxiv.org/abs/2503.06664v1
Date: Sun, 09 Mar 2025 15:29:46 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-11 20:09:44.542561
Title: Exploring LLM Agents for Cleaning Tabular Machine Learning Datasets
Title（参考訳）: 機械学習データセットのクリーン化のためのLLMエージェントの探索
Authors: Tommaso Bendinelli, Artur Dox, Christian Holz,
Abstract要約: 高品質でエラーのないデータセットは、信頼性、正確、偏見のない機械学習(ML)モデルを構築する上で重要な要素である。しかし、実世界のデータセットは、センサーの故障、データ入力ミス、複数のソースにわたる不適切なデータ統合によるエラーに悩まされることが多い。本研究では,Large Language Models (LLMs) が手作業によるデータクリーニングの負担軽減に有効かどうかを検討する。
参考スコア（独自算出の注目度）: 19.844836459291546
License: http://creativecommons.org/licenses/by/4.0/
Abstract: High-quality, error-free datasets are a key ingredient in building reliable, accurate, and unbiased machine learning (ML) models. However, real world datasets often suffer from errors due to sensor malfunctions, data entry mistakes, or improper data integration across multiple sources that can severely degrade model performance. Detecting and correcting these issues typically require tailor-made solutions and demand extensive domain expertise. Consequently, automation is challenging, rendering the process labor-intensive and tedious. In this study, we investigate whether Large Language Models (LLMs) can help alleviate the burden of manual data cleaning. We set up an experiment in which an LLM, paired with Python, is tasked with cleaning the training dataset to improve the performance of a learning algorithm without having the ability to modify the training pipeline or perform any feature engineering. We run this experiment on multiple Kaggle datasets that have been intentionally corrupted with errors. Our results show that LLMs can identify and correct erroneous entries, such as illogical values or outlier, by leveraging contextual information from other features within the same row, as well as feedback from previous iterations. However, they struggle to detect more complex errors that require understanding data distribution across multiple rows, such as trends and biases.
Abstract（参考訳）: 高品質でエラーのないデータセットは、信頼性、正確、偏見のない機械学習(ML)モデルを構築する上で重要な要素である。しかし、実世界のデータセットは、センサーの故障、データ入力ミス、モデルパフォーマンスを著しく低下させる複数のソース間の不適切なデータ統合によるエラーに悩まされることが多い。これらの問題を検知し、修正するには、通常、調整済みのソリューションを必要とし、広範なドメインの専門知識を必要とします。その結果、自動化は難しく、労働集約的で退屈なプロセスになります。本研究では,Large Language Models (LLMs) が手作業によるデータクリーニングの負担軽減に有効かどうかを検討する。我々は,Pythonと組み合わせたLLMでトレーニングデータセットのクリーニングを行い,トレーニングパイプラインの変更や機能エンジニアリングの実施を行うことなく,学習アルゴリズムのパフォーマンスを向上させる実験を行った。この実験は、意図的にエラーで破損した複数のKaggleデータセット上で実行します。この結果から,LLMは,同一行内の他の特徴からのコンテキスト情報を活用することで,非論理的値や外れ値などの誤ったエントリを識別し,修正することが可能であること,および,以前のイテレーションからのフィードバックを活用できることが示唆された。しかし、トレンドやバイアスなど、複数の行にまたがるデータの分散を理解する必要がある、より複雑なエラーを検出するのに苦労している。

関連論文リスト

AdvKT: An Adversarial Multi-Step Training Framework for Knowledge Tracing [64.79967583649407]
知識追跡(KT)は、学生の知識状態を監視し、質問シーケンスに対する反応をシミュレートする。既存のKTモデルは通常、単一ステップのトレーニングパラダイムに従っており、大きなエラーの蓄積につながる。本稿では,多段階KTタスクに着目した新しい知識追跡のための多段階学習フレームワーク(AdvKT)を提案する。
論文参考訳（メタデータ） (2025-04-07T03:31:57Z)
LEMMA: Learning from Errors for MatheMatical Advancement in LLMs [33.571479131705075]
我々は,大規模言語モデルの推論能力を高めるために,数学的発展のための誤りからの学習(LEMMA)を導入する。 LEMMAは、誤ったステップの間違った解と、微調整のための正しい解への反射接続からなるデータを構成する。実験結果から, LEMMAは他の強力なベースラインよりも高い性能向上が得られた。
論文参考訳（メタデータ） (2025-03-21T17:59:10Z)
LeakageDetector: An Open Source Data Leakage Analysis Tool in Machine Learning Pipelines [3.5453450990441238]
私たちの研究は、機械学習(ML)エンジニアがモデルでData Leakageのインスタンスを見つけて修正するのを助けることで、より良いコードを書くことを可能にすることを目的としています。 ML開発者は、コードにData Leakageを導入するのを避けるために、データをトレーニング、評価、テストセットに慎重に分離する必要がある。本稿では,MLコードのData Leakageのインスタンスを識別するPythonプラグインであるLEAKAGEDETECTORを開発し,リークの除去方法について提案する。
論文参考訳（メタデータ） (2025-03-18T20:53:44Z)
Are Large Language Models Good Data Preprocessors? [5.954202581988127]
高品質なテキストトレーニングデータは、マルチモーダルデータ処理タスクの成功に不可欠である。 BLIPやGITのような画像キャプションモデルからの出力は、しばしばルールベースの手法で修正が難しいエラーや異常を含む。
論文参考訳（メタデータ） (2025-02-24T02:57:21Z)
Subtle Errors Matter: Preference Learning via Error-injected Self-editing [59.405145971637204]
eRror-Injected Self-Editing (RISE) と呼ばれる新しい好み学習フレームワークを提案する。 RISEは、事前定義された微妙なエラーをピボットトークンに注入する。 RISEの有効性を検証する実験では、Qwen2-7B-Instructでの優先学習により、GSM8Kでは3.0%、MATHでは7.9%が顕著に改善され、トレーニングサンプルは4.5Kに留まった。
論文参考訳（メタデータ） (2024-10-09T07:43:38Z)
Advancing Anomaly Detection: Non-Semantic Financial Data Encoding with LLMs [49.57641083688934]
本稿では,Large Language Models (LLM) 埋め込みを用いた財務データにおける異常検出の新しい手法を提案する。実験により,LLMが異常検出に有用な情報をもたらし,モデルがベースラインを上回っていることが確認された。
論文参考訳（メタデータ） (2024-06-05T20:19:09Z)
Get my drift? Catching LLM Task Drift with Activation Deltas [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文参考訳（メタデータ） (2024-06-02T16:53:21Z)
MiniCheck: Efficient Fact-Checking of LLMs on Grounding Documents [62.02920842630234]
GPT-4レベルの性能を持つが400倍の低コストでファクトチェックモデルを構築する方法を示す。 GPT-4を用いて合成トレーニングデータを構築することで,現実的かつ困難な事実エラーの事例を生成する。評価のために, ファクトチェックとグラウンドグラウンド化に関する最近の研究から得られたデータセットを, 新たなベンチマーク LLM-AggreFact に統一する。
論文参考訳（メタデータ） (2024-04-16T17:59:10Z)
Elephants Never Forget: Testing Language Models for Memorization of Tabular Data [21.912611415307644]
大規模言語モデル (LLM) は様々なタスクに適用できるが、データ汚染と記憶の重大な問題はしばしば誇張される。本稿では, 条件分布モデリングの統計的テストや, 暗記を識別する4つのテストなど, 汚染度を評価するための様々な手法を紹介する。
論文参考訳（メタデータ） (2024-03-11T12:07:13Z)
Corrective Machine Unlearning [22.342035149807923]
我々は、未知の操作が学習モデルに与える影響を緩和する問題として、矯正機械学習を定式化する。削除セットを使わずにスクラッチから再学習するなど、既存の未学習手法の多くは、有効な修正未学習のために、操作されたデータの大部分を識別する必要がある。選択的シナプス減衰法(Selective Synaptic Dampening)は, 操作したサンプルのごく一部で, 有害な効果を学習することなく, 限られた成功を達成している。
論文参考訳（メタデータ） (2024-02-21T18:54:37Z)
Learning to Check: Unleashing Potentials for Self-Correction in Large Language Models [5.463333911506443]
我々は,タスクチェックのためのトレーニングデータを構築することで,大規模言語モデル(LLM)の自己チェック能力を向上させることを目指している。ステップCoTチェック(Step CoT Check)と呼ばれる特殊なチェックフォーマットを提案する。実験により、"Step CoT Check"フォーマットによる微調整により、LCMの自己チェックと自己補正能力が大幅に向上することが示された。
論文参考訳（メタデータ） (2024-02-20T14:23:23Z)
Parameter-tuning-free data entry error unlearning with adaptive selective synaptic dampening [51.34904967046097]
本稿では,パラメータチューニングの必要性を排除した選択的シナプス減衰アンラーニング法の拡張を提案する。本稿では,ResNet18とVision Transformerの未学習タスクにおける適応選択的シナプス減衰(ASSD)の性能を示す。このアプローチの適用は、サプライチェーン管理などの産業環境において特に魅力的である。
論文参考訳（メタデータ） (2024-02-06T14:04:31Z)
Learning From Mistakes Makes LLM Better Reasoner [106.48571828587728]
大規模言語モデル(LLM)は、最近数学の問題を解く際、顕著な推論能力を示した。この研究は、LLMが人間の学習プロセスに似たMistAkes(LEMA)から学習できるかどうかを探求する。
論文参考訳（メタデータ） (2023-10-31T17:52:22Z)
DiffPrep: Differentiable Data Preprocessing Pipeline Search for Learning over Tabular Data [12.416345241511781]
与えられたデータセットに対するデータ前処理パイプラインを自動かつ効率的に検索するDiffPrepを提案する。実験の結果,DiffPrepは実世界の18のデータセットのうち15の精度で最高のテスト精度を達成できた。
論文参考訳（メタデータ） (2023-08-20T23:40:26Z)
AI Model Disgorgement: Methods and Choices [127.54319351058167]
本稿では,現代の機械学習システムに適用可能な分類法を紹介する。学習モデルにおけるデータ「効果の除去」の意味を,スクラッチからリトレーニングする必要のない方法で検討する。
論文参考訳（メタデータ） (2023-04-07T08:50:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。