論文の概要: Quality Assessment of Tabular Data using Large Language Models and Code Generation
- arxiv url: http://arxiv.org/abs/2509.10572v1
- Date: Thu, 11 Sep 2025 14:17:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:22.676575
- Title: Quality Assessment of Tabular Data using Large Language Models and Code Generation
- Title(参考訳): 大規模言語モデルとコード生成を用いた語彙データの品質評価
- Authors: Ashlesha Akella, Akshar Kaul, Krishnasuri Narayanam, Sameep Mehta,
- Abstract要約: 統計的インライナー検出とLCM駆動型ルールとコード生成を組み合わせた3段階のフレームワークを提案する。
従来のクラスタリングを通じてデータサンプルをフィルタリングした後、LCMに意味論的に有効な品質ルールを作成するように繰り返し促します。
信頼性の高い品質ルールを生成するために、外部知識ソースとドメイン固有の少数ショット例を活用することにより、検索強化生成(RAG)によるLCMを支援する。
- 参考スコア(独自算出の注目度): 11.92289180699673
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reliable data quality is crucial for downstream analysis of tabular datasets, yet rule-based validation often struggles with inefficiency, human intervention, and high computational costs. We present a three-stage framework that combines statistical inliner detection with LLM-driven rule and code generation. After filtering data samples through traditional clustering, we iteratively prompt LLMs to produce semantically valid quality rules and synthesize their executable validators through code-generating LLMs. To generate reliable quality rules, we aid LLMs with retrieval-augmented generation (RAG) by leveraging external knowledge sources and domain-specific few-shot examples. Robust guardrails ensure the accuracy and consistency of both rules and code snippets. Extensive evaluations on benchmark datasets confirm the effectiveness of our approach.
- Abstract(参考訳): 信頼性の高いデータ品質は、グラフデータセットの下流分析に不可欠であるが、ルールベースの検証は、非効率性、人間の介入、高い計算コストに苦しむことが多い。
統計的インライナー検出とLCM駆動型ルールとコード生成を組み合わせた3段階のフレームワークを提案する。
従来のクラスタリングによってデータサンプルをフィルタリングした後、LCMに意味論的に有効な品質ルールを作成し、コード生成LDMを通して実行可能なバリデータを生成することを反復的に促します。
信頼性の高い品質ルールを生成するために、外部知識ソースとドメイン固有の少数ショット例を活用することにより、検索強化生成(RAG)によるLCMを支援する。
ロバストガードレールは、ルールとコードスニペットの正確性と一貫性を保証する。
ベンチマークデータセットの大規模な評価により,提案手法の有効性が確認された。
関連論文リスト
- IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - Dynamic Benchmarking of Reasoning Capabilities in Code Large Language Models Under Data Contamination [18.006532081289627]
潜在的なデータ汚染下でのコードLLMを評価するための新しいベンチマークスイートであるツールを提案する。
ツールは複数のエージェントを使用して、コアロジックを変更することなくコンテキストを抽出し、変更し、意味的に等価なバリエーションを生成する。
その結果、ツールが汚染リスク下での推論能力を効果的にベンチマークし、多様な問題セットを生成し、一貫性と信頼性を保証できることが判明した。
論文 参考訳(メタデータ) (2025-03-06T06:56:59Z) - Rule-based Data Selection for Large Language Models [9.886837013587124]
トレーニングデータの質は、大規模言語モデル(LLM)の性能に大きく影響する。
複数の人為的指標(ルール)に基づいてデータを評価・選択するためにLLMを用いた研究が増えている。
従来のルールベースのアプローチは、しばしば人間のベクトルに強く依存し、ルールを評価するための効果的な指標が欠如し、新しいタスクへの適応性が制限されている。
論文 参考訳(メタデータ) (2024-10-07T03:13:06Z) - DCA-Bench: A Benchmark for Dataset Curation Agents [9.60250892491588]
不完全なドキュメンテーション、不正確なラベル、倫理的懸念、時代遅れの情報といったデータ品質問題は、広く使われているデータセットで共通している。
大きな言語モデル(LLM)の急増する能力により、LLMエージェントによる隠れデータセット問題の発見の合理化が約束されている。
本研究では,この課題に対処するLLMエージェントの能力を評価するためのベンチマークを確立する。
論文 参考訳(メタデータ) (2024-06-11T14:02:23Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。