Fugu-MT 論文翻訳(概要): DataVinci: Learning Syntactic and Semantic String Repairs

論文の概要: DataVinci: Learning Syntactic and Semantic String Repairs

arxiv url: http://arxiv.org/abs/2308.10922v1
Date: Mon, 21 Aug 2023 14:09:16 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-23 14:25:32.280734
Title: DataVinci: Learning Syntactic and Semantic String Repairs
Title（参考訳）: datavinci: 学習構文と意味文字列の補修
Authors: Mukul Singh, Jos\'e Cambronero, Sumit Gulwani, Vu Le, Carina Negreanu, Gust Verbruggen
Abstract要約: 本稿では,完全教師なし文字列データエラー検出と修復システムであるDataVinciを紹介する。 DataVinciは、カラム内のほとんどの値をカバーする正規表現ベースのパターンを学び、データエラーのようなパターンを満足しない値を報告する。さらなるユーザインタラクションを必要とせずに、他のカラムで学んだ多数パターンと制約に基づいて、自動的にデータエラーへの編集を導出することができる。
参考スコア（独自算出の注目度）: 17.187094058627615
License: http://creativecommons.org/licenses/by/4.0/
Abstract: String data is common in real-world datasets: 67.6% of values in a sample of 1.8 million real Excel spreadsheets from the web were represented as text. Systems that successfully clean such string data can have a significant impact on real users. While prior work has explored errors in string data, proposed approaches have often been limited to error detection or require that the user provide annotations, examples, or constraints to fix the errors. Furthermore, these systems have focused independently on syntactic errors or semantic errors in strings, but ignore that strings often contain both syntactic and semantic substrings. We introduce DataVinci, a fully unsupervised string data error detection and repair system. DataVinci learns regular-expression-based patterns that cover a majority of values in a column and reports values that do not satisfy such patterns as data errors. DataVinci can automatically derive edits to the data error based on the majority patterns and constraints learned over other columns without the need for further user interaction. To handle strings with both syntactic and semantic substrings, DataVinci uses an LLM to abstract (and re-concretize) portions of strings that are semantic prior to learning majority patterns and deriving edits. Because not all data can result in majority patterns, DataVinci leverages execution information from an existing program (which reads the target data) to identify and correct data repairs that would not otherwise be identified. DataVinci outperforms 7 baselines on both error detection and repair when evaluated on 4 existing and new benchmarks.
Abstract（参考訳）: 実世界のデータセットでは文字列データが一般的で、Webから180万の実際のExcelスプレッドシートのサンプルの67.6%がテキストとして表現されている。このような文字列データのクリーニングに成功したシステムは、実際のユーザに大きな影響を与える可能性がある。以前の作業では文字列データのエラーを探索していたが、提案されたアプローチはエラー検出に限られていたり、ユーザがエラーを修正するためにアノテーションや例、制約を提供したりすることが多かった。さらに、これらのシステムは、文字列の構文的誤りや意味的誤りに独立して焦点を合わせているが、文字列が構文的および意味的サブストリングの両方を含むことが多いことは無視している。完全教師なし文字列データエラー検出と修復システムであるDataVinciを紹介する。 DataVinciはカラム内のほとんどの値をカバーする正規表現ベースのパターンを学び、データエラーのようなパターンを満足しない値を報告する。 DataVinciは、さらなるユーザインタラクションを必要とせずに、他のカラムで学んだ多数パターンと制約に基づいて、自動的にデータエラーへの編集を導出することができる。構文的なサブストリングとセマンティックサブストリングの両方で文字列を処理するために、DataVinciはLLMを使用して、多数パターンの学習や編集の導出に先立って意味のある文字列の部分を抽象化(および再生成)する。すべてのデータが過半数のパターンになるわけではないため、datavinciは既存のプログラム(ターゲットデータを読み取る)の実行情報を活用して、他の方法で識別されないデータ修復を識別し、修正する。 DataVinciは、既存の4つのベンチマークと新しいベンチマークで評価された場合、エラー検出と修復の両方で7つのベースラインを上回っている。

関連論文リスト

ErrorLLM: Modeling SQL Errors for Text-to-SQL Refinement [57.98138819417949]
テキスト・ツー・クエリを明示的にモデル化するフレームワークであるErrorLLMを提案する。 ErrorLLMは、バックボーンの初期生成よりも大幅に改善されていることを示す。 ErrorLLMは、精錬効率を維持しつつ、高い検出F1スコアで両面に対処する。
論文参考訳（メタデータ） (2026-03-04T05:27:20Z)
Towards Practical Benchmarking of Data Cleaning Techniques: On Generating Authentic Errors via Large Language Models [15.985949745494747]
TableEGは、大規模な言語モデルを利用して、真のエラーを生成するフレームワークである。 10の異なるドメインにまたがる12の現実世界のデータセットをトレーニングしました。 TableEGは、合成エラーと実世界のエラーのギャップを埋めるだけでなく、その後のエラー検出と修正タスクの堅牢なベンチマークも確立している。
論文参考訳（メタデータ） (2025-07-15T02:58:25Z)
Hey, That's My Data! Label-Only Dataset Inference in Large Language Models [63.35066172530291]
CatShiftはラベルのみのデータセット推論フレームワークである。 LLMは、新しいデータに晒されたとき、学習した知識を上書きする傾向にある。
論文参考訳（メタデータ） (2025-06-06T13:02:59Z)
Exploring LLM Agents for Cleaning Tabular Machine Learning Datasets [19.844836459291546]
高品質でエラーのないデータセットは、信頼性、正確、偏見のない機械学習(ML)モデルを構築する上で重要な要素である。しかし、実世界のデータセットは、センサーの故障、データ入力ミス、複数のソースにわたる不適切なデータ統合によるエラーに悩まされることが多い。本研究では,Large Language Models (LLMs) が手作業によるデータクリーニングの負担軽減に有効かどうかを検討する。
論文参考訳（メタデータ） (2025-03-09T15:29:46Z)
Tgea: An error-annotated dataset and benchmark tasks for text generation from pretrained language models [57.758735361535486]
TGEAは、事前訓練された言語モデル(PLM)からテキストを生成するためのエラーアノテートデータセットである。 PLM生成文で発生する24種類の誤りを網羅する誤り分類を作成する。 PLM生成テキストに対する包括的なアノテーションを備えた最初のデータセットである。
論文参考訳（メタデータ） (2025-03-06T09:14:02Z)
What Is Wrong with My Model? Identifying Systematic Problems with Semantic Data Slicing [44.370871446919594]
セマンティックデータスライシングをサポートするフレームワークであるSemSlicerを提案する。 SemSlicerは低コストで正確なスライスを生成し、性能の低いデータスライスを確実に識別し、実践者が体系的な問題を反映した有用なデータスライスを特定するのに役立つことを示す。
論文参考訳（メタデータ） (2024-09-14T02:15:50Z)
Full-text Error Correction for Chinese Speech Recognition with Large Language Model [11.287933170894311]
大言語モデル(LLM)は自動音声認識(ASR)における誤り訂正の可能性を示している本稿では,より長い音声記録からASRシステムによって生成された全文における誤り訂正のためのLLMの有効性について検討する。
論文参考訳（メタデータ） (2024-09-12T06:50:45Z)
Detecting Errors through Ensembling Prompts (DEEP): An End-to-End LLM Framework for Detecting Factual Errors [11.07539342949602]
本稿では,テキスト要約における事実誤り検出のためのエンドツーエンドフレームワークを提案する。我々のフレームワークは、様々なLCMプロンプトを使用して、事実の矛盾を識別する。我々は、アンサンブルされたモデルを校正し、テキストが実際に一貫した、あるいは幻覚のない、経験的に正確な確率を生成する。
論文参考訳（メタデータ） (2024-06-18T18:59:37Z)
Fact Checking Beyond Training Set [64.88575826304024]
本稿では,レトリバーリーダが,あるドメインのラベル付きデータに基づいてトレーニングし,別のドメインで使用する場合,性能劣化に悩まされることを示す。本稿では,レトリバー成分を分散シフトに対して頑健にするための逆アルゴリズムを提案する。次に、これらのデータセットから8つの事実チェックシナリオを構築し、モデルと強力なベースラインモデルのセットを比較します。
論文参考訳（メタデータ） (2024-03-27T15:15:14Z)
Parameter-tuning-free data entry error unlearning with adaptive selective synaptic dampening [51.34904967046097]
本稿では,パラメータチューニングの必要性を排除した選択的シナプス減衰アンラーニング法の拡張を提案する。本稿では,ResNet18とVision Transformerの未学習タスクにおける適応選択的シナプス減衰(ASSD)の性能を示す。このアプローチの適用は、サプライチェーン管理などの産業環境において特に魅力的である。
論文参考訳（メタデータ） (2024-02-06T14:04:31Z)
FlatMatch: Bridging Labeled Data and Unlabeled Data with Cross-Sharpness for Semi-Supervised Learning [73.13448439554497]
Semi-Supervised Learning (SSL) は、ラベル付きデータが極めて少ない豊富なラベル付きデータを活用する効果的な方法である。ほとんどのSSLメソッドは、通常、異なるデータ変換間のインスタンス単位の一貫性に基づいている。本研究では,2つのデータセット間の一貫した学習性能を確保するために,クロスシャープネス尺度を最小化するFlatMatchを提案する。
論文参考訳（メタデータ） (2023-10-25T06:57:59Z)
Annotating and Detecting Fine-grained Factual Errors for Dialogue Summarization [34.85353544844499]
本稿では,DIASUMFACTというファクトエラーアノテーションを用いた最初のデータセットを提案する。文レベルのマルチラベル分類問題として,ファクト・ファクト・エラー検出を定義する。事前学習したエンコーダ-デコーダモデルを用いた候補ランキングによる教師なしモデルENDERANKERを提案する。
論文参考訳（メタデータ） (2023-05-26T00:18:33Z)
Wav2SQL: Direct Generalizable Speech-To-SQL Parsing [55.10009651476589]
Speech-to-Spider (S2Spider) は、与えられたデータベースに対する音声質問をsqlクエリに変換することを目的としている。ケースドシステム間の誤り合成を回避した,最初の直接音声-話者パーシングモデルWav2を提案する。実験結果から,Wav2は誤差混成を回避し,ベースラインの精度を最大2.5%向上させることで最先端の結果が得られることがわかった。
論文参考訳（メタデータ） (2023-05-21T19:26:46Z)
Promises and Pitfalls of Threshold-based Auto-labeling [17.349289155257715]
Threshold-based auto-labeling (TBAL) 我々は,機械ラベルデータの品質を保証するために必要な人間ラベル付き検証データの量に基づいて,複雑性境界を導出する。我々は、合成データセットと実データセットに関する広範な実験により、理論的保証を検証する。
論文参考訳（メタデータ） (2022-11-22T22:53:17Z)
ASDOT: Any-Shot Data-to-Text Generation with Pretrained Language Models [82.63962107729994]
Any-Shot Data-to-Text (ASDOT)は、多様な設定に柔軟に適用可能な新しいアプローチである。データ曖昧化と文の融合という2つのステップから構成される。実験の結果, ASDOT はベースラインよりも顕著な改善が得られた。
論文参考訳（メタデータ） (2022-10-09T19:17:43Z)
Detection Hub: Unifying Object Detection Datasets via Query Adaptation on Language Embedding [137.3719377780593]
新しいデザイン(De Detection Hubという名前)は、データセット認識とカテゴリ整列である。データセットの不整合を緩和し、検出器が複数のデータセットをまたいで学習するための一貫性のあるガイダンスを提供する。データセット間のカテゴリは、ワンホットなカテゴリ表現を単語埋め込みに置き換えることで、意味的に統一された空間に整列される。
論文参考訳（メタデータ） (2022-06-07T17:59:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。