論文の概要: DataVinci: Learning Syntactic and Semantic String Repairs
- arxiv url: http://arxiv.org/abs/2308.10922v1
- Date: Mon, 21 Aug 2023 14:09:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-23 14:25:32.280734
- Title: DataVinci: Learning Syntactic and Semantic String Repairs
- Title(参考訳): datavinci: 学習構文と意味文字列の補修
- Authors: Mukul Singh, Jos\'e Cambronero, Sumit Gulwani, Vu Le, Carina Negreanu,
Gust Verbruggen
- Abstract要約: 本稿では,完全教師なし文字列データエラー検出と修復システムであるDataVinciを紹介する。
DataVinciは、カラム内のほとんどの値をカバーする正規表現ベースのパターンを学び、データエラーのようなパターンを満足しない値を報告する。
さらなるユーザインタラクションを必要とせずに、他のカラムで学んだ多数パターンと制約に基づいて、自動的にデータエラーへの編集を導出することができる。
- 参考スコア(独自算出の注目度): 17.187094058627615
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: String data is common in real-world datasets: 67.6% of values in a sample of
1.8 million real Excel spreadsheets from the web were represented as text.
Systems that successfully clean such string data can have a significant impact
on real users. While prior work has explored errors in string data, proposed
approaches have often been limited to error detection or require that the user
provide annotations, examples, or constraints to fix the errors. Furthermore,
these systems have focused independently on syntactic errors or semantic errors
in strings, but ignore that strings often contain both syntactic and semantic
substrings. We introduce DataVinci, a fully unsupervised string data error
detection and repair system. DataVinci learns regular-expression-based patterns
that cover a majority of values in a column and reports values that do not
satisfy such patterns as data errors. DataVinci can automatically derive edits
to the data error based on the majority patterns and constraints learned over
other columns without the need for further user interaction. To handle strings
with both syntactic and semantic substrings, DataVinci uses an LLM to abstract
(and re-concretize) portions of strings that are semantic prior to learning
majority patterns and deriving edits. Because not all data can result in
majority patterns, DataVinci leverages execution information from an existing
program (which reads the target data) to identify and correct data repairs that
would not otherwise be identified. DataVinci outperforms 7 baselines on both
error detection and repair when evaluated on 4 existing and new benchmarks.
- Abstract(参考訳): 実世界のデータセットでは文字列データが一般的で、Webから180万の実際のExcelスプレッドシートのサンプルの67.6%がテキストとして表現されている。
このような文字列データのクリーニングに成功したシステムは、実際のユーザに大きな影響を与える可能性がある。
以前の作業では文字列データのエラーを探索していたが、提案されたアプローチはエラー検出に限られていたり、ユーザがエラーを修正するためにアノテーションや例、制約を提供したりすることが多かった。
さらに、これらのシステムは、文字列の構文的誤りや意味的誤りに独立して焦点を合わせているが、文字列が構文的および意味的サブストリングの両方を含むことが多いことは無視している。
完全教師なし文字列データエラー検出と修復システムであるDataVinciを紹介する。
DataVinciはカラム内のほとんどの値をカバーする正規表現ベースのパターンを学び、データエラーのようなパターンを満足しない値を報告する。
DataVinciは、さらなるユーザインタラクションを必要とせずに、他のカラムで学んだ多数パターンと制約に基づいて、自動的にデータエラーへの編集を導出することができる。
構文的なサブストリングとセマンティックサブストリングの両方で文字列を処理するために、DataVinciはLLMを使用して、多数パターンの学習や編集の導出に先立って意味のある文字列の部分を抽象化(および再生成)する。
すべてのデータが過半数のパターンになるわけではないため、datavinciは既存のプログラム(ターゲットデータを読み取る)の実行情報を活用して、他の方法で識別されないデータ修復を識別し、修正する。
DataVinciは、既存の4つのベンチマークと新しいベンチマークで評価された場合、エラー検出と修復の両方で7つのベースラインを上回っている。
関連論文リスト
- What Is Wrong with My Model? Identifying Systematic Problems with Semantic Data Slicing [44.370871446919594]
セマンティックデータスライシングをサポートするフレームワークであるSemSlicerを提案する。
SemSlicerは低コストで正確なスライスを生成し、性能の低いデータスライスを確実に識別し、実践者が体系的な問題を反映した有用なデータスライスを特定するのに役立つことを示す。
論文 参考訳(メタデータ) (2024-09-14T02:15:50Z) - Full-text Error Correction for Chinese Speech Recognition with Large Language Model [11.287933170894311]
大言語モデル(LLM)は自動音声認識(ASR)における誤り訂正の可能性を示している
本稿では,より長い音声記録からASRシステムによって生成された全文における誤り訂正のためのLLMの有効性について検討する。
論文 参考訳(メタデータ) (2024-09-12T06:50:45Z) - Detecting Errors through Ensembling Prompts (DEEP): An End-to-End LLM Framework for Detecting Factual Errors [11.07539342949602]
本稿では,テキスト要約における事実誤り検出のためのエンドツーエンドフレームワークを提案する。
我々のフレームワークは、様々なLCMプロンプトを使用して、事実の矛盾を識別する。
我々は、アンサンブルされたモデルを校正し、テキストが実際に一貫した、あるいは幻覚のない、経験的に正確な確率を生成する。
論文 参考訳(メタデータ) (2024-06-18T18:59:37Z) - Fact Checking Beyond Training Set [64.88575826304024]
本稿では,レトリバーリーダが,あるドメインのラベル付きデータに基づいてトレーニングし,別のドメインで使用する場合,性能劣化に悩まされることを示す。
本稿では,レトリバー成分を分散シフトに対して頑健にするための逆アルゴリズムを提案する。
次に、これらのデータセットから8つの事実チェックシナリオを構築し、モデルと強力なベースラインモデルのセットを比較します。
論文 参考訳(メタデータ) (2024-03-27T15:15:14Z) - Parameter-tuning-free data entry error unlearning with adaptive
selective synaptic dampening [51.34904967046097]
本稿では,パラメータチューニングの必要性を排除した選択的シナプス減衰アンラーニング法の拡張を提案する。
本稿では,ResNet18とVision Transformerの未学習タスクにおける適応選択的シナプス減衰(ASSD)の性能を示す。
このアプローチの適用は、サプライチェーン管理などの産業環境において特に魅力的である。
論文 参考訳(メタデータ) (2024-02-06T14:04:31Z) - FlatMatch: Bridging Labeled Data and Unlabeled Data with Cross-Sharpness
for Semi-Supervised Learning [73.13448439554497]
Semi-Supervised Learning (SSL) は、ラベル付きデータが極めて少ない豊富なラベル付きデータを活用する効果的な方法である。
ほとんどのSSLメソッドは、通常、異なるデータ変換間のインスタンス単位の一貫性に基づいている。
本研究では,2つのデータセット間の一貫した学習性能を確保するために,クロスシャープネス尺度を最小化するFlatMatchを提案する。
論文 参考訳(メタデータ) (2023-10-25T06:57:59Z) - Annotating and Detecting Fine-grained Factual Errors for Dialogue
Summarization [34.85353544844499]
本稿では,DIASUMFACTというファクトエラーアノテーションを用いた最初のデータセットを提案する。
文レベルのマルチラベル分類問題として,ファクト・ファクト・エラー検出を定義する。
事前学習したエンコーダ-デコーダモデルを用いた候補ランキングによる教師なしモデルENDERANKERを提案する。
論文 参考訳(メタデータ) (2023-05-26T00:18:33Z) - Wav2SQL: Direct Generalizable Speech-To-SQL Parsing [55.10009651476589]
Speech-to-Spider (S2Spider) は、与えられたデータベースに対する音声質問をsqlクエリに変換することを目的としている。
ケースドシステム間の誤り合成を回避した,最初の直接音声-話者パーシングモデルWav2を提案する。
実験結果から,Wav2は誤差混成を回避し,ベースラインの精度を最大2.5%向上させることで最先端の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-05-21T19:26:46Z) - Promises and Pitfalls of Threshold-based Auto-labeling [17.349289155257715]
Threshold-based auto-labeling (TBAL)
我々は,機械ラベルデータの品質を保証するために必要な人間ラベル付き検証データの量に基づいて,複雑性境界を導出する。
我々は、合成データセットと実データセットに関する広範な実験により、理論的保証を検証する。
論文 参考訳(メタデータ) (2022-11-22T22:53:17Z) - ASDOT: Any-Shot Data-to-Text Generation with Pretrained Language Models [82.63962107729994]
Any-Shot Data-to-Text (ASDOT)は、多様な設定に柔軟に適用可能な新しいアプローチである。
データ曖昧化と文の融合という2つのステップから構成される。
実験の結果, ASDOT はベースラインよりも顕著な改善が得られた。
論文 参考訳(メタデータ) (2022-10-09T19:17:43Z) - Detection Hub: Unifying Object Detection Datasets via Query Adaptation
on Language Embedding [137.3719377780593]
新しいデザイン(De Detection Hubという名前)は、データセット認識とカテゴリ整列である。
データセットの不整合を緩和し、検出器が複数のデータセットをまたいで学習するための一貫性のあるガイダンスを提供する。
データセット間のカテゴリは、ワンホットなカテゴリ表現を単語埋め込みに置き換えることで、意味的に統一された空間に整列される。
論文 参考訳(メタデータ) (2022-06-07T17:59:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。