論文の概要: RetClean: Retrieval-Based Data Cleaning Using Foundation Models and Data
Lakes
- arxiv url: http://arxiv.org/abs/2303.16909v1
- Date: Wed, 29 Mar 2023 08:06:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-31 15:40:23.042907
- Title: RetClean: Retrieval-Based Data Cleaning Using Foundation Models and Data
Lakes
- Title(参考訳): retclean:基盤モデルとデータレイクを用いた検索ベースのデータクリーニング
- Authors: Mohammad Shahmeer Ahmad, Zan Ahmad Naeem, Mohamed Eltabakh, Mourad
Ouzzani, Nan Tang
- Abstract要約: ChatGPTは、データテーブル内の特定のセルの修正を提案することで、データのクリーニングを支援することができる。
ユーザが提供するデータレイクを用いてChatGPTのパワーを補完する検索手法を開発した。
提案システムであるRetCleanは,3つのシナリオをシームレスにサポートし,ユーザフレンドリなGUIを提供する。
- 参考スコア(独自算出の注目度): 14.172545677715515
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Can foundation models (such as ChatGPT) clean your data? In this proposal, we
demonstrate that indeed ChatGPT can assist in data cleaning by suggesting
corrections for specific cells in a data table (scenario 1). However, ChatGPT
may struggle with datasets it has never encountered before (e.g., local
enterprise data) or when the user requires an explanation of the source of the
suggested clean values. To address these issues, we developed a retrieval-based
method that complements ChatGPT's power with a user-provided data lake. The
data lake is first indexed, we then retrieve the top-k relevant tuples to the
user's query tuple and finally leverage ChatGPT to infer the correct value
(scenario 2). Nevertheless, sharing enterprise data with ChatGPT, an externally
hosted model, might not be feasible for privacy reasons. To assist with this
scenario, we developed a custom RoBERTa-based foundation model that can be
locally deployed. By fine-tuning it on a small number of examples, it can
effectively make value inferences based on the retrieved tuples (scenario 3).
Our proposed system, RetClean, seamlessly supports all three scenarios and
provides a user-friendly GUI that enables the VLDB audience to explore and
experiment with the system.
- Abstract(参考訳): 基礎モデル(ChatGPTなど)はデータをクリーンにできますか?
本稿では,ChatGPTがデータテーブル(scenario 1)内の特定のセルの修正を提案することによって,データのクリーニングを支援することを示す。
しかしChatGPTは、これまで遭遇したことのないデータセット(例えば、ローカルなエンタープライズデータ)や、ユーザーが提案されたクリーンな値のソースを説明する必要がある場合に苦労する可能性がある。
そこで我々は,ChatGPTのパワーをユーザが提供するデータレイクで補完する検索手法を開発した。
データレイクはまずインデックス化され、トップkの関連するタプルをユーザのクエリタプルに取得し、最後にChatGPTを利用して正しい値(scenario 2)を推測します。
それでも、外部ホストモデルであるchatgptとエンタープライズデータを共有することは、プライバシの理由から実現不可能かもしれない。
このシナリオを支援するために,ローカルにデプロイ可能なRoBERTaベースのファンデーションモデルを開発した。
少数の例で微調整することで、取得したタプル(scenario 3)に基づいて価値推論を効果的に行うことができる。
提案するシステムであるretcleanは,3つのシナリオをシームレスにサポートし,vldbのオーディエンスによるシステム探索と実験を可能にするユーザフレンドリなguiを提供する。
関連論文リスト
- Guiding ChatGPT to Generate Salient Domain Summaries [7.845567659176864]
PADS は textbfPipeline で textbfDomain textbfSummarization で ChatGPT をサポートする。
論文 参考訳(メタデータ) (2024-06-03T07:42:45Z) - An Integrated Data Processing Framework for Pretraining Foundation Models [57.47845148721817]
研究者や実践者は、しばしば異なるソースからデータセットを手動でキュレートする必要がある。
本稿では,処理モジュールと解析モジュールを統合したデータ処理フレームワークを提案する。
提案されたフレームワークは使いやすく、柔軟です。
論文 参考訳(メタデータ) (2024-02-26T07:22:51Z) - Reinforcement Learning for Optimizing RAG for Domain Chatbots [4.12484724941528]
本稿では,FAQ(Frequently Asked Questions)データを用いて,ユーザの質問に回答するボットを構築するためのRAGベースのアプローチについて述べる。
我々はインフォメーションNCE損失を用いた社内検索埋め込みモデルをトレーニングし、実験結果から、インフォメーションモデルがよく知られた汎用的な公開埋め込みモデルよりもはるかにうまく機能することを実証した。
本稿では、ポリシーアクションを通じてRAGパイプラインと対話し、コストを最適化するためにポリシーを更新するRAG外部ポリシーベースのモデルを提案する。
論文 参考訳(メタデータ) (2024-01-10T02:57:20Z) - QUADRo: Dataset and Models for QUestion-Answer Database Retrieval [97.84448420852854]
質問/回答(q/a)ペアのデータベース(DB)が与えられた場合、同じ質問に対してDBをスキャンすることで、対象の質問に答えることができる。
我々は6.3Mのq/aペアからなる大規模DBを構築し、公開質問を用いて、ニューラルIRとq/aペアリランカに基づく新しいシステムを設計する。
我々は、Bing検索エンジン上に構築されたQAシステムという、Webベースの手法とDBベースのアプローチが競合することを示す。
論文 参考訳(メタデータ) (2023-03-30T00:42:07Z) - AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [98.11286353828525]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。
本稿では,2段階のアプローチを取り入れたAnnoLLMを提案する。
我々はAnnoLLMを用いた対話型情報検索データセットを構築した。
論文 参考訳(メタデータ) (2023-03-29T17:03:21Z) - A comprehensive evaluation of ChatGPT's zero-shot Text-to-SQL capability [57.71052396828714]
本稿では,ChatGPTのテキスト・トゥ・アビリティの最初の包括的分析について述べる。
異なる言語、設定、シナリオを持つ12のベンチマークデータセットで実験を行った。
現在のSOTA(State-of-the-art)モデルのパフォーマンスとはまだ差があるが、ChatGPTのパフォーマンスは印象的だ。
論文 参考訳(メタデータ) (2023-03-12T04:22:01Z) - KGPT: Knowledge-Grounded Pre-Training for Data-to-Text Generation [100.79870384880333]
知識に富んだテキストを生成するための知識基盤事前学習(KGPT)を提案する。
我々は、その効果を評価するために、3つの設定、すなわち、完全教師付き、ゼロショット、少数ショットを採用します。
ゼロショット設定では、WebNLG上で30 ROUGE-L以上を達成するが、他の全てのベースラインは失敗する。
論文 参考訳(メタデータ) (2020-10-05T19:59:05Z) - PClean: Bayesian Data Cleaning at Scale with Domain-Specific
Probabilistic Programming [65.88506015656951]
我々は、データセット固有の知識を活用して汚いデータのクリーン化と正規化を行う確率的プログラミング言語であるPCleanを提案する。
PCleanは、(1)確率的プログラムでカスタマイズ可能なリレーショナルデータベースインスタンスの非パラメトリックモデル、(2)モデルの構造を利用するシーケンシャルなモンテカルロ推論アルゴリズム、(3)ほぼ最適のSMC提案とブロックされたギブス再構成の3つのモデルと推論コントリビューションを利用している。
論文 参考訳(メタデータ) (2020-07-23T08:01:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。