Fugu-MT 論文翻訳(概要): RetClean: Retrieval-Based Data Cleaning Using Foundation Models and Data Lakes

論文の概要: RetClean: Retrieval-Based Data Cleaning Using Foundation Models and Data Lakes

arxiv url: http://arxiv.org/abs/2303.16909v1
Date: Wed, 29 Mar 2023 08:06:22 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-31 15:40:23.042907
Title: RetClean: Retrieval-Based Data Cleaning Using Foundation Models and Data Lakes
Title（参考訳）: retclean:基盤モデルとデータレイクを用いた検索ベースのデータクリーニング
Authors: Mohammad Shahmeer Ahmad, Zan Ahmad Naeem, Mohamed Eltabakh, Mourad Ouzzani, Nan Tang
Abstract要約: ChatGPTは、データテーブル内の特定のセルの修正を提案することで、データのクリーニングを支援することができる。ユーザが提供するデータレイクを用いてChatGPTのパワーを補完する検索手法を開発した。提案システムであるRetCleanは,3つのシナリオをシームレスにサポートし,ユーザフレンドリなGUIを提供する。
参考スコア（独自算出の注目度）: 14.172545677715515
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Can foundation models (such as ChatGPT) clean your data? In this proposal, we demonstrate that indeed ChatGPT can assist in data cleaning by suggesting corrections for specific cells in a data table (scenario 1). However, ChatGPT may struggle with datasets it has never encountered before (e.g., local enterprise data) or when the user requires an explanation of the source of the suggested clean values. To address these issues, we developed a retrieval-based method that complements ChatGPT's power with a user-provided data lake. The data lake is first indexed, we then retrieve the top-k relevant tuples to the user's query tuple and finally leverage ChatGPT to infer the correct value (scenario 2). Nevertheless, sharing enterprise data with ChatGPT, an externally hosted model, might not be feasible for privacy reasons. To assist with this scenario, we developed a custom RoBERTa-based foundation model that can be locally deployed. By fine-tuning it on a small number of examples, it can effectively make value inferences based on the retrieved tuples (scenario 3). Our proposed system, RetClean, seamlessly supports all three scenarios and provides a user-friendly GUI that enables the VLDB audience to explore and experiment with the system.
Abstract（参考訳）: 基礎モデル(ChatGPTなど)はデータをクリーンにできますか? 本稿では,ChatGPTがデータテーブル(scenario 1)内の特定のセルの修正を提案することによって,データのクリーニングを支援することを示す。しかしChatGPTは、これまで遭遇したことのないデータセット(例えば、ローカルなエンタープライズデータ)や、ユーザーが提案されたクリーンな値のソースを説明する必要がある場合に苦労する可能性がある。そこで我々は,ChatGPTのパワーをユーザが提供するデータレイクで補完する検索手法を開発した。データレイクはまずインデックス化され、トップkの関連するタプルをユーザのクエリタプルに取得し、最後にChatGPTを利用して正しい値(scenario 2)を推測します。それでも、外部ホストモデルであるchatgptとエンタープライズデータを共有することは、プライバシの理由から実現不可能かもしれない。このシナリオを支援するために,ローカルにデプロイ可能なRoBERTaベースのファンデーションモデルを開発した。少数の例で微調整することで、取得したタプル(scenario 3)に基づいて価値推論を効果的に行うことができる。提案するシステムであるretcleanは,3つのシナリオをシームレスにサポートし,vldbのオーディエンスによるシステム探索と実験を可能にするユーザフレンドリなguiを提供する。

関連論文リスト

GraphRAFT: Retrieval Augmented Fine-Tuning for Knowledge Graphs on Graph Databases [0.0]
GraphRAFTは、LCMを微調整して、確実に正しいCypherクエリを生成する、検索と推論のためのフレームワークである。本手法は,自然グラフDBに格納された知識グラフを用いて,棚から取り出すことができる最初の方法である。
論文参考訳（メタデータ） (2025-04-07T20:16:22Z)
REFORMER: A ChatGPT-Driven Data Synthesis Framework Elevating Text-to-SQL Models [11.463438573648297]
本稿では,ChatGPTの能力を活用するフレームワークであるREFORMERを提案する。我々のデータ拡張アプローチは、マスク付き質問を埋めて新しい質問を生成する「検索と編集」手法に基づいている。以上の結果から,ChatGPTが生成したパラフレージング質問が元のデータを増やすのに有効であることが確認された。
論文参考訳（メタデータ） (2025-04-06T05:27:37Z)
Guiding ChatGPT to Generate Salient Domain Summaries [7.845567659176864]
PADS は textbfPipeline で textbfDomain textbfSummarization で ChatGPT をサポートする。
論文参考訳（メタデータ） (2024-06-03T07:42:45Z)
An Integrated Data Processing Framework for Pretraining Foundation Models [57.47845148721817]
研究者や実践者は、しばしば異なるソースからデータセットを手動でキュレートする必要がある。本稿では,処理モジュールと解析モジュールを統合したデータ処理フレームワークを提案する。提案されたフレームワークは使いやすく、柔軟です。
論文参考訳（メタデータ） (2024-02-26T07:22:51Z)
Reinforcement Learning for Optimizing RAG for Domain Chatbots [4.12484724941528]
本稿では,FAQ(Frequently Asked Questions)データを用いて,ユーザの質問に回答するボットを構築するためのRAGベースのアプローチについて述べる。我々はインフォメーションNCE損失を用いた社内検索埋め込みモデルをトレーニングし、実験結果から、インフォメーションモデルがよく知られた汎用的な公開埋め込みモデルよりもはるかにうまく機能することを実証した。本稿では、ポリシーアクションを通じてRAGパイプラインと対話し、コストを最適化するためにポリシーを更新するRAG外部ポリシーベースのモデルを提案する。
論文参考訳（メタデータ） (2024-01-10T02:57:20Z)
QUADRo: Dataset and Models for QUestion-Answer Database Retrieval [97.84448420852854]
質問/回答(q/a)ペアのデータベース(DB)が与えられた場合、同じ質問に対してDBをスキャンすることで、対象の質問に答えることができる。我々は6.3Mのq/aペアからなる大規模DBを構築し、公開質問を用いて、ニューラルIRとq/aペアリランカに基づく新しいシステムを設計する。我々は、Bing検索エンジン上に構築されたQAシステムという、Webベースの手法とDBベースのアプローチが競合することを示す。
論文参考訳（メタデータ） (2023-03-30T00:42:07Z)
AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [98.11286353828525]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。本稿では,2段階のアプローチを取り入れたAnnoLLMを提案する。我々はAnnoLLMを用いた対話型情報検索データセットを構築した。
論文参考訳（メタデータ） (2023-03-29T17:03:21Z)
A comprehensive evaluation of ChatGPT's zero-shot Text-to-SQL capability [57.71052396828714]
本稿では,ChatGPTのテキスト・トゥ・アビリティの最初の包括的分析について述べる。異なる言語、設定、シナリオを持つ12のベンチマークデータセットで実験を行った。現在のSOTA(State-of-the-art)モデルのパフォーマンスとはまだ差があるが、ChatGPTのパフォーマンスは印象的だ。
論文参考訳（メタデータ） (2023-03-12T04:22:01Z)
KGPT: Knowledge-Grounded Pre-Training for Data-to-Text Generation [100.79870384880333]
知識に富んだテキストを生成するための知識基盤事前学習(KGPT)を提案する。我々は、その効果を評価するために、3つの設定、すなわち、完全教師付き、ゼロショット、少数ショットを採用します。ゼロショット設定では、WebNLG上で30 ROUGE-L以上を達成するが、他の全てのベースラインは失敗する。
論文参考訳（メタデータ） (2020-10-05T19:59:05Z)
PClean: Bayesian Data Cleaning at Scale with Domain-Specific Probabilistic Programming [65.88506015656951]
我々は、データセット固有の知識を活用して汚いデータのクリーン化と正規化を行う確率的プログラミング言語であるPCleanを提案する。 PCleanは、(1)確率的プログラムでカスタマイズ可能なリレーショナルデータベースインスタンスの非パラメトリックモデル、(2)モデルの構造を利用するシーケンシャルなモンテカルロ推論アルゴリズム、(3)ほぼ最適のSMC提案とブロックされたギブス再構成の3つのモデルと推論コントリビューションを利用している。
論文参考訳（メタデータ） (2020-07-23T08:01:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。