論文の概要: Duplicate Detection with GenAI
- arxiv url: http://arxiv.org/abs/2406.15483v1
- Date: Mon, 17 Jun 2024 06:42:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 06:51:29.413624
- Title: Duplicate Detection with GenAI
- Title(参考訳): GenAIによる重複検出
- Authors: Ian Ormesher,
- Abstract要約: 大規模言語モデルと生成AIの最近の進歩により、重複したレコードの識別と修復が大幅に改善されることを示す。
一般的なベンチマークデータセットでは,NLP手法で30%から,提案手法で60%に改善した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Customer data is often stored as records in Customer Relations Management systems (CRMs). Data which is manually entered into such systems by one of more users over time leads to data replication, partial duplication or fuzzy duplication. This in turn means that there no longer a single source of truth for customers, contacts, accounts, etc. Downstream business processes become increasing complex and contrived without a unique mapping between a record in a CRM and the target customer. Current methods to detect and de-duplicate records use traditional Natural Language Processing techniques known as Entity Matching. In this paper we show how using the latest advancements in Large Language Models and Generative AI can vastly improve the identification and repair of duplicated records. On common benchmark datasets we find an improvement in the accuracy of data de-duplication rates from 30 percent using NLP techniques to almost 60 percent using our proposed method.
- Abstract(参考訳): 顧客データは、CRM(Customer Relations Management System)に記録として格納されることが多い。
より多くのユーザが手動でそのようなシステムに入力したデータは、データの複製、部分複製、ファジィ複製につながる。
これはつまり、顧客や連絡先、アカウントなどにとって、もはや唯一の真実の情報源が存在しないことを意味します。
下流のビジネスプロセスは複雑になり、CRMのレコードとターゲットの顧客の間のユニークなマッピングがなければ、トリビュートされます。
レコードの検出と非重複化の現在の方法は、Entity Matchingとして知られる従来の自然言語処理技術を使用している。
本稿では,大規模言語モデルと生成AIの最近の進歩により,重複したレコードの識別と修復が大幅に向上することを示す。
一般的なベンチマークデータセットでは,NLP手法で30%から,提案手法で60%に改善した。
関連論文リスト
- Fact Checking Beyond Training Set [64.88575826304024]
本稿では,レトリバーリーダが,あるドメインのラベル付きデータに基づいてトレーニングし,別のドメインで使用する場合,性能劣化に悩まされることを示す。
本稿では,レトリバー成分を分散シフトに対して頑健にするための逆アルゴリズムを提案する。
次に、これらのデータセットから8つの事実チェックシナリオを構築し、モデルと強力なベースラインモデルのセットを比較します。
論文 参考訳(メタデータ) (2024-03-27T15:15:14Z) - Relational Deep Learning: Graph Representation Learning on Relational
Databases [69.7008152388055]
複数のテーブルにまたがって配置されたデータを学ぶために、エンドツーエンドの表現アプローチを導入する。
メッセージパッシンググラフニューラルネットワークは、自動的にグラフを学習して、すべてのデータ入力を活用する表現を抽出する。
論文 参考訳(メタデータ) (2023-12-07T18:51:41Z) - EXPLAIN, EDIT, GENERATE: Rationale-Sensitive Counterfactual Data
Augmentation for Multi-hop Fact Verification [28.453817513380276]
言語学的に多様でラベルに富む対物を生成するための有理感な手法を開発した。
具体的には、多様で流動的なカウンターファクトは、Explain-Edit-Generateアーキテクチャを介して生成される。
実験の結果,提案手法はSOTAベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-23T02:39:14Z) - Record Deduplication for Entity Distribution Modeling in ASR Transcripts [0.0]
我々は、誤認識されたエンティティの95%を取得するために、レコード重複を使用します。
文脈バイアスに用いた場合,提案手法は単語誤り率の5%削減を推定する。
論文 参考訳(メタデータ) (2023-06-09T20:42:11Z) - ASPER: Answer Set Programming Enhanced Neural Network Models for Joint
Entity-Relation Extraction [11.049915720093242]
本稿では ASP-enhanced Entity-Relation extract (ASPER) という新しいアプローチを提案する。
ASPERは、データとドメインの知識の両方から学習することで、エンティティと関係を共同で認識する。
特に、ASPERはニューラルネットワークモデルの学習プロセスにおいて、事実知識(ASPで事実として表現される)と派生知識(ASPで規則として表現される)を活用する。
論文 参考訳(メタデータ) (2023-05-24T17:32:58Z) - Enhancing Multi-modal and Multi-hop Question Answering via Structured
Knowledge and Unified Retrieval-Generation [33.56304858796142]
マルチモーダルなマルチホップ質問応答は、異なるモーダルから複数の入力ソースを推論することで質問に答える。
既存の手法は、しばしば別々に証拠を検索し、その後言語モデルを使用して、得られた証拠に基づいて回答を生成する。
本稿では,これらの問題に対処するため,構造化知識と統一検索生成(RG)アプローチを提案する。
論文 参考訳(メタデータ) (2022-12-16T18:12:04Z) - Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。
検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。
検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文 参考訳(メタデータ) (2022-02-17T02:44:05Z) - Unsupervised Domain Adaptive Learning via Synthetic Data for Person
Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。
残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。
本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文 参考訳(メタデータ) (2021-09-12T15:51:41Z) - Highly Parallel Autoregressive Entity Linking with Discriminative
Correction [51.947280241185]
自己回帰リンクを全ての潜在的な言及に対して並列化する,非常に効率的な手法を提案する。
我々のモデルは以前の生成法より70倍高速で精度が高い。
論文 参考訳(メタデータ) (2021-09-08T17:28:26Z) - A Unified Deep Model of Learning from both Data and Queries for
Cardinality Estimation [28.570086492742035]
本稿では,データと問合せ作業負荷の両方から共同データ分布を学習する統合された深部自己回帰モデルUAEを提案する。
UAEは1桁の乗算誤差を尾で達成し、最先端の手法よりも精度が良く、空間も時間も効率的である。
論文 参考訳(メタデータ) (2021-07-26T16:09:58Z) - Conditioned Text Generation with Transfer for Closed-Domain Dialogue
Systems [65.48663492703557]
条件付き変分オートエンコーダを用いて,意図特化文の生成を最適に学習し,制御する方法を示す。
クエリ転送と呼ばれる新しいプロトコルを導入し、大規模で遅延のないデータセットを活用できるようにします。
論文 参考訳(メタデータ) (2020-11-03T14:06:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。