論文の概要: Supervised machine learning techniques for data matching based on
similarity metrics
- arxiv url: http://arxiv.org/abs/2007.04001v2
- Date: Wed, 15 Sep 2021 12:46:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-12 12:47:23.851733
- Title: Supervised machine learning techniques for data matching based on
similarity metrics
- Title(参考訳): 類似度メトリクスに基づくデータマッチングのための教師付き機械学習手法
- Authors: Pim Verschuuren, Serena Palazzo, Tom Powell, Steve Sutton, Alfred
Pilgrim, Michele Faucci Giannelli
- Abstract要約: データマッチングは、同じ現実世界のエンティティを参照するデータのインスタンスを識別しようとするフィールドである。
本研究では,データマッチングの分野と文字列類似性関数を組み合わせた機械学習手法を提案する。
この性能は、FISCAL Technologiesのソリューションを、現在利用可能な重複解に対するベンチマークとして比較した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Businesses, governmental bodies and NGO's have an ever-increasing amount of
data at their disposal from which they try to extract valuable information.
Often, this needs to be done not only accurately but also within a short time
frame. Clean and consistent data is therefore crucial. Data matching is the
field that tries to identify instances in data that refer to the same
real-world entity. In this study, machine learning techniques are combined with
string similarity functions to the field of data matching. A dataset of
invoices from a variety of businesses and organizations was preprocessed with a
grouping scheme to reduce pair dimensionality and a set of similarity functions
was used to quantify similarity between invoice pairs. The resulting invoice
pair dataset was then used to train and validate a neural network and a boosted
decision tree. The performance was compared with a solution from FISCAL
Technologies as a benchmark against currently available deduplication
solutions. Both the neural network and boosted decision tree showed equal to
better performance.
- Abstract(参考訳): 企業、政府機関、ngoは、価値ある情報を引き出すために、自由に利用できるデータの量が増え続けている。
多くの場合、これは正確に行うだけでなく、短い時間枠内で行う必要がある。
したがって、クリーンで一貫性のあるデータが重要である。
データマッチングは、同じ現実世界のエンティティを参照するデータのインスタンスを識別しようとするフィールドである。
本研究では,機械学習手法と,データマッチングの分野における文字列類似度関数を組み合わせる。
様々な企業や組織からの請求書のデータセットを、ペア次元を減らすためのグループ化スキームで前処理し、請求書ペア間の類似度を定量化するために一連の類似度関数を用いた。
結果として得られたインボイスペアデータセットは、ニューラルネットワークと強化された決定ツリーのトレーニングと検証に使用される。
この性能は、FISCAL Technologiesのソリューションを、現在利用可能な重複解に対するベンチマークとして比較した。
ニューラルネットワークとboosted decision treeの両方が、よりよいパフォーマンスを示している。
関連論文リスト
- Approaching Metaheuristic Deep Learning Combos for Automated Data Mining [0.5419570023862531]
本研究では,メタヒューリスティック手法を従来の分類器やニューラルネットワークと組み合わせて自動データマイニングを行う手法を提案する。
手書き文字認識のためのMNISTデータセットの実験を行った。
根拠真理ラベル付きデータセットの検証精度は、これまで見つからなかった他のデータインスタンスのラベルを修正するのに不十分である、という実証的な観察がなされた。
論文 参考訳(メタデータ) (2024-10-16T10:28:22Z) - Scaling Laws for Data Filtering -- Data Curation cannot be Compute Agnostic [99.3682210827572]
ビジョン言語モデル(VLM)は、慎重にキュレートされたWebデータセット上で数千のGPU時間でトレーニングされる。
データキュレーション戦略は通常、トレーニングに利用可能な計算を知らないように開発されている。
ウェブデータの非均一性を考慮したニューラルスケーリング法則を導入する。
論文 参考訳(メタデータ) (2024-04-10T17:27:54Z) - Fact Checking Beyond Training Set [64.88575826304024]
本稿では,レトリバーリーダが,あるドメインのラベル付きデータに基づいてトレーニングし,別のドメインで使用する場合,性能劣化に悩まされることを示す。
本稿では,レトリバー成分を分散シフトに対して頑健にするための逆アルゴリズムを提案する。
次に、これらのデータセットから8つの事実チェックシナリオを構築し、モデルと強力なベースラインモデルのセットを比較します。
論文 参考訳(メタデータ) (2024-03-27T15:15:14Z) - LAVA: Data Valuation without Pre-Specified Learning Algorithms [20.578106028270607]
我々は、下流学習アルゴリズムに不利な方法でトレーニングデータを評価できる新しいフレームワークを導入する。
本研究では,訓練と検証セット間の非伝統的なクラスワイドワッサースタイン距離に基づいて,トレーニングセットに関連する検証性能のプロキシを開発する。
距離は、特定のリプシッツ条件下での任意のモデルに対する検証性能の上限を特徴付けることを示す。
論文 参考訳(メタデータ) (2023-04-28T19:05:16Z) - Personalized Decentralized Multi-Task Learning Over Dynamic
Communication Graphs [59.96266198512243]
本稿では,正と負の相関関係を持つタスクに対する分散・フェデレーション学習アルゴリズムを提案する。
本アルゴリズムでは,タスク間の相関関係を自動的に計算し,コミュニケーショングラフを動的に調整して相互に有益なタスクを接続し,互いに悪影響を及ぼす可能性のあるタスクを分離する。
合成ガウスデータセットと大規模セレブ属性(CelebA)データセットについて実験を行った。
論文 参考訳(メタデータ) (2022-12-21T18:58:24Z) - Towards Similarity-Aware Time-Series Classification [51.2400839966489]
時系列データマイニングの基本課題である時系列分類(TSC)について検討する。
グラフニューラルネットワーク(GNN)を用いて類似情報をモデル化するフレームワークであるSimTSCを提案する。
論文 参考訳(メタデータ) (2022-01-05T02:14:57Z) - Aggregation Delayed Federated Learning [20.973999078271483]
フェデレーション学習(Federated Learning)は、複数のデータ所有者(クライアント)が、自身のデバイスにデータを保持しながら、ひとつのマシンラーニングモデルを協調的にトレーニングする分散機械学習パラダイムである。
非IIDデータ上では、FedAvgのような標準フェデレーションアルゴリズムによる性能低下が報告されている。
非IIDデータを扱うための多くの既存の作業は、FedAvgと同じ集約フレームワークを採用し、サーバ側またはクライアントでモデル更新を改善することに重点を置いている。
本研究では, 集約を遅らせる再分配ラウンドを導入することで, この課題に取り組み, 複数タスクの実験を行い, 提案したフレームワークが非IIDの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-08-17T04:06:10Z) - Category-Learning with Context-Augmented Autoencoder [63.05016513788047]
実世界のデータの解釈可能な非冗長表現を見つけることは、機械学習の鍵となる問題の一つである。
本稿では,オートエンコーダのトレーニングにデータ拡張を利用する新しい手法を提案する。
このような方法で変分オートエンコーダを訓練し、補助ネットワークによって変換結果を予測できるようにする。
論文 参考訳(メタデータ) (2020-10-10T14:04:44Z) - Learning to Match Jobs with Resumes from Sparse Interaction Data using
Multi-View Co-Teaching Network [83.64416937454801]
ジョブ列のインタラクションデータは疎結合でノイズが多く、ジョブ列のマッチングアルゴリズムのパフォーマンスに影響する。
求人情報マッチングのための疎相互作用データから,新しいマルチビュー協調学習ネットワークを提案する。
我々のモデルは求人マッチングの最先端手法より優れている。
論文 参考訳(メタデータ) (2020-09-25T03:09:54Z) - Data Separability for Neural Network Classifiers and the Development of
a Separability Index [17.49709034278995]
データセットの分離性を測定するために、DSI(Distance-based Separability Index)を作成しました。
DSIは、異なるクラスに属するデータに類似した分布があるかどうかを示す。
また、データサイエンス、機械学習、ディープラーニングの分野におけるDSIの応用の可能性についても論じている。
論文 参考訳(メタデータ) (2020-05-27T01:49:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。