論文の概要: GraLMatch: Matching Groups of Entities with Graphs and Language Models
- arxiv url: http://arxiv.org/abs/2406.15015v1
- Date: Fri, 21 Jun 2024 09:44:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-24 13:53:51.523556
- Title: GraLMatch: Matching Groups of Entities with Graphs and Language Models
- Title(参考訳): GraLMatch: エンティティのグループとグラフと言語モデルとのマッチング
- Authors: Fernando De Meer Pardo, Claude Lehmann, Dennis Gehrig, Andrea Nagy, Stefano Nicoli, Branka Hadji Misheva, Martin Braschler, Kurt Stockinger,
- Abstract要約: 本稿では,エンドツーエンドのEntity Matching問題を提案する。
目標は、複数のデータソースから派生したレコードであるが、同じ現実世界のエンティティを表す、同じグループに割り当てることである。
擬似正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正
- 参考スコア(独自算出の注目度): 35.75564019239946
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this paper, we present an end-to-end multi-source Entity Matching problem, which we call entity group matching, where the goal is to assign to the same group, records originating from multiple data sources but representing the same real-world entity. We focus on the effects of transitively matched records, i.e. the records connected by paths in the graph G = (V,E) whose nodes and edges represent the records and whether they are a match or not. We present a real-world instance of this problem, where the challenge is to match records of companies and financial securities originating from different data providers. We also introduce two new multi-source benchmark datasets that present similar matching challenges as real-world records. A distinctive characteristic of these records is that they are regularly updated following real-world events, but updates are not applied uniformly across data sources. This phenomenon makes the matching of certain groups of records only possible through the use of transitive information. In our experiments, we illustrate how considering transitively matched records is challenging since a limited amount of false positive pairwise match predictions can throw off the group assignment of large quantities of records. Thus, we propose GraLMatch, a method that can partially detect and remove false positive pairwise predictions through graph-based properties. Finally, we showcase how fine-tuning a Transformer-based model (DistilBERT) on a reduced number of labeled samples yields a better final entity group matching than training on more samples and/or incorporating fine-tuning optimizations, illustrating how precision becomes the deciding factor in the entity group matching of large volumes of records.
- Abstract(参考訳): 本稿では,エンティティグループマッチング(エンティティグループマッチング)と呼ぶ,エンドツーエンドのマルチソースエンティティマッチング問題を提案する。
ノードとエッジがレコードを表すグラフG = (V,E) のパスで接続されたレコードと、それらが一致しているかどうかという、推移的に一致したレコードの効果に焦点を当てる。
この問題の現実的な事例として、さまざまなデータプロバイダが生み出した企業や金融証券の記録と一致させることが課題である。
また、2つの新しいマルチソースベンチマークデータセットを導入し、実際の記録と類似した課題を提示する。
これらの記録の特徴は、実際の出来事に続いて定期的に更新されるが、更新はデータソース全体にわたって均一に適用されないことである。
この現象は、推移的な情報を利用することで、特定のレコードのグループのマッチングを可能にする。
提案実験では,有意な正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正
そこで本稿では,グラフベースの特性を用いて偽陽性のペアワイズ予測を部分的に検出・除去できるGraLMatchを提案する。
最後に、ラベル付きサンプルの少ない値に対してTransformer-based model(DistilBERT)を微調整すると、より多くのサンプルのトレーニングや微調整最適化を取り入れた場合よりも、最終的なエンティティグループマッチングの精度が向上し、大量のレコードのエンティティグループマッチングにおいて精度が決定要因となることを示す。
関連論文リスト
- Entity Matching using Large Language Models [3.7277730514654555]
本稿では, PLM ベースのマーカに代わる, タスク固有の訓練データ依存モデルとして, LLM (Generative Large Language Model) を用いて検討する。
GPT4は一致判定のための構造化された説明を生成でき、一致した誤りの原因を自動的に特定できることを示す。
論文 参考訳(メタデータ) (2023-10-17T13:12:32Z) - Single-Stage Visual Relationship Learning using Conditional Queries [60.90880759475021]
TraCQは、マルチタスク学習問題とエンティティペアの分布を回避する、シーングラフ生成の新しい定式化である。
我々は,DETRをベースとしたエンコーダ-デコーダ条件付きクエリを用いて,エンティティラベル空間を大幅に削減する。
実験結果から、TraCQは既存のシングルステージシーングラフ生成法よりも優れており、Visual Genomeデータセットの最先端の2段階メソッドを多く上回っていることがわかった。
論文 参考訳(メタデータ) (2023-06-09T06:02:01Z) - GVdoc: Graph-based Visual Document Classification [17.350393956461783]
グラフに基づく文書分類モデルであるGVdocを提案する。
提案手法では,そのレイアウトに基づいて文書グラフを生成し,グラフニューラルネットワークを用いてノードとグラフの埋め込みを学習する。
パラメータが少なくても、我々のモデルは分布外データ上で最先端のモデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-05-26T19:23:20Z) - Does Recommend-Revise Produce Reliable Annotations? An Analysis on
Missing Instances in DocRED [60.39125850987604]
テキスト修正方式は, 偽陰性サンプルと, 人気エンティティや関係性に対する明らかな偏見をもたらすことを示す。
より信頼性の高いドキュメントREモデルのテストセットとして機能するように、relabeledデータセットがリリースされている。
論文 参考訳(メタデータ) (2022-04-17T11:29:01Z) - Towards Group Robustness in the presence of Partial Group Labels [61.33713547766866]
入力サンプルとターゲットラベルの間に 急激な相関関係がある ニューラルネットワークの予測を誤った方向に導く
本稿では,制約セットから最悪のグループ割り当てを最適化するアルゴリズムを提案する。
グループ間で総合的な集計精度を維持しつつ,少数集団のパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2022-01-10T22:04:48Z) - Unsupervised Matching of Data and Text [6.2520079463149205]
テキストコンテンツと構造化データとを教師なし設定でマッチングするフレームワークを導入する。
提案手法は,コーパスの内容に対して微細なグラフを構築し,低次元空間で一致する対象を表現するために単語埋め込みを導出する。
実使用事例と公開データセットの実験により、我々のフレームワークは単語埋め込みや微調整言語モデルよりも優れた埋め込みを生成することが示された。
論文 参考訳(メタデータ) (2021-12-16T10:40:48Z) - Ranking Models in Unlabeled New Environments [74.33770013525647]
ラベルのない新しい環境におけるランキングモデルの問題を紹介する。
1)完全にラベル付けされたプロキシデータセットを使用し、2)所定のターゲット環境での真のモデルランキングをよく反映します。
具体的には、ラベル付けされていないターゲットドメインに近いデータセットは、相対的なパフォーマンスランキングをよりよく保存する。
論文 参考訳(メタデータ) (2021-08-23T17:57:15Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z) - Supervised machine learning techniques for data matching based on
similarity metrics [0.0]
データマッチングは、同じ現実世界のエンティティを参照するデータのインスタンスを識別しようとするフィールドである。
本研究では,データマッチングの分野と文字列類似性関数を組み合わせた機械学習手法を提案する。
この性能は、FISCAL Technologiesのソリューションを、現在利用可能な重複解に対するベンチマークとして比較した。
論文 参考訳(メタデータ) (2020-07-08T10:04:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。