論文の概要: Interpretable and Low-Resource Entity Matching via Decoupling Feature
Learning from Decision Making
- arxiv url: http://arxiv.org/abs/2106.04174v1
- Date: Tue, 8 Jun 2021 08:27:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-09 16:21:08.170725
- Title: Interpretable and Low-Resource Entity Matching via Decoupling Feature
Learning from Decision Making
- Title(参考訳): 機能学習と意思決定の分離による解釈可能で低リソースなエンティティマッチング
- Authors: Zijun Yao, Chengjiang Li, Tiansi Dong, Xin Lv, Jifan Yu, Lei Hou,
Juanzi Li, Yichi Zhang, Zelin Dai
- Abstract要約: Entity Matchingは、同じ現実世界のオブジェクトを表すエンティティレコードを認識することを目的としている。
異種情報融合(HIF)とキー属性ツリー(KAT)誘導からなる新しいEMフレームワークを提案する。
提案手法は効率が高く,ほとんどの場合SOTA EMモデルより優れている。
- 参考スコア(独自算出の注目度): 22.755892575582788
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Entity Matching (EM) aims at recognizing entity records that denote the same
real-world object. Neural EM models learn vector representation of entity
descriptions and match entities end-to-end. Though robust, these methods
require many resources for training, and lack of interpretability. In this
paper, we propose a novel EM framework that consists of Heterogeneous
Information Fusion (HIF) and Key Attribute Tree (KAT) Induction to decouple
feature representation from matching decision. Using self-supervised learning
and mask mechanism in pre-trained language modeling, HIF learns the embeddings
of noisy attribute values by inter-attribute attention with unlabeled data.
Using a set of comparison features and a limited amount of annotated data, KAT
Induction learns an efficient decision tree that can be interpreted by
generating entity matching rules whose structure is advocated by domain
experts. Experiments on 6 public datasets and 3 industrial datasets show that
our method is highly efficient and outperforms SOTA EM models in most cases.
Our codes and datasets can be obtained from https://github.com/THU-KEG/HIF-KAT.
- Abstract(参考訳): エンティティマッチング(EM)は、同じ現実世界のオブジェクトを表すエンティティレコードを認識することを目的としている。
ニューラルEMモデルは、エンティティ記述のベクトル表現を学び、エンティティをエンドツーエンドにマッチングする。
堅牢ではあるが、これらの手法はトレーニングに多くのリソースを必要とする。
本稿では,不均質情報融合(hif)とキー属性木(kat)の誘導により特徴表現をマッチング決定から切り離す新しいemフレームワークを提案する。
HIFは,事前学習言語モデリングにおける自己教師付き学習とマスク機構を用いて,非ラベル付きデータによる属性値の埋め込み学習を行う。
一連の比較特徴と限られた量の注釈データを用いて、kat誘導はドメインエキスパートによって提唱される構造を持つエンティティマッチングルールを生成して解釈できる効率的な決定木を学習する。
6つの公開データセットと3つの産業データセットの実験により、我々の手法は極めて効率的であり、ほとんどの場合、SOTA EMモデルより優れていることが示された。
コードとデータセットはhttps://github.com/THU-KEG/HIF-KATから取得できます。
関連論文リスト
- Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - Hybrid Multi-stage Decoding for Few-shot NER with Entity-aware Contrastive Learning [32.62763647036567]
名前付きエンティティ認識は、ラベル付けされたいくつかの例に基づいて、新しいタイプの名前付きエンティティを識別できる。
MsFNER(Entity-Aware Contrastive Learning)を用いたFew-shot NERのためのハイブリッド多段復号法を提案する。
MsFNERは一般的なNERを、エンティティスパン検出とエンティティ分類の2つのステージに分割する。
論文 参考訳(メタデータ) (2024-04-10T12:31:09Z) - Learning to Extract Structured Entities Using Language Models [52.281701191329]
機械学習の最近の進歩は、情報抽出の分野に大きな影響を与えている。
タスクをエンティティ中心にすることで、さまざまなメトリクスの使用を可能にします。
我々は、Structured Entity extractを導入し、Adroximate Entity Set OverlaPメトリックを提案し、この分野にコントリビュートします。
論文 参考訳(メタデータ) (2024-02-06T22:15:09Z) - Two Heads Are Better Than One: Integrating Knowledge from Knowledge
Graphs and Large Language Models for Entity Alignment [31.70064035432789]
LLMEA(Large Language Model-enhanced Entity Alignment Framework)を提案する。
LLMEAは、知識グラフにまたがるエンティティ間の類似性を埋め込んだり、仮想の等価エンティティとの距離を編集することで、特定のエンティティの候補アライメントを識別する。
3つの公開データセットで実施された実験により、LLMEAが主要なベースラインモデルを上回ることが判明した。
論文 参考訳(メタデータ) (2024-01-30T12:41:04Z) - EchoEA: Echo Information between Entities and Relations for Entity
Alignment [1.1470070927586016]
本稿では,エンティティ情報を関係に拡散し,エンティティにエコーバックする自己認識機構を活用した新しいフレームワーク Echo Entity Alignment (EchoEA) を提案する。
3つの実世界のクロスランガルデータセットの実験結果は、平均して96%で安定している。
論文 参考訳(メタデータ) (2021-07-07T07:34:21Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。
提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。
分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文 参考訳(メタデータ) (2020-11-13T10:53:27Z) - Exploring and Evaluating Attributes, Values, and Structures for Entity
Alignment [100.19568734815732]
エンティティアライメント(EA)は、さまざまなKGから等価なエンティティをリンクすることで、リッチコンテンツの統合知識グラフ(KG)を構築することを目的としている。
属性・トリプルは重要なアライメント信号も提供できますが、まだ十分に調査されていません。
本稿では,属性値エンコーダを用いてKGをサブグラフに分割し,属性の様々なタイプを効率的にモデル化することを提案する。
論文 参考訳(メタデータ) (2020-10-07T08:03:58Z) - Interpretable Entity Representations through Large-Scale Typing [61.4277527871572]
本稿では,人間の読みやすいエンティティ表現を作成し,箱から高パフォーマンスを実現する手法を提案する。
我々の表現は、微粒な実体型に対する後続確率に対応するベクトルである。
特定のドメインに対して,学習に基づく方法で,型セットのサイズを縮小できることを示す。
論文 参考訳(メタデータ) (2020-04-30T23:58:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。