論文の概要: Leveraging large language models for efficient representation learning for entity resolution
- arxiv url: http://arxiv.org/abs/2411.10629v1
- Date: Fri, 15 Nov 2024 23:24:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:35:53.748631
- Title: Leveraging large language models for efficient representation learning for entity resolution
- Title(参考訳): エンティティ解決のための効率的な表現学習のための大規模言語モデルを活用する
- Authors: Xiaowei Xu, Bi T. Foua, Xingqiao Wang, Vivek Gunasekaran, John R. Talburt,
- Abstract要約: TriBERTaは、エンティティマッチングのための表現を学習する教師付きエンティティ解決システムである。
提案手法は最先端の表現を3~19%のマージンで上回る。
- 参考スコア(独自算出の注目度): 2.035773073690598
- License:
- Abstract: In this paper, the authors propose TriBERTa, a supervised entity resolution system that utilizes a pre-trained large language model and a triplet loss function to learn representations for entity matching. The system consists of two steps: first, name entity records are fed into a Sentence Bidirectional Encoder Representations from Transformers (SBERT) model to generate vector representations, which are then fine-tuned using contrastive learning based on a triplet loss function. Fine-tuned representations are used as input for entity matching tasks, and the results show that the proposed approach outperforms state-of-the-art representations, including SBERT without fine-tuning and conventional Term Frequency-Inverse Document Frequency (TF-IDF), by a margin of 3 - 19%. Additionally, the representations generated by TriBERTa demonstrated increased robustness, maintaining consistently higher performance across a range of datasets. The authors also discussed the importance of entity resolution in today's data-driven landscape and the challenges that arise when identifying and reconciling duplicate data across different sources. They also described the ER process, which involves several crucial steps, including blocking, entity matching, and clustering.
- Abstract(参考訳): 本稿では,TriBERTaを提案する。TriBERTaは,事前学習された大規模言語モデルと三重項損失関数を利用して,エンティティマッチングのための表現を学習する。
まず、名前のエンティティレコードを変換器(SBERT)モデルからSentence Bidirectional Encoder Representationsに入力し、ベクトル表現を生成し、三重項損失関数に基づいたコントラスト学習を用いて微調整する。
エンティティマッチングタスクの入力として微調整表現を用いた結果,提案手法は細調整のないSBERTや従来のTF-IDF(Term Frequency-Inverse Document Frequency)など,最先端の表現よりも3~19%優れていた。
さらに、TriBERTaが生成した表現はロバスト性を高め、さまざまなデータセットにわたって一貫して高いパフォーマンスを維持した。
著者らはまた、今日のデータ駆動型ランドスケープにおけるエンティティ解決の重要性と、異なるソース間で重複したデータを識別し、調整する際に生じる課題についても論じている。
彼らはまた、ブロッキング、エンティティマッチング、クラスタリングなど、いくつかの重要なステップを含むERプロセスについても説明した。
関連論文リスト
- TriG-NER: Triplet-Grid Framework for Discontinuous Named Entity Recognition [13.490098281895877]
TriG-NERは、不連続なエンティティ抽出のための堅牢なトークンレベル表現を学習するための新しいトリプルトグリッドフレームワークである。
我々のフレームワークはトークンレベルで三重項損失を適用し、類似性は同じエンティティ内に存在するワードペアによって定義される。
3つのベンチマークDNERデータセット上でTriG-NERを評価し、既存のグリッドアーキテクチャよりも大幅に改善したことを示す。
論文 参考訳(メタデータ) (2024-11-04T06:26:09Z) - DiVA-DocRE: A Discriminative and Voice-Aware Paradigm for Document-Level Relation Extraction [0.3208888890455612]
識別・音声認識パラダイム DiVA を導入する。
私たちの革新はDocREを差別的なタスクに変換することです。
Re-DocREDおよびDocREDデータセットの実験では、DocRTEタスクの最先端の結果が示されている。
論文 参考訳(メタデータ) (2024-09-07T18:47:38Z) - A Bi-consolidating Model for Joint Relational Triple Extraction [3.972061685570092]
リレーショナルトリプルを抽出する現在の手法は、エンティティ認識に依存することなく、生文の可能なエンティティペアに基づいて直接予測を行う。
このタスクは、複数の関係三重項が文中に1つまたは2つの実体を共有するという深刻な意味的重なり合う問題に悩まされる。
関係三重関係に関連する局所的・大域的意味的特徴を同時に強化することにより、この問題に対処するバイコンソリデーションモデルを提案する。
論文 参考訳(メタデータ) (2024-04-05T04:04:23Z) - In-Context Learning for Few-Shot Nested Named Entity Recognition [53.55310639969833]
数発のネストネストNERの設定に有効で革新的なICLフレームワークを導入する。
我々は、新しい実演選択機構であるEnDe retrieverを考案し、ICLプロンプトを改善する。
EnDe検索では,意味的類似性,境界類似性,ラベル類似性という3種類の表現学習を行うために,コントラスト学習を用いる。
論文 参考訳(メタデータ) (2024-02-02T06:57:53Z) - Feature Decoupling-Recycling Network for Fast Interactive Segmentation [79.22497777645806]
近年のインタラクティブセグメンテーション手法では,入力としてソースイメージ,ユーザガイダンス,従来予測されていたマスクを反復的に取り込んでいる。
本稿では,本質的な相違点に基づいてモデリングコンポーネントを分離するFDRN(Feature Decoupling-Recycling Network)を提案する。
論文 参考訳(メタデータ) (2023-08-07T12:26:34Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - Multi-task Transformer with Relation-attention and Type-attention for
Named Entity Recognition [35.44123819012004]
名前付きエンティティ認識(NER)は自然言語処理において重要な研究課題である。
本稿では,エンティティ境界検出タスクを名前付きエンティティ認識タスクに組み込むマルチタスク変換器を提案する。
論文 参考訳(メタデータ) (2023-03-20T05:11:22Z) - AutoTriggER: Label-Efficient and Robust Named Entity Recognition with
Auxiliary Trigger Extraction [54.20039200180071]
我々は,エンティティトリガの自動生成と活用によるNER性能向上のための新しいフレームワークを提案する。
筆者らのフレームワークは,ポストホックな説明を活用して合理的な知識を生成し,埋め込み手法を用いてモデルの事前知識を強化する。
AutoTriggERは強力なラベル効率を示し、目に見えないエンティティを一般化し、RoBERTa-CRFベースラインを平均0.5F1ポイント上回る性能を持つ。
論文 参考訳(メタデータ) (2021-09-10T08:11:56Z) - Document-level Relation Extraction as Semantic Segmentation [38.614931876015625]
文書レベルの関係抽出は、文書から複数のエンティティペア間の関係を抽出することを目的としている。
本稿では,局所的およびグローバルな情報を取得するために,エンティティレベルの関係行列を予測することで,この問題に対処する。
文書レベルの関係抽出のための文書U字型ネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-07T13:44:44Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - Interpretable Entity Representations through Large-Scale Typing [61.4277527871572]
本稿では,人間の読みやすいエンティティ表現を作成し,箱から高パフォーマンスを実現する手法を提案する。
我々の表現は、微粒な実体型に対する後続確率に対応するベクトルである。
特定のドメインに対して,学習に基づく方法で,型セットのサイズを縮小できることを示す。
論文 参考訳(メタデータ) (2020-04-30T23:58:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。