論文の概要: KAER: A Knowledge Augmented Pre-Trained Language Model for Entity
Resolution
- arxiv url: http://arxiv.org/abs/2301.04770v1
- Date: Thu, 12 Jan 2023 00:15:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-13 14:01:38.308135
- Title: KAER: A Knowledge Augmented Pre-Trained Language Model for Entity
Resolution
- Title(参考訳): kaer: エンティティ解決のための知識強化事前学習言語モデル
- Authors: Liri Fang, Lan Li, Yiren Liu, Vetle I. Torvik, Bertram Lud\"ascher
- Abstract要約: 本稿では,事前学習された言語モデルに,エンティティ解決のための外部知識を付加した新しいフレームワークを提案する。
我々のモデルは、既存の最先端エンティティ解決手法であるDittoを改善している。
- 参考スコア(独自算出の注目度): 0.6284767263654553
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Entity resolution has been an essential and well-studied task in data
cleaning research for decades. Existing work has discussed the feasibility of
utilizing pre-trained language models to perform entity resolution and achieved
promising results. However, few works have discussed injecting domain knowledge
to improve the performance of pre-trained language models on entity resolution
tasks. In this study, we propose Knowledge Augmented Entity Resolution (KAER),
a novel framework named for augmenting pre-trained language models with
external knowledge for entity resolution. We discuss the results of utilizing
different knowledge augmentation and prompting methods to improve entity
resolution performance. Our model improves on Ditto, the existing
state-of-the-art entity resolution method. In particular, 1) KAER performs more
robustly and achieves better results on "dirty data", and 2) with more general
knowledge injection, KAER outperforms the existing baseline models on the
textual dataset and dataset from the online product domain. 3) KAER achieves
competitive results on highly domain-specific datasets, such as citation
datasets, requiring the injection of expert knowledge in future work.
- Abstract(参考訳): エンティティの解決は、何十年にもわたってデータクリーニング研究において重要かつよく研究されてきたタスクです。
既存の研究は、事前訓練された言語モデルを用いてエンティティの解決を行い、有望な結果が得られる可能性について論じてきた。
しかし、エンティティ解決タスクで事前学習された言語モデルのパフォーマンスを改善するためにドメイン知識の注入を議論した作品はほとんどない。
本研究では,事前学習した言語モデルに,エンティティ解決のための外部知識を付加した新しいフレームワークであるKnowledge Augmented Entity Resolution (KAER)を提案する。
本稿では,異なる知識の強化と実体分解能向上のための手法の活用について論じる。
我々のモデルは、既存の最先端エンティティ解決手法であるDittoを改善している。
特に
1) KAERはより堅牢に動作し、"汚れデータ"のより良い結果を得る。
2) より一般的な知識注入により、kaerはオンライン製品ドメインのテキストデータセットとデータセットの既存のベースラインモデルを上回る。
3) KAERは,引用データセットなどの高ドメイン固有のデータセットに対して,将来的な作業において専門家の知識を注入する必要がある競争結果を達成する。
関連論文リスト
- An Active Learning Framework for Inclusive Generation by Large Language Models [32.16984263644299]
大規模言語モデル(LLM)は、多様なサブ集団を表すテキストを生成する。
本稿では,知識蒸留により強化されたクラスタリングに基づくアクティブラーニングフレームワークを提案する。
2つの新しいデータセットをモデルトレーニングと組み合わせて構築し、ベースラインモデルよりも2%-10%の性能向上を示した。
論文 参考訳(メタデータ) (2024-10-17T15:09:35Z) - Evolving Knowledge Distillation with Large Language Models and Active
Learning [46.85430680828938]
大規模言語モデル(LLM)は、様々なNLPタスクにまたがる顕著な機能を示している。
従来の研究は、注釈付きデータを生成してLPMの知識をより小さなモデルに抽出しようと試みてきた。
EvoKD: Evolving Knowledge Distillationを提案する。これは、アクティブラーニングの概念を利用して、大規模言語モデルを用いたデータ生成のプロセスをインタラクティブに強化する。
論文 参考訳(メタデータ) (2024-03-11T03:55:24Z) - Learning to Extract Structured Entities Using Language Models [52.281701191329]
機械学習の最近の進歩は、情報抽出の分野に大きな影響を与えている。
タスクをエンティティ中心にすることで、さまざまなメトリクスの使用を可能にします。
我々は、Structured Entity extractを導入し、Adroximate Entity Set OverlaPメトリックを提案し、この分野にコントリビュートします。
論文 参考訳(メタデータ) (2024-02-06T22:15:09Z) - Capture the Flag: Uncovering Data Insights with Large Language Models [90.47038584812925]
本研究では,Large Language Models (LLMs) を用いてデータの洞察の発見を自動化する可能性について検討する。
そこで本稿では,データセット内の意味的かつ関連する情報(フラグ)を識別する能力を測定するために,フラグを捕捉する原理に基づく新しい評価手法を提案する。
論文 参考訳(メタデータ) (2023-12-21T14:20:06Z) - KITLM: Domain-Specific Knowledge InTegration into Language Models for
Question Answering [30.129418454426844]
大規模言語モデル(LLM)は、幅広い自然言語処理において顕著な性能を示した。
関連情報注入による言語モデルへの知識ベース統合手法であるKITLMを提案する。
提案手法は,GPT-3.5-turbo と最先端知識注入法 SKILL を併用し,MetaQA 上での精度の1.5倍の精度向上を実現している。
論文 参考訳(メタデータ) (2023-08-07T14:42:49Z) - LM-CORE: Language Models with Contextually Relevant External Knowledge [13.451001884972033]
モデルパラメータに大量の知識を格納することは、絶え間なく増加する知識とリソースの要求を考えると、準最適である、と我々は主張する。
LM-CORE - これを実現するための一般的なフレームワークで、外部の知識ソースから言語モデルのトレーニングをテキストデカップリングすることができる。
実験結果から, LM-COREは知識探索タスクにおいて, 最先端の知識強化言語モデルよりも大きく, 堅牢な性能を実現していることがわかった。
論文 参考訳(メタデータ) (2022-08-12T18:59:37Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z) - Visualizing the Relationship Between Encoded Linguistic Information and
Task Performance [53.223789395577796]
本稿では,Pareto Optimalityの観点から,符号化言語情報とタスクパフォーマンスの動的関係について検討する。
我々は、機械翻訳と言語モデリングという2つの一般的なNLPタスクの実験を行い、様々な言語情報とタスクパフォーマンスの関係について検討する。
実験結果から,NLPタスクには構文情報が有用であるのに対して,より構文情報の符号化が必ずしも優れたパフォーマンスをもたらすとは限らないことが示唆された。
論文 参考訳(メタデータ) (2022-03-29T19:03:10Z) - Learning from Context or Names? An Empirical Study on Neural Relation
Extraction [112.06614505580501]
テキストにおける2つの主要な情報ソースの効果について検討する:テキストコンテキストとエンティティ参照(名前)
本稿では,関係抽出のための実体型コントラスト事前学習フレームワーク(RE)を提案する。
我々のフレームワークは、異なるREシナリオにおけるニューラルモデルの有効性と堅牢性を改善することができる。
論文 参考訳(メタデータ) (2020-10-05T11:21:59Z) - Exploiting Structured Knowledge in Text via Graph-Guided Representation
Learning [73.0598186896953]
本稿では、知識グラフからのガイダンスを用いて、生テキスト上で学習する2つの自己教師型タスクを提案する。
エンティティレベルのマスキング言語モデルに基づいて、最初のコントリビューションはエンティティマスキングスキームです。
既存のパラダイムとは対照的に,本手法では事前学習時にのみ,知識グラフを暗黙的に使用する。
論文 参考訳(メタデータ) (2020-04-29T14:22:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。