論文の概要: Learning Entity Linking Features for Emerging Entities
- arxiv url: http://arxiv.org/abs/2208.03877v1
- Date: Mon, 8 Aug 2022 02:32:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-09 12:23:16.001982
- Title: Learning Entity Linking Features for Emerging Entities
- Title(参考訳): 新興エンティティのためのエンティティリンク機能を学ぶ
- Authors: Chenwei Ran, Wei Shen, Jianbo Gao, Yuhan Li, Jianyong Wang, Yantao Jia
- Abstract要約: 本稿では,STAMOと呼ばれる新しい手法を用いて,新興企業のための高品質なEL機能を自動的に学習する手法を提案する。
STAMOは主に自己学習に基づいており、任意のEL機能やELモデルと柔軟に統合される。
選択された脳を含む2つのデータセットを構築し,脳のEL特徴の質を評価する。
- 参考スコア(独自算出の注目度): 9.120021527316
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Entity linking (EL) is the process of linking entity mentions appearing in
text with their corresponding entities in a knowledge base. EL features of
entities (e.g., prior probability, relatedness score, and entity embedding) are
usually estimated based on Wikipedia. However, for newly emerging entities
(EEs) which have just been discovered in news, they may still not be included
in Wikipedia yet. As a consequence, it is unable to obtain required EL features
for those EEs from Wikipedia and EL models will always fail to link ambiguous
mentions with those EEs correctly as the absence of their EL features. To deal
with this problem, in this paper we focus on a new task of learning EL features
for emerging entities in a general way. We propose a novel approach called
STAMO to learn high-quality EL features for EEs automatically, which needs just
a small number of labeled documents for each EE collected from the Web, as it
could further leverage the knowledge hidden in the unlabeled data. STAMO is
mainly based on self-training, which makes it flexibly integrated with any EL
feature or EL model, but also makes it easily suffer from the error
reinforcement problem caused by the mislabeled data. Instead of some common
self-training strategies that try to throw the mislabeled data away explicitly,
we regard self-training as a multiple optimization process with respect to the
EL features of EEs, and propose both intra-slot and inter-slot optimizations to
alleviate the error reinforcement problem implicitly. We construct two EL
datasets involving selected EEs to evaluate the quality of obtained EL features
for EEs, and the experimental results show that our approach significantly
outperforms other baseline methods of learning EL features.
- Abstract(参考訳): エンティティリンク(el)は、テキストに現れるエンティティ言及と、それに対応するエンティティを知識ベースでリンクするプロセスである。
ELのエンティティの特徴(例えば、事前確率、関連性スコア、エンティティ埋め込み)は、通常ウィキペディアに基づいて推定される。
しかし、ニュースで発見されたばかりの新興企業(EE)については、まだWikipediaには含まれていないかもしれない。
結果として、Wikipedia と EL モデルからこれらの EE に必要な EL 機能を取得することができず、EL モデルは常に EL 機能がないため、それらの EE に曖昧な言及を正しくリンクできない。
この問題に対処するため,本稿では,新興企業を対象としたEL機能学習を一般化した新しい課題に焦点をあてる。
我々は、STAMOと呼ばれる新しいアプローチを提案し、EEの高品質なEL機能を自動的に学習し、Webから収集された各EEのラベル付き文書を少量だけ必要とし、ラベルなしデータに隠された知識をさらに活用する。
STAMOは主に自己学習に基づいており、任意のEL特徴やELモデルと柔軟に統合されるが、誤ラベルデータによるエラー強化問題にも容易に対応できる。
誤ラベルされたデータを明示的に捨てようとするいくつかの一般的な自己学習戦略の代わりに、我々は自己学習をEEのEL特徴に対する多重最適化プロセスとみなし、エラー強化問題を暗黙的に緩和するスロット内最適化とスロット間最適化の両方を提案する。
得られたel特徴の品質を評価するために,選択されたeeを含む2つのelデータセットを構築し,本手法がel特徴を学習する他のベースライン手法を大幅に上回ることを示す。
関連論文リスト
- Real World Conversational Entity Linking Requires More Than Zeroshots [50.5691094768954]
本研究では,資源制約下でのELモデルの有効性を評価するための評価シナリオを設計する。
本稿では、Fandomと新しいゼロショット対話型エンティティリンクデータセットを用いて、ELモデルの未知KBへの一般化能力を評価する。
その結果,既存のゼロショットELモデルでは,事前トレーニングなしで新しいドメイン固有KBを導入するとフェールすることがわかった。
論文 参考訳(メタデータ) (2024-09-02T10:37:53Z) - Instructed Language Models with Retrievers Are Powerful Entity Linkers [87.16283281290053]
Instructed Generative Entity Linker (INSGENEL)は、カジュアル言語モデルが知識ベース上でエンティティリンクを実行することを可能にする最初のアプローチである。
INSGENEL は、+6.8 F1 点が平均的に上昇する以前の生成的代替よりも優れていた。
論文 参考訳(メタデータ) (2023-11-06T16:38:51Z) - NASTyLinker: NIL-Aware Scalable Transformer-based Entity Linker [2.3605348648054463]
我々は,NIL-entityを意識したELアプローチを導入し,既知のエンティティのリンク性能を維持しつつ,対応する参照クラスタを生成する。
NIL-entities に対して EL を評価するために明示的に構築されたデータセットである NILK 上で NASTyLinker の有効性と拡張性を示す。
論文 参考訳(メタデータ) (2023-03-08T08:08:57Z) - FEDIC: Federated Learning on Non-IID and Long-Tailed Data via Calibrated
Distillation [54.2658887073461]
非IIDデータの処理は、フェデレーション学習における最も難しい問題の1つである。
本稿では, フェデレート学習における非IIDデータとロングテールデータの結合問題について検討し, フェデレート・アンサンブル蒸留と不均衡(FEDIC)という対応ソリューションを提案する。
FEDICはモデルアンサンブルを使用して、非IIDデータでトレーニングされたモデルの多様性を活用する。
論文 参考訳(メタデータ) (2022-04-30T06:17:36Z) - Deep Transfer Learning for Multi-source Entity Linkage via Domain
Adaptation [63.24594955429465]
マルチソースエンティティリンクは、データのクリーニングやユーザ縫合といった、高インパクトなアプリケーションにおいて重要である。
AdaMELは、多ソースエンティティリンクを実行するための一般的なハイレベルな知識を学ぶディープトランスファー学習フレームワークである。
本フレームワークは,教師付き学習に基づく平均的手法よりも8.21%向上した最先端の学習結果を実現する。
論文 参考訳(メタデータ) (2021-10-27T15:20:41Z) - ELIT: Emory Language and Information Toolkit [15.340540198612826]
ELITは、コアタスクのためのトランスフォーマーベースのエンドツーエンドモデルを提供する包括的なフレームワークである。
ELITは効率のよいマルチタスク学習(MTL)モデルを備えており、レムマティゼーション、部分音声タグ付け、名前付きエンティティ認識、依存性解析、候補解析、セマンティックロールラベリング、AMR解析など、多くの下流タスクがある。
論文 参考訳(メタデータ) (2021-09-08T19:50:07Z) - Towards Consistent Document-level Entity Linking: Joint Models for
Entity Linking and Coreference Resolution [15.265013409559227]
文書レベルのエンティティリンク(EL)の課題について考察する。
我々は、コア参照解決(coref)とともにELタスクに参加することを提案する。
論文 参考訳(メタデータ) (2021-08-30T21:46:12Z) - QUEACO: Borrowing Treasures from Weakly-labeled Behavior Data for Query
Attribute Value Extraction [57.56700153507383]
本稿では,QUEACOというEコマース検索におけるクエリ属性値の統一抽出システムを提案する。
NER フェーズでは、QUEACO は教師-学生ネットワークを採用し、強くラベル付けされたデータに基づいてトレーニングされた教師ネットワークが擬似ラベルを生成する。
AVN フェーズでは、弱いラベル付けされたクエリ・ツー・アトリビュート・ビヘイビア・データを利用して、クエリーから表層属性値の正規化を行い、製品から標準形式へと変換する。
論文 参考訳(メタデータ) (2021-08-19T03:24:23Z) - EchoEA: Echo Information between Entities and Relations for Entity
Alignment [1.1470070927586016]
本稿では,エンティティ情報を関係に拡散し,エンティティにエコーバックする自己認識機構を活用した新しいフレームワーク Echo Entity Alignment (EchoEA) を提案する。
3つの実世界のクロスランガルデータセットの実験結果は、平均して96%で安定している。
論文 参考訳(メタデータ) (2021-07-07T07:34:21Z) - Interpretable and Low-Resource Entity Matching via Decoupling Feature
Learning from Decision Making [22.755892575582788]
Entity Matchingは、同じ現実世界のオブジェクトを表すエンティティレコードを認識することを目的としている。
異種情報融合(HIF)とキー属性ツリー(KAT)誘導からなる新しいEMフレームワークを提案する。
提案手法は効率が高く,ほとんどの場合SOTA EMモデルより優れている。
論文 参考訳(メタデータ) (2021-06-08T08:27:31Z) - CorDEL: A Contrastive Deep Learning Approach for Entity Linkage [70.82533554253335]
エンティティリンケージ(EL)は、データのクリーニングと統合において重要な問題である。
新たなデータの増加に伴い、ディープラーニング(DL)ベースのアプローチが提案され、従来のモデルに付随するELの高コスト化が図られている。
我々は、ツインネットワークアーキテクチャはELに準最適であり、既存のモデルに固有の欠点をもたらすと主張している。
論文 参考訳(メタデータ) (2020-09-15T16:33:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。