論文の概要: Unsupervised Named Entity Disambiguation for Low Resource Domains
- arxiv url: http://arxiv.org/abs/2412.10054v1
- Date: Fri, 13 Dec 2024 11:35:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-16 15:03:16.332020
- Title: Unsupervised Named Entity Disambiguation for Low Resource Domains
- Title(参考訳): 低リソース領域に対する教師なし名前付きエンティティ曖昧化
- Authors: Debarghya Datta, Soumajit Pramanik,
- Abstract要約: GST(Group Steiner Trees)の概念を利用した教師なしアプローチを提案する。
GSTは、候補エンティティ間のコンテキスト的類似性を用いて、最も関連性の高いエンティティの曖昧さの候補を特定することができる。
我々は、さまざまなドメイン固有のデータセットでPrecision@1の観点で、最先端の教師なしメソッドを40%以上(例では)上回っています。
- 参考スコア(独自算出の注目度): 0.4297070083645049
- License:
- Abstract: In the ever-evolving landscape of natural language processing and information retrieval, the need for robust and domain-specific entity linking algorithms has become increasingly apparent. It is crucial in a considerable number of fields such as humanities, technical writing and biomedical sciences to enrich texts with semantics and discover more knowledge. The use of Named Entity Disambiguation (NED) in such domains requires handling noisy texts, low resource settings and domain-specific KBs. Existing approaches are mostly inappropriate for such scenarios, as they either depend on training data or are not flexible enough to work with domain-specific KBs. Thus in this work, we present an unsupervised approach leveraging the concept of Group Steiner Trees (GST), which can identify the most relevant candidates for entity disambiguation using the contextual similarities across candidate entities for all the mentions present in a document. We outperform the state-of-the-art unsupervised methods by more than 40\% (in avg.) in terms of Precision@1 across various domain-specific datasets.
- Abstract(参考訳): 自然言語処理と情報検索の分野では、堅牢でドメイン固有のエンティティリンクアルゴリズムの必要性が高まっている。
人文科学、テクニカル・ライティング、バイオメディカル・サイエンスなど多くの分野において、意味論でテキストを豊かにし、より多くの知識を発見することが不可欠である。
そのようなドメインで名前付きエンティティの曖昧さ(NED)を使用するには、ノイズの多いテキスト、リソース設定の低さ、ドメイン固有のKBを扱う必要がある。
既存のアプローチは、トレーニングデータに依存するか、ドメイン固有のKBを扱うのに十分な柔軟性がないため、このようなシナリオには不適切です。
そこで本研究では,GST(Group Steiner Trees)の概念を活かした教師なしの手法を提案する。
我々は、さまざまなドメイン固有のデータセットに対して、Precision@1の観点で、最先端の教師なしメソッドを40\%以上(vg.)で上回ります。
関連論文リスト
- Seed-Guided Fine-Grained Entity Typing in Science and Engineering
Domains [51.02035914828596]
科学・工学分野において,シード誘導型細粒度エンティティタイピングの課題について検討する。
まず、ラベルのないコーパスから各タイプのエンティティを抽出し、弱い監視力を高めるSETypeを提案する。
そして、リッチなエンティティをラベルなしのテキストにマッチさせ、擬似ラベル付きサンプルを取得し、見知らぬ型と見えない型の両方に推論できるテキストエンテリメントモデルを訓練する。
論文 参考訳(メタデータ) (2024-01-23T22:36:03Z) - Adapting Knowledge for Few-shot Table-to-Text Generation [35.59842534346997]
AKG(Adapt-Knowledge-to-Generate)という新しいフレームワークを提案する。
AKGはラベルのないドメイン固有の知識をモデルに適応させ、少なくとも3つの利点をもたらす。
本モデルでは,人間の評価と自動評価により,流速,精度の両面において優れた性能を示す。
論文 参考訳(メタデータ) (2023-02-24T05:48:53Z) - The Fellowship of the Authors: Disambiguating Names from Social Network
Context [2.3605348648054454]
各エンティティに関する広範なテキスト記述を持つオーソリティリストは、欠落しており、曖昧な名前のエンティティである。
BERTをベースとした参照表現と,さまざまなグラフ誘導戦略を組み合わせて,教師付きクラスタ推論手法と教師なしクラスタ推論手法を実験する。
ドメイン内言語モデルの事前学習は,特により大きなコーパスに対して,参照表現を大幅に改善できることがわかった。
論文 参考訳(メタデータ) (2022-08-31T21:51:55Z) - Disentangled Unsupervised Image Translation via Restricted Information
Flow [61.44666983942965]
多くの最先端のメソッドは、所望の共有vs固有の分割をアーキテクチャにハードコードする。
帰納的アーキテクチャバイアスに依存しない新しい手法を提案する。
提案手法は,2つの合成データセットと1つの自然なデータセットに対して一貫した高い操作精度を実現する。
論文 参考訳(メタデータ) (2021-11-26T00:27:54Z) - Extracting Domain-specific Concepts from Large-scale Linked Open Data [0.0]
提案手法は,LOD語彙を対象ドメインに関連する用語とリンクすることにより,検索エンティティを定義する。
対象領域における概念的関係の範囲を決定するために,共通上層実体の発生と経路の連鎖関係について検討した。
論文 参考訳(メタデータ) (2021-11-22T10:25:57Z) - Structured Latent Embeddings for Recognizing Unseen Classes in Unseen
Domains [108.11746235308046]
本稿では,異なる領域からの画像を投影することで,ドメインに依存しない遅延埋め込みを学習する手法を提案する。
挑戦的なDomainNetとDomainNet-LSベンチマークの実験は、既存のメソッドよりもアプローチの方が優れていることを示している。
論文 参考訳(メタデータ) (2021-07-12T17:57:46Z) - Streaming Self-Training via Domain-Agnostic Unlabeled Images [62.57647373581592]
視覚認識モデル学習の過程を民主化することを目的としたストリーミング自己学習(SST)を提案する。
SSTの鍵となるのは、(1)ドメインに依存しない未ラベル画像により、追加の知識や監督なしにいくつかのラベル付き例でより良いモデルを学ぶことができ、(2)学習は継続的なプロセスであり、学習更新のスケジュールを構築することで行うことができる。
論文 参考訳(メタデータ) (2021-04-07T17:58:39Z) - Inferring Latent Domains for Unsupervised Deep Domain Adaptation [54.963823285456925]
Unsupervised Domain Adaptation (UDA)は、ラベル付きデータが利用できないターゲットドメインでモデルを学習する問題を指す。
本稿では,視覚データセット中の潜在ドメインを自動的に発見することにより,udaの問題に対処する新しい深層アーキテクチャを提案する。
提案手法を公開ベンチマークで評価し,最先端のドメイン適応手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-03-25T14:33:33Z) - Domain-Transferable Method for Named Entity Recognition Task [0.6040938686276304]
本稿では、任意の名前付きエンティティの集合に対して、ドメイン固有のNERモデルを学習する方法について述べる。
我々は、人間の努力なしに監督が得られ、ニューラルモデルが互いに学習できると仮定する。
論文 参考訳(メタデータ) (2020-11-24T15:45:52Z) - Unsupervised Domain Clusters in Pretrained Language Models [61.832234606157286]
大規模事前学習型言語モデルでは,教師なしのドメインによってクラスタ化される文表現を暗黙的に学習する。
このようなモデルに基づくドメインデータ選択手法を提案する。
我々は5つの異なる領域にわたるニューラルネットワーク翻訳のためのデータ選択手法を評価する。
論文 参考訳(メタデータ) (2020-04-05T06:22:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。