論文の概要: Automatic Creation of Named Entity Recognition Datasets by Querying
Phrase Representations
- arxiv url: http://arxiv.org/abs/2210.07586v1
- Date: Fri, 14 Oct 2022 07:36:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 16:36:10.993438
- Title: Automatic Creation of Named Entity Recognition Datasets by Querying
Phrase Representations
- Title(参考訳): フレーズ表現検索による名前付きエンティティ認識データセットの自動生成
- Authors: Hyunjae Kim, Jaehyo Yoo, Seunghyun Yoon, Jaewoo Kang
- Abstract要約: ほとんどの弱教師付きエンティティ認識モデルは、専門家によって提供されるドメイン固有の辞書に依存している。
本稿では,ハイカバレッジ辞書を効率的に作成するための単語埋め込み検索を提案する。
また,高被覆辞書を用いたNERデータセットを生成する新しいフレームワークであるHighGENを提案する。
- 参考スコア(独自算出の注目度): 20.00016240535205
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most weakly supervised named entity recognition (NER) models rely on
domain-specific dictionaries provided by experts. This approach is infeasible
in many domains where dictionaries do not exist. While a phrase retrieval model
was used to construct pseudo-dictionaries with entities retrieved from
Wikipedia automatically in a recent study, these dictionaries often have
limited coverage because the retriever is likely to retrieve popular entities
rather than rare ones. In this study, a phrase embedding search to efficiently
create high-coverage dictionaries is presented. Specifically, the reformulation
of natural language queries into phrase representations allows the retriever to
search a space densely populated with various entities. In addition, we present
a novel framework, HighGEN, that generates NER datasets with high-coverage
dictionaries obtained using the phrase embedding search. HighGEN generates weak
labels based on the distance between the embeddings of a candidate phrase and
target entity type to reduce the noise in high-coverage dictionaries. We
compare HighGEN with current weakly supervised NER models on six NER benchmarks
and demonstrate the superiority of our models.
- Abstract(参考訳): 殆どの弱い教師付き名前付きエンティティ認識(ner)モデルは専門家が提供したドメイン固有辞書に依存している。
このアプローチは辞書が存在しない多くのドメインでは実現不可能である。
最近の研究では、句検索モデルがwikipediaから抽出されたエンティティを持つ疑似辞書を構築するのに使われたが、これらの辞書は、レトリバーが珍しいものよりも人気の高いエンティティを検索する可能性が高いため、カバーが限られていることが多い。
本研究では,高被覆辞書を効率的に作成するためのフレーズ埋め込み検索を提案する。
具体的には、自然言語クエリを句表現に再構成することで、レトリバーは様々な実体が密集した空間を探索することができる。
さらに, 単語埋め込み検索を用いて高被覆辞書を用いたNERデータセットを生成する新しいフレームワークであるHighGENを提案する。
HighGENは、候補句の埋め込みとターゲットエンティティタイプとの距離に基づいて弱いラベルを生成し、ハイカバレッジ辞書のノイズを低減する。
6つの NER ベンチマークにおいて,HyGEN と現在の弱教師付き NER モデルを比較し,その優位性を実証した。
関連論文リスト
- Less is More: Making Smaller Language Models Competent Subgraph Retrievers for Multi-hop KGQA [51.3033125256716]
本研究では,小言語モデルで処理される条件生成タスクとして,サブグラフ検索タスクをモデル化する。
2億2千万のパラメータからなる基本生成部分グラフ検索モデルでは,最先端モデルと比較して競合検索性能が向上した。
LLMリーダを接続した最大の3Bモデルは、WebQSPとCWQベンチマークの両方で、SOTAのエンドツーエンドパフォーマンスを新たに設定します。
論文 参考訳(メタデータ) (2024-10-08T15:22:36Z) - Large-Scale Label Interpretation Learning for Few-Shot Named Entity Recognition [5.262708162539423]
名前付きエンティティ認識(NER)は、わずかな例だけでテキスト内の名前付きエンティティを検出する。
有望な研究の1つの行は、各エンティティタイプの自然言語記述を活用することである。
本稿では,新しい実体型の言語化を解釈する前に,強い意味が与える影響について考察する。
論文 参考訳(メタデータ) (2024-03-21T08:22:44Z) - Revisiting Sparse Retrieval for Few-shot Entity Linking [33.15662306409253]
本稿では,ELECTRAに基づくキーワード抽出手法を提案する。
抽出器のトレーニングには,参照コンテキストとエンティティ記述との間に重複するトークンをベースとしたトレーニングデータを自動的に生成する遠隔監視手法を提案する。
ZESHELデータセットによる実験結果から,提案手法はすべてのテスト領域において,最先端モデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2023-10-19T03:51:10Z) - Learning to Rank Context for Named Entity Recognition Using a Synthetic Dataset [6.633914491587503]
本稿では,Alpacaを用いた文脈検索学習データセットを提案する。
このデータセットを用いて、NERの関連するコンテキストを見つけることができるBERTモデルに基づいて、ニューラルネットワークコンテキストレトリバーをトレーニングする。
本手法は,40冊の本の第1章からなる英文データセットにおいて,NERタスクの検索ベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-10-16T06:53:12Z) - PromptNER: A Prompting Method for Few-shot Named Entity Recognition via
k Nearest Neighbor Search [56.81939214465558]
本稿では,近距離探索による数発NERの新規プロンプト法であるPromptNERを提案する。
我々は、エンティティカテゴリ情報を含むプロンプトを使用してラベルのプロトタイプを構築する。
Few-NERDデータセットとCrossNERデータセットの広範な実験により,本モデルが最先端手法よりも優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-05-20T15:47:59Z) - Disambiguation of Company names via Deep Recurrent Networks [101.90357454833845]
企業名文字列の埋め込みである教師付き学習を通じて,Siamese LSTM Network を抽出する手法を提案する。
私たちは、ラベル付けされるサンプルを優先するActive Learningアプローチが、より効率的な全体的な学習パイプラインをもたらす方法を分析します。
論文 参考訳(メタデータ) (2023-03-07T15:07:57Z) - The Fellowship of the Authors: Disambiguating Names from Social Network
Context [2.3605348648054454]
各エンティティに関する広範なテキスト記述を持つオーソリティリストは、欠落しており、曖昧な名前のエンティティである。
BERTをベースとした参照表現と,さまざまなグラフ誘導戦略を組み合わせて,教師付きクラスタ推論手法と教師なしクラスタ推論手法を実験する。
ドメイン内言語モデルの事前学習は,特により大きなコーパスに対して,参照表現を大幅に改善できることがわかった。
論文 参考訳(メタデータ) (2022-08-31T21:51:55Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - A Realistic Study of Auto-regressive Language Models for Named Entity
Typing and Recognition [7.345578385749421]
メタ学習装置を用いて、名前付きエンティティ認識のための事前学習言語モデルについて検討する。
まず、ゼロショット転送シナリオにおいて、名前付きエンティティ型付け(NET)をテストする。次に、推論の例をいくつか挙げて、NERを実行する。
本稿では,事前学習したモデルにのみアクセス可能で,これらのグループについて報告する際,見知らぬ名前や稀な名前を選択する手法を提案する。
論文 参考訳(メタデータ) (2021-08-26T15:29:00Z) - Zero-Resource Cross-Domain Named Entity Recognition [68.83177074227598]
既存のドメイン名付きエンティティ認識モデルは、多くのラベルなしコーパスや、ターゲットドメイン内のラベル付きNERトレーニングデータに依存している。
外部リソースを一切使用しないドメイン間NERモデルを提案する。
論文 参考訳(メタデータ) (2020-02-14T09:04:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。