論文の概要: Revisiting Sparse Retrieval for Few-shot Entity Linking
- arxiv url: http://arxiv.org/abs/2310.12444v1
- Date: Thu, 19 Oct 2023 03:51:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-20 17:07:11.202573
- Title: Revisiting Sparse Retrieval for Few-shot Entity Linking
- Title(参考訳): Few-shot Entity Linkingのためのスパース検索の再検討
- Authors: Yulin Chen, Zhenran Xu, Baotian Hu, Min Zhang
- Abstract要約: 本稿では,ELECTRAに基づくキーワード抽出手法を提案する。
抽出器のトレーニングには,参照コンテキストとエンティティ記述との間に重複するトークンをベースとしたトレーニングデータを自動的に生成する遠隔監視手法を提案する。
ZESHELデータセットによる実験結果から,提案手法はすべてのテスト領域において,最先端モデルよりも優れた性能を示した。
- 参考スコア(独自算出の注目度): 33.15662306409253
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Entity linking aims to link ambiguous mentions to their corresponding
entities in a knowledge base. One of the key challenges comes from insufficient
labeled data for specific domains. Although dense retrievers have achieved
excellent performance on several benchmarks, their performance decreases
significantly when only a limited amount of in-domain labeled data is
available. In such few-shot setting, we revisit the sparse retrieval method,
and propose an ELECTRA-based keyword extractor to denoise the mention context
and construct a better query expression. For training the extractor, we propose
a distant supervision method to automatically generate training data based on
overlapping tokens between mention contexts and entity descriptions.
Experimental results on the ZESHEL dataset demonstrate that the proposed method
outperforms state-of-the-art models by a significant margin across all test
domains, showing the effectiveness of keyword-enhanced sparse retrieval.
- Abstract(参考訳): エンティティリンクは、知識ベースで対応するエンティティに曖昧な言及をリンクすることを目的としています。
重要な課題の1つは、特定のドメインに対するラベル付きデータの不足にある。
ディープ・レトリバーはいくつかのベンチマークで優れた性能を達成しているが、その性能はドメイン内のラベル付きデータに限られている場合に著しく低下する。
このようなわずかな設定でスパース検索法を再検討し、ELECTRAベースのキーワード抽出器を提案し、参照コンテキストを識別し、より良いクエリ表現を構築する。
抽出器を訓練するために,参照コンテキストとエンティティ記述の重なり合うトークンに基づいて,学習データを自動的に生成する遠隔監視手法を提案する。
ZESHELデータセットによる実験結果から,提案手法はすべてのテスト領域において,最先端モデルよりも優れた性能を示し,キーワード付きスパース検索の有効性を示した。
関連論文リスト
- Dense X Retrieval: What Retrieval Granularity Should We Use? [56.90827473115201]
しばしば見過ごされる設計選択は、コーパスが索引付けされる検索単位である。
本稿では,高密度検索のための新しい検索ユニット,命題を提案する。
実験により、提案のような細粒度単位によるコーパスのインデックス付けは、検索タスクにおける通過レベル単位を著しく上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2023-12-11T18:57:35Z) - BERM: Training the Balanced and Extractable Representation for Matching
to Improve Generalization Ability of Dense Retrieval [54.66399120084227]
本稿では,BERMと呼ばれるマッチング信号の取得により,高密度検索の一般化を改善する手法を提案する。
センス検索は、ドメイン内のラベル付きデータセットでトレーニングされた場合、第1段階の検索プロセスにおいて有望であることが示されている。
論文 参考訳(メタデータ) (2023-05-18T15:43:09Z) - Enriching Relation Extraction with OpenIE [70.52564277675056]
関係抽出(RE)は情報抽出(IE)のサブ分野である
本稿では,オープン情報抽出(OpenIE)の最近の取り組みがREの課題の改善にどのように役立つかを検討する。
本稿では,2つの注釈付きコーパスであるKnowledgeNetとFewRelを用いた実験により,拡張モデルの精度向上を実証した。
論文 参考訳(メタデータ) (2022-12-19T11:26:23Z) - AugTriever: Unsupervised Dense Retrieval and Domain Adaptation by Scalable Data Augmentation [44.93777271276723]
擬似クエリドキュメントペアを作成することにより,アノテーションフリーでスケーラブルなトレーニングを可能にする2つのアプローチを提案する。
クエリ抽出方法は、元のドキュメントから有能なスパンを選択して擬似クエリを生成する。
転送クエリ生成方法は、要約などの他のNLPタスクのために訓練された生成モデルを使用して、擬似クエリを生成する。
論文 参考訳(メタデータ) (2022-12-17T10:43:25Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - SUN: Exploring Intrinsic Uncertainties in Text-to-SQL Parsers [61.48159785138462]
本稿では,ニューラルネットワークに基づくアプローチ(SUN)における本質的な不確かさを探索することにより,テキストから依存への変換性能を向上させることを目的とする。
5つのベンチマークデータセットの大規模な実験により、我々の手法は競合より大幅に優れ、新しい最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-09-14T06:27:51Z) - On the Use of External Data for Spoken Named Entity Recognition [40.93448412171246]
近年の自己教師型音声表現の進歩により,ラベル付きデータに制限のある学習モデルを考えることが可能になった。
自己学習、知識蒸留、トランスファーラーニングなど、さまざまなアプローチを採用し、エンドツーエンドモデルとパイプラインアプローチの両方に適用性を検討する。
論文 参考訳(メタデータ) (2021-12-14T18:49:26Z) - Focusing on Potential Named Entities During Active Label Acquisition [0.0]
名前付きエンティティ認識(NER)は、構造化されていないテキスト中の名前付きエンティティの参照を識別することを目的としている。
多くのドメイン固有のNERアプリケーションは、まだかなりの量のラベル付きデータを要求する。
本稿では,長すぎるか短すぎる文をペナル化するための,データ駆動正規化手法を提案する。
論文 参考訳(メタデータ) (2021-11-06T09:04:16Z) - Generation-Augmented Retrieval for Open-domain Question Answering [134.27768711201202]
GAR(Generation-Augmented Retrieval)は、オープンドメインの質問に答える機能である。
クエリーに対して多様なコンテキストを生成することは、結果の融合が常により良い検索精度をもたらすので有益であることを示す。
GARは、抽出読取装置を備えた場合、抽出QA設定の下で、自然質問およびトリビアQAデータセットの最先端性能を達成する。
論文 参考訳(メタデータ) (2020-09-17T23:08:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。