論文の概要: USTC-NELSLIP at SemEval-2023 Task 2: Statistical Construction and Dual
Adaptation of Gazetteer for Multilingual Complex NER
- arxiv url: http://arxiv.org/abs/2305.02517v1
- Date: Thu, 4 May 2023 03:00:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-05 17:17:31.306142
- Title: USTC-NELSLIP at SemEval-2023 Task 2: Statistical Construction and Dual
Adaptation of Gazetteer for Multilingual Complex NER
- Title(参考訳): SemEval-2023 Task 2 におけるUTC-NELSLIP:多言語複合NERのためのガゼッタの統計的構成と双対適応
- Authors: Jun-Yu Ma, Jia-Chen Gu, Jiajun Qi, Zhen-Hua Ling, Quan Liu, Xiaoyi
Zhao
- Abstract要約: 本稿では,SemEval-2023 Task 2 Multilingual Complex Named Entity Recognition (MultiCoNER II)のためにUSTC-NELSLIPチームが開発したシステムについて述べる。
提案手法はWikidata で構築したガゼッタを用いて XLM-R に適用され,様々なトラックにまたがる高度な一般化能力を示す。
- 参考スコア(独自算出の注目度): 36.39635200544498
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper describes the system developed by the USTC-NELSLIP team for
SemEval-2023 Task 2 Multilingual Complex Named Entity Recognition (MultiCoNER
II). A method named Statistical Construction and Dual Adaptation of Gazetteer
(SCDAG) is proposed for Multilingual Complex NER. The method first utilizes a
statistics-based approach to construct a gazetteer. Secondly, the
representations of gazetteer networks and language models are adapted by
minimizing the KL divergence between them at both the sentence-level and
entity-level. Finally, these two networks are then integrated for supervised
named entity recognition (NER) training. The proposed method is applied to
XLM-R with a gazetteer built from Wikidata, and shows great generalization
ability across different tracks. Experimental results and detailed analysis
verify the effectiveness of the proposed method. The official results show that
our system ranked 1st on one track (Hindi) in this task.
- Abstract(参考訳): 本稿では,SemEval-2023 Task 2 Multilingual Complex Named Entity Recognition (MultiCoNER II)のためにUSTC-NELSLIPチームが開発したシステムについて述べる。
Gazetteer (SCDAG) の統計的構成と双対適応法が多言語複合NERに対して提案されている。
この方法は、まず統計に基づくアプローチを用いてガゼッタを構成する。
第2に、ガゼッタネットワークと言語モデルの表現は、文レベルとエンティティレベルでのklの相違を最小限にすることで適応される。
最後に、これら2つのネットワークは、教師付きエンティティ認識(ner)トレーニングのために統合される。
提案手法はWikidata で構築したガゼッタを用いて XLM-R に適用され,様々なトラックにまたがる高度な一般化能力を示す。
実験結果と詳細な解析により,提案手法の有効性が検証された。
公式の結果,我々のシステムは1トラック (hindi) で1位にランクインした。
関連論文リスト
- Dual-Alignment Pre-training for Cross-lingual Sentence Embedding [79.98111074307657]
本稿では,言語間文埋め込みのためのDAP(Dual-alignment pre-training)フレームワークを提案する。
そこで本研究では,一方の文脈化トークン表現を用いて翻訳相手を再構成する,新しい表現翻訳学習(RTL)タスクを提案する。
我々の手法は文の埋め込みを大幅に改善できる。
論文 参考訳(メタデータ) (2023-05-16T03:53:30Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - DualNER: A Dual-Teaching framework for Zero-shot Cross-lingual Named
Entity Recognition [27.245171237640502]
DualNERは、注釈付きソース言語コーパスとラベルなしターゲット言語テキストの両方をフル活用するためのフレームワークである。
NERの2つの相補的な学習パラダイム、すなわちシーケンスラベリングとスパン予測を統合マルチタスクフレームワークに統合する。
論文 参考訳(メタデータ) (2022-11-15T12:50:59Z) - CROP: Zero-shot Cross-lingual Named Entity Recognition with Multilingual
Labeled Sequence Translation [113.99145386490639]
言語間NERは、整列した言語間表現や機械翻訳結果を通じて、言語間で知識を伝達することができる。
ゼロショット言語間NERを実現するために,クロスランガル・エンティティ・プロジェクション・フレームワーク(CROP)を提案する。
多言語ラベル付きシーケンス翻訳モデルを用いて、タグ付けされたシーケンスをターゲット言語に投影し、ターゲットの原文にラベル付けする。
論文 参考訳(メタデータ) (2022-10-13T13:32:36Z) - A Dual-Contrastive Framework for Low-Resource Cross-Lingual Named Entity
Recognition [5.030581940990434]
クロスランガルな名前付きエンティティ認識(NER)は、低リソース言語におけるデータ空白問題を緩和できるため、最近研究ホットスポットになっている。
本稿では,言語間NERのための2言語コントラストフレームワーク ConCNER について述べる。
論文 参考訳(メタデータ) (2022-04-02T07:59:13Z) - USTC-NELSLIP at SemEval-2022 Task 11: Gazetteer-Adapted Integration
Network for Multilingual Complex Named Entity Recognition [41.26523047041553]
本稿では,SemEval-2022 Task 11 Multilingual Complex Named Entities Recognition (MultiCoNER)のためにUSTC-NELSLIPチームが開発したシステムについて述べる。
本稿では,複雑な名前付きエンティティを認識するための言語モデルの性能向上のために,ガゼッタ適応統合ネットワーク(GAIN)を提案する。
論文 参考訳(メタデータ) (2022-03-07T09:05:37Z) - An Attention Ensemble Approach for Efficient Text Classification of
Indian Languages [0.0]
本稿では,インド・デヴァナガリ文字を母語とするマラーティー語における短文文書の細かな技術領域識別について述べる。
畳み込みニューラルネットワークが生成する中間文表現と双方向の長期記憶とを合体させ,効率的なテキスト分類を実現するcnn-bilstm注意アンサンブルモデルを提案する。
実験結果から,提案モデルが与えられたタスクにおける各種ベースライン機械学習および深層学習モデルより優れ,89.57%,f1スコア0.8875の検証精度が得られた。
論文 参考訳(メタデータ) (2021-02-20T07:31:38Z) - Explicit Alignment Objectives for Multilingual Bidirectional Encoders [111.65322283420805]
本稿では,多言語エンコーダAMBER(Aligned Multilingual Bi-directional EncodeR)の学習方法を提案する。
AMBERは、異なる粒度で多言語表現を整列する2つの明示的なアライメント目標を使用して、追加の並列データに基づいて訓練される。
実験結果から、AMBERは、シーケンスタグ付けで1.1平均F1スコア、XLMR-大規模モデル上での検索で27.3平均精度を得ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T18:34:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。