論文の概要: CROP: Zero-shot Cross-lingual Named Entity Recognition with Multilingual
Labeled Sequence Translation
- arxiv url: http://arxiv.org/abs/2210.07022v1
- Date: Thu, 13 Oct 2022 13:32:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 15:49:20.954654
- Title: CROP: Zero-shot Cross-lingual Named Entity Recognition with Multilingual
Labeled Sequence Translation
- Title(参考訳): CROP:多言語ラベル付きシーケンス変換を用いたゼロショットクロスランガル名前付きエンティティ認識
- Authors: Jian Yang, Shaohan Huang, Shuming Ma, Yuwei Yin, Li Dong, Dongdong
Zhang, Hongcheng Guo, Zhoujun Li, Furu Wei
- Abstract要約: 言語間NERは、整列した言語間表現や機械翻訳結果を通じて、言語間で知識を伝達することができる。
ゼロショット言語間NERを実現するために,クロスランガル・エンティティ・プロジェクション・フレームワーク(CROP)を提案する。
多言語ラベル付きシーケンス翻訳モデルを用いて、タグ付けされたシーケンスをターゲット言語に投影し、ターゲットの原文にラベル付けする。
- 参考スコア(独自算出の注目度): 113.99145386490639
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Named entity recognition (NER) suffers from the scarcity of annotated
training data, especially for low-resource languages without labeled data.
Cross-lingual NER has been proposed to alleviate this issue by transferring
knowledge from high-resource languages to low-resource languages via aligned
cross-lingual representations or machine translation results. However, the
performance of cross-lingual NER methods is severely affected by the
unsatisfactory quality of translation or label projection. To address these
problems, we propose a Cross-lingual Entity Projection framework (CROP) to
enable zero-shot cross-lingual NER with the help of a multilingual labeled
sequence translation model. Specifically, the target sequence is first
translated into the source language and then tagged by a source NER model. We
further adopt a labeled sequence translation model to project the tagged
sequence back to the target language and label the target raw sentence.
Ultimately, the whole pipeline is integrated into an end-to-end model by the
way of self-training. Experimental results on two benchmarks demonstrate that
our method substantially outperforms the previous strong baseline by a large
margin of +3~7 F1 scores and achieves state-of-the-art performance.
- Abstract(参考訳): 名前付きエンティティ認識(ner)は、特にラベル付きデータのない低リソース言語では、注釈付きトレーニングデータの不足に悩まされている。
言語間NERは、高ソース言語から低リソース言語への知識の変換を、整列した言語間表現や機械翻訳の結果を通じて行うことにより、この問題を軽減するために提案されている。
しかし、言語間NER法の性能は、翻訳やラベル投影の不満足な品質の影響を強く受けている。
これらの問題に対処するために,多言語ラベル付きシーケンス変換モデルを用いて,ゼロショットクロスリンガルnerを実現するクロスリンガルエンティティプロジェクションフレームワーク(crop)を提案する。
具体的には、ターゲットシーケンスはまずソース言語に変換され、次にソースNERモデルによってタグ付けされる。
さらにラベル付きシーケンス翻訳モデルを採用し、タグ付きシーケンスをターゲット言語に投影し、ターゲットの原文にラベル付けする。
最終的に、パイプライン全体は、自己学習によってエンドツーエンドモデルに統合される。
2つのベンチマークによる実験結果から,本手法は+3〜7F1スコアの差が大きいことで,従来の強靭なベースラインを著しく上回り,最先端の性能が得られることが示された。
関連論文リスト
- Constrained Decoding for Cross-lingual Label Projection [27.567195418950966]
ラベル付き学習データを持たない低リソース言語では,多言語 LLM を用いた言語間移動が一般的な学習パラダイムとなっている。
しかし、単語やフレーズの微粒な予測を含むNLPタスクでは、ゼロショットの言語間移動学習は教師付き微調整法よりもはるかに遅れている。
論文 参考訳(メタデータ) (2024-02-05T15:57:32Z) - Improving Self-training for Cross-lingual Named Entity Recognition with
Contrastive and Prototype Learning [80.08139343603956]
言語横断的な実体認識において、自己学習は言語的ギャップを埋めるために一般的に用いられる。
本研究では,表現学習と擬似ラベル改善を組み合わせることで,言語間NERの自己学習を改善することを目的とする。
提案手法,すなわちContProtoは主に,(1)コントラスト型自己学習と(2)プロトタイプベース擬似ラベルの2つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2023-05-23T02:52:16Z) - ConNER: Consistency Training for Cross-lingual Named Entity Recognition [96.84391089120847]
言語間の名前付きエンティティ認識は、対象言語のデータの不足に悩まされる。
言語間NERのための新しい一貫性トレーニングフレームワークとしてConNERを提案する。
論文 参考訳(メタデータ) (2022-11-17T07:57:54Z) - Model and Data Transfer for Cross-Lingual Sequence Labelling in
Zero-Resource Settings [10.871587311621974]
我々は、ゼロショット設定に適用された高容量多言語言語モデルが、データベースのクロスランガルトランスファーアプローチより一貫して優れていることを実験的に実証した。
この結果の詳細な分析は、言語使用における重要な違いによる可能性があることを示唆している。
また,高容量多言語言語モデルが利用できない場合,データに基づく多言語間移動アプローチが競争力のある選択肢であることも示唆した。
論文 参考訳(メタデータ) (2022-10-23T05:37:35Z) - Bridging Cross-Lingual Gaps During Leveraging the Multilingual
Sequence-to-Sequence Pretraining for Text Generation [80.16548523140025]
プレトレインとファインチューンの間のギャップを埋めるために、コードスイッチングの復元タスクを追加して、バニラプレトレイン-ファインチューンパイプラインを拡張します。
提案手法は,言語間文表現距離を狭くし,簡単な計算コストで低周波語翻訳を改善する。
論文 参考訳(メタデータ) (2022-04-16T16:08:38Z) - A Dual-Contrastive Framework for Low-Resource Cross-Lingual Named Entity
Recognition [5.030581940990434]
クロスランガルな名前付きエンティティ認識(NER)は、低リソース言語におけるデータ空白問題を緩和できるため、最近研究ホットスポットになっている。
本稿では,言語間NERのための2言語コントラストフレームワーク ConCNER について述べる。
論文 参考訳(メタデータ) (2022-04-02T07:59:13Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。