論文の概要: Improving Pseudo Labels with Global-Local Denoising Framework for Cross-lingual Named Entity Recognition
- arxiv url: http://arxiv.org/abs/2406.01213v1
- Date: Mon, 3 Jun 2024 11:29:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 01:18:57.182245
- Title: Improving Pseudo Labels with Global-Local Denoising Framework for Cross-lingual Named Entity Recognition
- Title(参考訳): 言語横断的名前付きエンティティ認識のためのグローバルローカルDenoisingフレームワークによる擬似ラベルの改良
- Authors: Zhuojun Ding, Wei Wei, Xiaoye Qu, Dangyang Chen,
- Abstract要約: NERは、ターゲット言語のためのNERモデルをトレーニングすることを目的としている。
言語間NERのためのGlobal-Local Denoising framework(GLoDe)を提案する。
6つのターゲット言語を持つ2つのベンチマークデータセットの実験結果から,提案したGLoDeは最先端の手法よりも優れていることが示された。
- 参考スコア(独自算出の注目度): 15.31736490777998
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-lingual named entity recognition (NER) aims to train an NER model for the target language leveraging only labeled source language data and unlabeled target language data. Prior approaches either perform label projection on translated source language data or employ a source model to assign pseudo labels for target language data and train a target model on these pseudo-labeled data to generalize to the target language. However, these automatic labeling procedures inevitably introduce noisy labels, thus leading to a performance drop. In this paper, we propose a Global-Local Denoising framework (GLoDe) for cross-lingual NER. Specifically, GLoDe introduces a progressive denoising strategy to rectify incorrect pseudo labels by leveraging both global and local distribution information in the semantic space. The refined pseudo-labeled target language data significantly improves the model's generalization ability. Moreover, previous methods only consider improving the model with language-agnostic features, however, we argue that target language-specific features are also important and should never be ignored. To this end, we employ a simple auxiliary task to achieve this goal. Experimental results on two benchmark datasets with six target languages demonstrate that our proposed GLoDe significantly outperforms current state-of-the-art methods.
- Abstract(参考訳): NER (cross-lingual named entity recognition) は、ラベル付きソース言語データとラベルなしターゲット言語データのみを活用するターゲット言語のためのNERモデルをトレーニングすることを目的としている。
従来のアプローチでは、翻訳されたソース言語データにラベルプロジェクションを実行するか、あるいはソースモデルを使用して、ターゲット言語データに擬似ラベルを割り当て、これらの擬似ラベルデータにターゲットモデルをトレーニングし、ターゲット言語に一般化する。
しかし、これらの自動ラベリング手順は必然的にノイズのあるラベルを導入し、パフォーマンスが低下する。
本稿では,言語間NERのためのGlobal-Local Denoising framework(GLoDe)を提案する。
特に、GLoDeは、意味空間におけるグローバルな分布情報とローカルな分布情報を活用することによって、誤った擬似ラベルを正すプログレッシブデノケーション戦略を導入している。
改良された擬似ラベル付きターゲット言語データにより、モデルの一般化能力が大幅に向上する。
さらに,従来の手法では言語に依存しない特徴を用いたモデルの改良しか検討しなかったが,対象言語固有の特徴も重要であり,無視すべきではないと論じている。
この目的を達成するために、我々は単純な補助的タスクを用いる。
6つのターゲット言語を持つ2つのベンチマークデータセットの実験結果から,提案したGLoDeは最先端の手法よりも優れていることが示された。
関連論文リスト
- Universal Cross-Lingual Text Classification [0.3958317527488535]
本研究は,言語横断テキスト分類における新たな視点を提案する。
我々のアプローチは、訓練中に異なる言語からの教師付きデータをブレンドして普遍的なモデルを作成することである。
主な目標は、ラベルと言語カバレッジを強化することであり、様々な言語のラベルの結合を表すラベルセットを目指している。
論文 参考訳(メタデータ) (2024-06-16T17:58:29Z) - Efficient Spoken Language Recognition via Multilabel Classification [53.662747523872305]
我々のモデルは,現在の最先端手法よりも桁違いに小さく,高速でありながら,競争力のある結果が得られることを示す。
我々のマルチラベル戦略は、マルチクラス分類よりも非ターゲット言語の方が堅牢である。
論文 参考訳(メタデータ) (2023-06-02T23:04:19Z) - CoLaDa: A Collaborative Label Denoising Framework for Cross-lingual
Named Entity Recognition [30.307982013964576]
NER(クロスランガルな名前付きエンティティ認識)は、与えられたソース言語でラベル付きデータを活用することで、ターゲット言語によく一般化するNERシステムを訓練することを目的としている。
過去の研究は、ソース言語ラベル付きデータを翻訳したり、ターゲット言語ラベルなしデータに対して知識蒸留を行うことで、データの不足を軽減した。
この問題に対処するために,協調ラベル記述フレームワークであるCoLaDaを提案する。
論文 参考訳(メタデータ) (2023-05-24T09:03:01Z) - Improving Self-training for Cross-lingual Named Entity Recognition with
Contrastive and Prototype Learning [80.08139343603956]
言語横断的な実体認識において、自己学習は言語的ギャップを埋めるために一般的に用いられる。
本研究では,表現学習と擬似ラベル改善を組み合わせることで,言語間NERの自己学習を改善することを目的とする。
提案手法,すなわちContProtoは主に,(1)コントラスト型自己学習と(2)プロトタイプベース擬似ラベルの2つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2023-05-23T02:52:16Z) - GanLM: Encoder-Decoder Pre-training with an Auxiliary Discriminator [114.8954615026781]
本稿では,補助判別器を導入して,エンコーダ・デコーダ事前学習のためのGANスタイルのモデルを提案する。
GanLMは2つのトレーニング済みの目標 – トークン検出の置き換えとトークン記述の置き換え – でトレーニングされている。
言語生成ベンチマークの実験では、強力な言語理解能力を持つ GanLM が、様々な強力な事前学習言語モデルより優れていることが示されている。
論文 参考訳(メタデータ) (2022-12-20T12:51:11Z) - ConNER: Consistency Training for Cross-lingual Named Entity Recognition [96.84391089120847]
言語間の名前付きエンティティ認識は、対象言語のデータの不足に悩まされる。
言語間NERのための新しい一貫性トレーニングフレームワークとしてConNERを提案する。
論文 参考訳(メタデータ) (2022-11-17T07:57:54Z) - CROP: Zero-shot Cross-lingual Named Entity Recognition with Multilingual
Labeled Sequence Translation [113.99145386490639]
言語間NERは、整列した言語間表現や機械翻訳結果を通じて、言語間で知識を伝達することができる。
ゼロショット言語間NERを実現するために,クロスランガル・エンティティ・プロジェクション・フレームワーク(CROP)を提案する。
多言語ラベル付きシーケンス翻訳モデルを用いて、タグ付けされたシーケンスをターゲット言語に投影し、ターゲットの原文にラベル付けする。
論文 参考訳(メタデータ) (2022-10-13T13:32:36Z) - A Dual-Contrastive Framework for Low-Resource Cross-Lingual Named Entity
Recognition [5.030581940990434]
クロスランガルな名前付きエンティティ認識(NER)は、低リソース言語におけるデータ空白問題を緩和できるため、最近研究ホットスポットになっている。
本稿では,言語間NERのための2言語コントラストフレームワーク ConCNER について述べる。
論文 参考訳(メタデータ) (2022-04-02T07:59:13Z) - AdvPicker: Effectively Leveraging Unlabeled Data via Adversarial
Discriminator for Cross-Lingual NER [2.739898536581301]
エンコーダがラベル付きソースコードからエンティティドメインの知識を学習する逆学習フレームワークを設計する。
提案手法は, このデータ選択プロセスの恩恵を強く受け, 既存の最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-04T07:17:18Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。