論文の概要: CoLaDa: A Collaborative Label Denoising Framework for Cross-lingual
Named Entity Recognition
- arxiv url: http://arxiv.org/abs/2305.14913v1
- Date: Wed, 24 May 2023 09:03:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 17:54:48.100153
- Title: CoLaDa: A Collaborative Label Denoising Framework for Cross-lingual
Named Entity Recognition
- Title(参考訳): colada: 言語横断型エンティティ認識のための協調ラベル修飾フレームワーク
- Authors: Tingting Ma, Qianhui Wu, Huiqiang Jiang, B\"orje F. Karlsson, Tiejun
Zhao, Chin-Yew Lin
- Abstract要約: NER(クロスランガルな名前付きエンティティ認識)は、与えられたソース言語でラベル付きデータを活用することで、ターゲット言語によく一般化するNERシステムを訓練することを目的としている。
過去の研究は、ソース言語ラベル付きデータを翻訳したり、ターゲット言語ラベルなしデータに対して知識蒸留を行うことで、データの不足を軽減した。
この問題に対処するために,協調ラベル記述フレームワークであるCoLaDaを提案する。
- 参考スコア(独自算出の注目度): 30.307982013964576
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-lingual named entity recognition (NER) aims to train an NER system that
generalizes well to a target language by leveraging labeled data in a given
source language. Previous work alleviates the data scarcity problem by
translating source-language labeled data or performing knowledge distillation
on target-language unlabeled data. However, these methods may suffer from label
noise due to the automatic labeling process. In this paper, we propose CoLaDa,
a Collaborative Label Denoising Framework, to address this problem.
Specifically, we first explore a model-collaboration-based denoising scheme
that enables models trained on different data sources to collaboratively
denoise pseudo labels used by each other. We then present an
instance-collaboration-based strategy that considers the label consistency of
each token's neighborhood in the representation space for denoising.
Experiments on different benchmark datasets show that the proposed CoLaDa
achieves superior results compared to previous methods, especially when
generalizing to distant languages.
- Abstract(参考訳): NER(クロスランガルな名前付きエンティティ認識)は、与えられたソース言語でラベル付きデータを活用することで、ターゲット言語によく一般化するNERシステムを訓練することを目的としている。
以前の研究では、ソース言語ラベル付きデータを翻訳したり、ターゲット言語ラベルなしデータで知識蒸留を行うことで、データ不足の問題を緩和している。
しかし,これらの手法は自動ラベリング法によりラベルノイズに悩まされる可能性がある。
本稿では,この問題を解決するために,協調ラベル分類フレームワークであるcoladaを提案する。
具体的には、まず、異なるデータソースでトレーニングされたモデルが互いに使用する疑似ラベルを協調的にデノベートすることを可能にする、モデルコラボレーションに基づくデノベーションスキームを探求する。
次に,表現空間における各トークン近傍のラベル一貫性を考慮したインスタンス協調に基づく戦略を提案する。
異なるベンチマークデータセットの実験により、提案したCoLaDaは、特に遠い言語に一般化する場合に、従来の手法よりも優れた結果が得られることが示された。
関連論文リスト
- Improving Pseudo Labels with Global-Local Denoising Framework for Cross-lingual Named Entity Recognition [15.31736490777998]
NERは、ターゲット言語のためのNERモデルをトレーニングすることを目的としている。
言語間NERのためのGlobal-Local Denoising framework(GLoDe)を提案する。
6つのターゲット言語を持つ2つのベンチマークデータセットの実験結果から,提案したGLoDeは最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-06-03T11:29:19Z) - Maximizing Data Efficiency for Cross-Lingual TTS Adaptation by
Self-Supervised Representation Mixing and Embedding Initialization [57.38123229553157]
本稿では,テキスト音声合成システムにおける言語適応のための効果的な伝達学習フレームワークを提案する。
ラベル付きおよびラベルなしの最小データを用いて言語適応を実現することに注力する。
実験結果から,本フレームワークは,ラベル付きデータの4つの発声とラベル付きデータの15分で,未知の言語で理解不能な音声を合成できることが示唆された。
論文 参考訳(メタデータ) (2024-01-23T21:55:34Z) - mCL-NER: Cross-Lingual Named Entity Recognition via Multi-view
Contrastive Learning [54.523172171533645]
CrossNERは多言語コーパスの不足により不均一な性能から生じる課題に直面している。
言語横断的名前付きエンティティ認識(mCL-NER)のためのマルチビューコントラスト学習を提案する。
40言語にまたがるXTREMEベンチマーク実験では、従来のデータ駆動型およびモデルベースアプローチよりもmCL-NERの方が優れていることを示した。
論文 参考訳(メタデータ) (2023-08-17T16:02:29Z) - Improving Self-training for Cross-lingual Named Entity Recognition with
Contrastive and Prototype Learning [80.08139343603956]
言語横断的な実体認識において、自己学習は言語的ギャップを埋めるために一般的に用いられる。
本研究では,表現学習と擬似ラベル改善を組み合わせることで,言語間NERの自己学習を改善することを目的とする。
提案手法,すなわちContProtoは主に,(1)コントラスト型自己学習と(2)プロトタイプベース擬似ラベルの2つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2023-05-23T02:52:16Z) - ConNER: Consistency Training for Cross-lingual Named Entity Recognition [96.84391089120847]
言語間の名前付きエンティティ認識は、対象言語のデータの不足に悩まされる。
言語間NERのための新しい一貫性トレーニングフレームワークとしてConNERを提案する。
論文 参考訳(メタデータ) (2022-11-17T07:57:54Z) - CROP: Zero-shot Cross-lingual Named Entity Recognition with Multilingual
Labeled Sequence Translation [113.99145386490639]
言語間NERは、整列した言語間表現や機械翻訳結果を通じて、言語間で知識を伝達することができる。
ゼロショット言語間NERを実現するために,クロスランガル・エンティティ・プロジェクション・フレームワーク(CROP)を提案する。
多言語ラベル付きシーケンス翻訳モデルを用いて、タグ付けされたシーケンスをターゲット言語に投影し、ターゲットの原文にラベル付けする。
論文 参考訳(メタデータ) (2022-10-13T13:32:36Z) - A Dual-Contrastive Framework for Low-Resource Cross-Lingual Named Entity
Recognition [5.030581940990434]
クロスランガルな名前付きエンティティ認識(NER)は、低リソース言語におけるデータ空白問題を緩和できるため、最近研究ホットスポットになっている。
本稿では,言語間NERのための2言語コントラストフレームワーク ConCNER について述べる。
論文 参考訳(メタデータ) (2022-04-02T07:59:13Z) - Learning with Noisy Labels by Targeted Relabeling [52.0329205268734]
クラウドソーシングプラットフォームは、ディープニューラルネットワークをトレーニングするためのデータセット収集によく使用される。
本稿では,少数のアノテーションを予約して,高い確率でラベル付け可能なエラーを明示的に緩和する手法を提案する。
論文 参考訳(メタデータ) (2021-10-15T20:37:29Z) - AdvPicker: Effectively Leveraging Unlabeled Data via Adversarial
Discriminator for Cross-Lingual NER [2.739898536581301]
エンコーダがラベル付きソースコードからエンティティドメインの知識を学習する逆学習フレームワークを設計する。
提案手法は, このデータ選択プロセスの恩恵を強く受け, 既存の最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-04T07:17:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。