論文の概要: mCL-NER: Cross-Lingual Named Entity Recognition via Multi-view
Contrastive Learning
- arxiv url: http://arxiv.org/abs/2308.09073v1
- Date: Thu, 17 Aug 2023 16:02:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 16:06:11.882722
- Title: mCL-NER: Cross-Lingual Named Entity Recognition via Multi-view
Contrastive Learning
- Title(参考訳): mCL-NER:マルチビューコントラスト学習による言語間名前付きエンティティ認識
- Authors: Ying Mo, Jian Yang, Jiahao Liu, Qifan Wang, Ruoyu Chen, Jingang Wang,
Zhoujun Li
- Abstract要約: CrossNERは多言語コーパスの不足により不均一な性能から生じる課題に直面している。
言語横断的名前付きエンティティ認識(mCL-NER)のためのマルチビューコントラスト学習を提案する。
40言語にまたがるXTREMEベンチマーク実験では、従来のデータ駆動型およびモデルベースアプローチよりもmCL-NERの方が優れていることを示した。
- 参考スコア(独自算出の注目度): 54.523172171533645
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-lingual named entity recognition (CrossNER) faces challenges stemming
from uneven performance due to the scarcity of multilingual corpora, especially
for non-English data. While prior efforts mainly focus on data-driven transfer
methods, a significant aspect that has not been fully explored is aligning both
semantic and token-level representations across diverse languages. In this
paper, we propose Multi-view Contrastive Learning for Cross-lingual Named
Entity Recognition (mCL-NER). Specifically, we reframe the CrossNER task into a
problem of recognizing relationships between pairs of tokens. This approach
taps into the inherent contextual nuances of token-to-token connections within
entities, allowing us to align representations across different languages. A
multi-view contrastive learning framework is introduced to encompass semantic
contrasts between source, codeswitched, and target sentences, as well as
contrasts among token-to-token relations. By enforcing agreement within both
semantic and relational spaces, we minimize the gap between source sentences
and their counterparts of both codeswitched and target sentences. This
alignment extends to the relationships between diverse tokens, enhancing the
projection of entities across languages. We further augment CrossNER by
combining self-training with labeled source data and unlabeled target data. Our
experiments on the XTREME benchmark, spanning 40 languages, demonstrate the
superiority of mCL-NER over prior data-driven and model-based approaches. It
achieves a substantial increase of nearly +2.0 $F_1$ scores across a broad
spectrum and establishes itself as the new state-of-the-art performer.
- Abstract(参考訳): 言語間の名前付きエンティティ認識(CrossNER)は多言語コーパスの不足による不均一なパフォーマンスに起因する課題に直面している。
これまでの取り組みは主にデータ駆動転送方式に重点を置いていたが、十分に検討されていない重要な側面は、さまざまな言語にまたがるセマンティックとトークンレベルの表現の整合である。
本稿では,言語横断的名前付きエンティティ認識(mCL-NER)のためのマルチビューコントラスト学習を提案する。
具体的には、CrossNERタスクをトークンのペア間の関係を認識する問題に再構成する。
このアプローチでは、エンティティ内のトークン間接続の固有のコンテキストニュアンスを活用して、さまざまな言語にまたがる表現の調整を可能にします。
多視点のコントラスト学習フレームワークを導入し、ソース、コードスイッチ、ターゲット文間の意味的コントラスト、およびトークンとトークンの関係の間のコントラストを包含する。
セマンティックおよびリレーショナル空間内での合意を強制することにより、ソース文とコード切替およびターゲット文の相違を最小化する。
このアライメントは多様なトークン間の関係にまで拡張され、言語間のエンティティの投影が強化される。
さらに,ラベル付きソースデータとラベルなしターゲットデータとの自己学習を組み合わせることで,クロスナーをさらに強化する。
40言語にわたるXTREMEベンチマーク実験では,従来のデータ駆動型およびモデルベースアプローチよりもmCL-NERの方が優れていることを示した。
幅広い範囲で2.0ドル近いスコアを達成し、新たな最先端のパフォーマーとしての地位を確立している。
関連論文リスト
- Multimodal LLM Enhanced Cross-lingual Cross-modal Retrieval [40.83470534691711]
言語間クロスモーダル検索(CCR)は、非英語クエリに基づいて視覚的に関連のあるコンテンツを検索することを目的としている。
1つの一般的なアプローチは、擬似並列データペアを作成するために機械翻訳(MT)を利用することである。
視覚表現と非英語表現の整合性を改善するため,多モーダル大言語モデル(MLLM)を組み込んだ新しいソリューションLE CCRを提案する。
論文 参考訳(メタデータ) (2024-09-30T05:25:51Z) - CL2CM: Improving Cross-Lingual Cross-Modal Retrieval via Cross-Lingual
Knowledge Transfer [23.58317401302547]
本稿では,言語間移動を用いた視覚と対象言語間のアライメントを改善する汎用フレームワークCL2CMを提案する。
提案手法は,Multi30KとMSCOCOの2つの多言語画像テキストデータセットと,ビデオテキストデータセットVATEXである。
論文 参考訳(メタデータ) (2023-12-14T14:29:53Z) - Improving Self-training for Cross-lingual Named Entity Recognition with
Contrastive and Prototype Learning [80.08139343603956]
言語横断的な実体認識において、自己学習は言語的ギャップを埋めるために一般的に用いられる。
本研究では,表現学習と擬似ラベル改善を組み合わせることで,言語間NERの自己学習を改善することを目的とする。
提案手法,すなわちContProtoは主に,(1)コントラスト型自己学習と(2)プロトタイプベース擬似ラベルの2つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2023-05-23T02:52:16Z) - VECO 2.0: Cross-lingual Language Model Pre-training with
Multi-granularity Contrastive Learning [56.47303426167584]
複数粒度アライメントを持つコントラスト学習に基づく言語間事前学習モデルVECO2.0を提案する。
具体的には、シーケンス・ツー・シーケンスアライメントが誘導され、並列対の類似性を最大化し、非並列対を最小化する。
トークン・ツー・トークンのアライメントは、シソーラス辞書を介して発掘された同義トークンと、バイリンガルな例の他の未使用トークンとのギャップを埋めるために統合される。
論文 参考訳(メタデータ) (2023-04-17T12:23:41Z) - Revisiting Multimodal Representation in Contrastive Learning: From Patch
and Token Embeddings to Finite Discrete Tokens [76.40196364163663]
本稿では,CLIPのような学習型視覚言語事前学習手法を提案する。
提案手法は,より包括的な表現を学習し,意味のある相互対応を捉えることができることを示す。
論文 参考訳(メタデータ) (2023-03-27T00:58:39Z) - ConNER: Consistency Training for Cross-lingual Named Entity Recognition [96.84391089120847]
言語間の名前付きエンティティ認識は、対象言語のデータの不足に悩まされる。
言語間NERのための新しい一貫性トレーニングフレームワークとしてConNERを提案する。
論文 参考訳(メタデータ) (2022-11-17T07:57:54Z) - A Dual-Contrastive Framework for Low-Resource Cross-Lingual Named Entity
Recognition [5.030581940990434]
クロスランガルな名前付きエンティティ認識(NER)は、低リソース言語におけるデータ空白問題を緩和できるため、最近研究ホットスポットになっている。
本稿では,言語間NERのための2言語コントラストフレームワーク ConCNER について述べる。
論文 参考訳(メタデータ) (2022-04-02T07:59:13Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。