論文の概要: Revisiting Projection-based Data Transfer for Cross-Lingual Named Entity Recognition in Low-Resource Languages
- arxiv url: http://arxiv.org/abs/2501.18750v1
- Date: Thu, 30 Jan 2025 21:00:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-03 14:02:36.538178
- Title: Revisiting Projection-based Data Transfer for Cross-Lingual Named Entity Recognition in Low-Resource Languages
- Title(参考訳): 低リソース言語における言語間名前付きエンティティ認識のためのプロジェクションベースデータ転送の再検討
- Authors: Andrei Politov, Oleh Shkalikov, René Jäkel, Michael Färber,
- Abstract要約: 本手法は, クロスリンガルNERに有効な手法であることを示す。
本稿では,対象候補を抽出したソースエンティティとマッチングする新しい形式化されたプロジェクション手法を提案する。
これらの知見は、低リソース言語におけるクロスリンガルなエンティティ認識のためのモデルベース手法の代替として、プロジェクションベースのデータ転送の堅牢性を強調している。
- 参考スコア(独自算出の注目度): 8.612181075294327
- License:
- Abstract: Cross-lingual Named Entity Recognition (NER) leverages knowledge transfer between languages to identify and classify named entities, making it particularly useful for low-resource languages. We show that the data-based cross-lingual transfer method is an effective technique for crosslingual NER and can outperform multilingual language models for low-resource languages. This paper introduces two key enhancements to the annotation projection step in cross-lingual NER for low-resource languages. First, we explore refining word alignments using back-translation to improve accuracy. Second, we present a novel formalized projection approach of matching source entities with extracted target candidates. Through extensive experiments on two datasets spanning 57 languages, we demonstrated that our approach surpasses existing projectionbased methods in low-resource settings. These findings highlight the robustness of projection-based data transfer as an alternative to model-based methods for crosslingual named entity recognition in lowresource languages.
- Abstract(参考訳): 言語間の名前付きエンティティ認識(NER)は、名前付きエンティティを識別し分類するために言語間の知識伝達を利用する。
本手法は多言語間NERにおいて有効な手法であり,低リソース言語における多言語言語モデルよりも優れていることを示す。
本稿では,低リソース言語用言語間NERにおけるアノテーションプロジェクションステップの2つの重要な拡張について紹介する。
まず,バックトランスレーションによる単語アライメントの精細化について検討し,精度を向上する。
第2に,対象候補を抽出したソースエンティティとマッチングする,新しい形式化されたプロジェクション手法を提案する。
57言語にまたがる2つのデータセットに関する広範な実験を通して、我々のアプローチが、低リソース環境における既存のプロジェクションベースの手法を超えることを実証した。
これらの知見は、低リソース言語におけるクロスリンガルなエンティティ認識のためのモデルベース手法の代替として、プロジェクションベースのデータ転送の堅牢性を強調している。
関連論文リスト
- Cross-Lingual Transfer for Low-Resource Natural Language Processing [0.32634122554914]
言語間移動学習は、NLPの性能を向上させるために、高ソース言語からのデータとモデルを活用する研究分野である。
この論文は、最先端のアノテーション投影法であるT-プロジェクションを用いて、データベースの転送を改善する新しい方法を提案する。
モデルベース転送では,ゼロショット設定で言語間連続ラベルを拡張可能な制約付き復号アルゴリズムを導入する。
最後に,最初の多言語テキスト・テキスト・メディカルモデルであるMedical mT5を開発した。
論文 参考訳(メタデータ) (2025-02-04T21:17:46Z) - Cross-lingual Back-Parsing: Utterance Synthesis from Meaning Representation for Zero-Resource Semantic Parsing [6.074150063191985]
Cross-Lingual Back-Parsing(クロスリンガル・バック・パーシング)は、セマンティック・パーシングのためのクロスリンガル・トランスファーを強化するために設計された新しいデータ拡張手法である。
提案手法は,ゼロリソース設定に挑戦する上で,言語間データ拡張を効果的に行う。
論文 参考訳(メタデータ) (2024-10-01T08:53:38Z) - Cross-Lingual Transfer Robustness to Lower-Resource Languages on Adversarial Datasets [4.653113033432781]
多言語言語モデル(MLLM)の言語間伝達能力について検討した。
本研究は,言語間移動とそのNLP応用への応用に関する貴重な知見を提供する。
論文 参考訳(メタデータ) (2024-03-29T08:47:15Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Transfer to a Low-Resource Language via Close Relatives: The Case Study
on Faroese [54.00582760714034]
言語間のNLP転送は、高ソース言語のデータとモデルを活用することで改善できる。
我々は、名前付きエンティティ認識(NER)、セマンティックテキスト類似性(STS)、スカンジナビア全言語で訓練された新しい言語モデルのためのFaroeseデータセットとFaroeseデータセットの新しいWebコーパスをリリースする。
論文 参考訳(メタデータ) (2023-04-18T08:42:38Z) - Progressive Sentiment Analysis for Code-Switched Text Data [26.71396390928905]
私たちは、ラベル付きリソース豊富な言語データセットと、ラベルなしのコード変更データを持つコード変更感情分析に重点を置いています。
資源豊富な言語と低リソース言語を区別する枠組みを提案する。
論文 参考訳(メタデータ) (2022-10-25T23:13:53Z) - CROP: Zero-shot Cross-lingual Named Entity Recognition with Multilingual
Labeled Sequence Translation [113.99145386490639]
言語間NERは、整列した言語間表現や機械翻訳結果を通じて、言語間で知識を伝達することができる。
ゼロショット言語間NERを実現するために,クロスランガル・エンティティ・プロジェクション・フレームワーク(CROP)を提案する。
多言語ラベル付きシーケンス翻訳モデルを用いて、タグ付けされたシーケンスをターゲット言語に投影し、ターゲットの原文にラベル付けする。
論文 参考訳(メタデータ) (2022-10-13T13:32:36Z) - A Dual-Contrastive Framework for Low-Resource Cross-Lingual Named Entity
Recognition [5.030581940990434]
クロスランガルな名前付きエンティティ認識(NER)は、低リソース言語におけるデータ空白問題を緩和できるため、最近研究ホットスポットになっている。
本稿では,言語間NERのための2言語コントラストフレームワーク ConCNER について述べる。
論文 参考訳(メタデータ) (2022-04-02T07:59:13Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。