論文の概要: CL-NERIL: A Cross-Lingual Model for NER in Indian Languages
- arxiv url: http://arxiv.org/abs/2111.11815v1
- Date: Tue, 23 Nov 2021 12:09:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-24 15:00:33.532318
- Title: CL-NERIL: A Cross-Lingual Model for NER in Indian Languages
- Title(参考訳): CL-NERIL:インドの言語におけるNERの言語横断モデル
- Authors: Akshara Prabhakar, Gouri Sankar Majumder, Ashish Anand
- Abstract要約: 本稿では,インドの言語を対象としたNERのエンドツーエンドフレームワークを提案する。
我々は、英語とインド語の並列コーパスと英語のNERデータセットを利用する。
Hindi、Bengali、Gujaratiの3言語に対して手動でアノテートしたテストセットを提示する。
- 参考スコア(独自算出の注目度): 0.5926203312586108
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Developing Named Entity Recognition (NER) systems for Indian languages has
been a long-standing challenge, mainly owing to the requirement of a large
amount of annotated clean training instances. This paper proposes an end-to-end
framework for NER for Indian languages in a low-resource setting by exploiting
parallel corpora of English and Indian languages and an English NER dataset.
The proposed framework includes an annotation projection method that combines
word alignment score and NER tag prediction confidence score on source language
(English) data to generate weakly labeled data in a target Indian language. We
employ a variant of the Teacher-Student model and optimize it jointly on the
pseudo labels of the Teacher model and predictions on the generated weakly
labeled data. We also present manually annotated test sets for three Indian
languages: Hindi, Bengali, and Gujarati. We evaluate the performance of the
proposed framework on the test sets of the three Indian languages. Empirical
results show a minimum 10% performance improvement compared to the zero-shot
transfer learning model on all languages. This indicates that weakly labeled
data generated using the proposed annotation projection method in target Indian
languages can complement well-annotated source language data to enhance
performance. Our code is publicly available at
https://github.com/aksh555/CL-NERIL
- Abstract(参考訳): インド言語のための名前付きエンティティ認識(NER)システムの開発は、主に大量の注釈付きクリーントレーニングインスタンスを必要とするため、長年にわたる課題であった。
本稿では,英語とインド語の並列コーパスと英語のNERデータセットを利用して,低リソース環境下でのNERのエンドツーエンドフレームワークを提案する。
提案手法は, 単語アライメントスコアとnerタグ予測信頼度スコアをソース言語(英語)データに組み合わせ, 対象インド語で弱いラベル付きデータを生成するアノテーション投影手法を含む。
教師・生徒モデルの変種を用いて,教師モデルの擬似ラベルと,生成された弱ラベルデータに対する予測を共同で最適化する。
また、ヒンディー語、ベンガル語、グジャラート語の3つの言語に対して手動で注釈付きテストセットを提示する。
本研究では,インド三言語テストセットにおける提案フレームワークの性能評価を行った。
実験結果から,全言語におけるゼロショット転送学習モデルと比較して10%以上の性能向上が得られた。
この結果から,提案手法を用いて生成した弱ラベル付きデータを対象インドの言語で記述することにより,十分な注釈付きソース言語データを補完し,性能を向上させることが示唆された。
私たちのコードはhttps://github.com/aksh555/CL-NERILで公開されています。
関連論文リスト
- Fine-tuning Pre-trained Named Entity Recognition Models For Indian Languages [6.7638050195383075]
課題を分析し,インド語の多言語名称認識に適した手法を提案する。
主要な2つのインド語族から4つのインド語に対する40K文の注釈付きエンティティコーパスを提示する。
我々は、我々のモデルの有用性を裏付けるインド言語のための、全く見当たらないベンチマークデータセットにおいて、同等のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-05-08T05:54:54Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - XRICL: Cross-lingual Retrieval-Augmented In-Context Learning for
Cross-lingual Text-to-SQL Semantic Parsing [70.40401197026925]
大規模言語モデルを用いたインコンテキスト学習は、最近セマンティック解析タスクの驚くべき結果を示している。
この研究は、あるクエリに対して関連する英語の例を検索する学習を行うXRICLフレームワークを導入している。
また、大規模言語モデルの翻訳プロセスを容易にするために、対象言語に対するグローバルな翻訳例も含んでいる。
論文 参考訳(メタデータ) (2022-10-25T01:33:49Z) - MasakhaNER 2.0: Africa-centric Transfer Learning for Named Entity
Recognition [55.95128479289923]
アフリカ系言語は10億人を超える人々によって話されているが、NLPの研究や開発ではあまり語られていない。
我々は、20のアフリカ言語で最大の人間アノテーション付きNERデータセットを作成します。
最適な転送言語を選択すると、ゼロショットF1スコアが平均14ポイント向上することを示す。
論文 参考訳(メタデータ) (2022-10-22T08:53:14Z) - CROP: Zero-shot Cross-lingual Named Entity Recognition with Multilingual
Labeled Sequence Translation [113.99145386490639]
言語間NERは、整列した言語間表現や機械翻訳結果を通じて、言語間で知識を伝達することができる。
ゼロショット言語間NERを実現するために,クロスランガル・エンティティ・プロジェクション・フレームワーク(CROP)を提案する。
多言語ラベル付きシーケンス翻訳モデルを用いて、タグ付けされたシーケンスをターゲット言語に投影し、ターゲットの原文にラベル付けする。
論文 参考訳(メタデータ) (2022-10-13T13:32:36Z) - HiNER: A Large Hindi Named Entity Recognition Dataset [29.300418937509317]
本稿では,11個のタグを付加した109,146文と2,220,856トークンを含む標準Hindi NERデータセットをリリースする。
データセット内のタグセットの統計は、特に人、場所、組織といった著名なクラスにおいて、タグ単位の分布が健全であることを示している。
我々のデータセットは、すべてのタグで重み付けされたF1スコア88.78、タグセットが崩壊したときに92.22を達成するのに役立ちます。
論文 参考訳(メタデータ) (2022-04-28T19:14:21Z) - A Dual-Contrastive Framework for Low-Resource Cross-Lingual Named Entity
Recognition [5.030581940990434]
クロスランガルな名前付きエンティティ認識(NER)は、低リソース言語におけるデータ空白問題を緩和できるため、最近研究ホットスポットになっている。
本稿では,言語間NERのための2言語コントラストフレームワーク ConCNER について述べる。
論文 参考訳(メタデータ) (2022-04-02T07:59:13Z) - A Data Bootstrapping Recipe for Low Resource Multilingual Relation
Classification [38.83366564843953]
IndoREは21Kのエンティティと3つのインド語と英語でタグ付けされた金の文を持つデータセットである。
まず,多言語BERT (mBERT) ベースのシステムから始める。
我々は、高価な金のインスタンスと翻訳された'銀のインスタンスと整合した'銀のインスタンスとの精度のトレードオフについて検討する。
論文 参考訳(メタデータ) (2021-10-18T18:40:46Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - Indic-Transformers: An Analysis of Transformer Language Models for
Indian Languages [0.8155575318208631]
Transformerアーキテクチャに基づく言語モデルは、幅広いNLPタスクにおいて最先端のパフォーマンスを達成した。
しかしながら、このパフォーマンスは通常、英語、フランス語、スペイン語、ドイツ語などの高リソース言語でテストされ、報告される。
一方、インドの言語はそのようなベンチマークでは表現されていない。
論文 参考訳(メタデータ) (2020-11-04T14:43:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。