論文の概要: Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition
- arxiv url: http://arxiv.org/abs/2106.00241v1
- Date: Tue, 1 Jun 2021 05:46:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-02 14:40:15.594590
- Title: Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition
- Title(参考訳): 言語横断的名前付きエンティティ認識のための強化反復的知識蒸留法
- Authors: Shining Liang, Ming Gong, Jian Pei, Linjun Shou, Wanli Zuo, Xianglin
Zuo, Daxin Jiang
- Abstract要約: 言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
- 参考スコア(独自算出の注目度): 54.92161571089808
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Named entity recognition (NER) is a fundamental component in many
applications, such as Web Search and Voice Assistants. Although deep neural
networks greatly improve the performance of NER, due to the requirement of
large amounts of training data, deep neural networks can hardly scale out to
many languages in an industry setting. To tackle this challenge, cross-lingual
NER transfers knowledge from a rich-resource language to languages with low
resources through pre-trained multilingual language models. Instead of using
training data in target languages, cross-lingual NER has to rely on only
training data in source languages, and optionally adds the translated training
data derived from source languages. However, the existing cross-lingual NER
methods do not make good use of rich unlabeled data in target languages, which
is relatively easy to collect in industry applications. To address the
opportunities and challenges, in this paper we describe our novel practice in
Microsoft to leverage such large amounts of unlabeled data in target languages
in real production settings. To effectively extract weak supervision signals
from the unlabeled data, we develop a novel approach based on the ideas of
semi-supervised learning and reinforcement learning. The empirical study on
three benchmark data sets verifies that our approach establishes the new
state-of-the-art performance with clear edges. Now, the NER techniques reported
in this paper are on their way to become a fundamental component for Web
ranking, Entity Pane, Answers Triggering, and Question Answering in the
Microsoft Bing search engine. Moreover, our techniques will also serve as part
of the Spoken Language Understanding module for a commercial voice assistant.
We plan to open source the code of the prototype framework after deployment.
- Abstract(参考訳): 名前付きエンティティ認識(NER)は、Web SearchやVoice Assistantsなど、多くのアプリケーションの基本コンポーネントである。
ディープニューラルネットワークは、NERの性能を大幅に改善するが、大量のトレーニングデータを必要とするため、ディープニューラルネットワークは業界環境で多くの言語にスケールアウトすることができない。
この課題に対処するため、クロス言語NERは、訓練済みの多言語言語モデルを通じて、リッチリソース言語から低リソース言語へ知識を転送する。
ターゲット言語でトレーニングデータを使用する代わりに、言語間NERはソース言語のトレーニングデータのみに依存し、オプションでソース言語から派生したトレーニングデータを追加する必要がある。
しかし、既存の言語間nerメソッドでは、ターゲット言語でラベルのないリッチなデータをうまく利用していないため、業界アプリケーションでは比較的簡単に収集できる。
この機会と課題に対処するため、本論文では、マイクロソフトにおいて、このような大量のラベルのないデータを実際の運用環境でターゲット言語で活用する新しいプラクティスについて述べる。
ラベルなしデータから弱い監督信号を効果的に抽出するため,半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発した。
3つのベンチマークデータセットに関する実証的研究は、我々のアプローチがクリアなエッジで新しい最先端のパフォーマンスを確立することを検証します。
現在、この論文で報告されているNER技術は、Microsoft Bing検索エンジンにおけるWebランキング、Entity Pane、Answers Triggering、Issue Answeringの基本的なコンポーネントになりつつある。
さらに,本手法は,商用音声アシスタントのための音声言語理解モジュールの一部としても機能する。
デプロイ後にプロトタイプフレームワークのコードをオープンソース化する予定です。
関連論文リスト
- Improving Speech Emotion Recognition in Under-Resourced Languages via Speech-to-Speech Translation with Bootstrapping Data Selection [49.27067541740956]
音声感情認識(SER)は、人間とコンピュータの自然な相互作用が可能な汎用AIエージェントを開発する上で重要な要素である。
英語や中国語以外の言語でラベル付きデータが不足しているため、堅牢な多言語SERシステムの構築は依然として困難である。
本稿では,低SERリソース言語におけるSERの性能向上のための手法を提案する。
論文 参考訳(メタデータ) (2024-09-17T08:36:45Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - Enhancing Low Resource NER Using Assisting Language And Transfer
Learning [0.7340017786387767]
私たちは、教師付きNERモデルをトレーニングするためにbaseBERT、AlBERT、RoBERTaを使用します。
複数の言語を用いて訓練されたモデルは、単一の言語よりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2023-06-10T16:31:04Z) - Efficient Spoken Language Recognition via Multilabel Classification [53.662747523872305]
我々のモデルは,現在の最先端手法よりも桁違いに小さく,高速でありながら,競争力のある結果が得られることを示す。
我々のマルチラベル戦略は、マルチクラス分類よりも非ターゲット言語の方が堅牢である。
論文 参考訳(メタデータ) (2023-06-02T23:04:19Z) - Adaptive Activation Network For Low Resource Multilingual Speech
Recognition [30.460501537763736]
ASRモデルの上位層に適応的アクティベーションネットワークを導入する。
また,(1)クロス言語学習,(2)アクティベーション関数をソース言語からターゲット言語に置き換える,(2)多言語学習という2つの手法を提案する。
IARPA Babelデータセットに関する実験により、我々のアプローチは、オフスクラッチトレーニングや従来のボトルネック機能に基づく手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2022-05-28T04:02:59Z) - A Dual-Contrastive Framework for Low-Resource Cross-Lingual Named Entity
Recognition [5.030581940990434]
クロスランガルな名前付きエンティティ認識(NER)は、低リソース言語におけるデータ空白問題を緩和できるため、最近研究ホットスポットになっている。
本稿では,言語間NERのための2言語コントラストフレームワーク ConCNER について述べる。
論文 参考訳(メタデータ) (2022-04-02T07:59:13Z) - Knowledge Based Multilingual Language Model [44.70205282863062]
知識に基づく多言語言語モデル(KMLM)を事前学習するための新しいフレームワークを提案する。
我々は、ウィキデータ知識グラフを用いて、大量のコード切替合成文と推論に基づく多言語学習データを生成する。
生成したデータの文内構造と文間構造に基づいて,知識学習を容易にするための事前学習タスクを設計する。
論文 参考訳(メタデータ) (2021-11-22T02:56:04Z) - MetaXL: Meta Representation Transformation for Low-resource
Cross-lingual Learning [91.5426763812547]
言語間移動学習は低リソース言語のための機能的NLPシステムを構築するための最も効果的な方法の1つである。
MetaXLは、メタラーニングベースのフレームワークで、表現を補助言語からターゲット言語にジャッジに変換することを学ぶ。
論文 参考訳(メタデータ) (2021-04-16T06:15:52Z) - Meta-Transfer Learning for Code-Switched Speech Recognition [72.84247387728999]
低リソース環境下でのコード切替音声認識システムにおける学習を伝達するメタトランスファー学習法を提案する。
本モデルでは,コードスイッチングデータに最適化を条件付けることにより,個々の言語を識別し,混合言語音声をよりよく認識できるように変換する。
論文 参考訳(メタデータ) (2020-04-29T14:27:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。