論文の概要: WIDER & CLOSER: Mixture of Short-channel Distillers for Zero-shot
Cross-lingual Named Entity Recognition
- arxiv url: http://arxiv.org/abs/2212.03506v1
- Date: Wed, 7 Dec 2022 08:13:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 15:47:38.694397
- Title: WIDER & CLOSER: Mixture of Short-channel Distillers for Zero-shot
Cross-lingual Named Entity Recognition
- Title(参考訳): WIDER & CLOSER:Zero-shot inter-lingual Named Entity Recognitionのための短チャネル蒸留器の混合
- Authors: Jun-Yu Ma, Beiduo Chen, Jia-Chen Gu, Zhen-Hua Ling, Wu Guo, Quan Liu,
Zhigang Chen and Cong Liu
- Abstract要約: 言語横断的なエンティティ認識(NER)は、ソース言語のアノテーション付きおよびリッチリソースデータからターゲット言語のラベルなしおよびリーンリソースデータへの知識の転送を目的としている。
教師と学生の蒸留フレームワークに基づく既存の主流の手法は、事前訓練された言語モデルの中間層に存在する豊かで相補的な情報を無視する。
本研究では,教師モデルにおける豊富な階層情報を完全にやりとりし,学生モデルに知識を十分かつ効率的に伝達するために,短チャネル蒸留器(MSD)の混合方式を提案する。
- 参考スコア(独自算出の注目度): 45.69979439311364
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-shot cross-lingual named entity recognition (NER) aims at transferring
knowledge from annotated and rich-resource data in source languages to
unlabeled and lean-resource data in target languages. Existing mainstream
methods based on the teacher-student distillation framework ignore the rich and
complementary information lying in the intermediate layers of pre-trained
language models, and domain-invariant information is easily lost during
transfer. In this study, a mixture of short-channel distillers (MSD) method is
proposed to fully interact the rich hierarchical information in the teacher
model and to transfer knowledge to the student model sufficiently and
efficiently. Concretely, a multi-channel distillation framework is designed for
sufficient information transfer by aggregating multiple distillers as a
mixture. Besides, an unsupervised method adopting parallel domain adaptation is
proposed to shorten the channels between the teacher and student models to
preserve domain-invariant features. Experiments on four datasets across nine
languages demonstrate that the proposed method achieves new state-of-the-art
performance on zero-shot cross-lingual NER and shows great generalization and
compatibility across languages and fields.
- Abstract(参考訳): Zero-shot クロスランガルなエンティティ認識 (NER) は、アノテートおよびリッチリソースのデータから、ターゲット言語におけるラベルなしおよびリーンリソースデータへの知識の転送を目的としている。
教師・学生の蒸留フレームワークに基づく既存の主流の手法は、事前訓練された言語モデルの中間層に存在する豊かで相補的な情報を無視する。
本研究では,教師モデルにおける豊富な階層情報を完全にやりとりし,学生モデルに知識を十分かつ効率的に伝達するために,短チャネル蒸留器(MSD)の混合方式を提案する。
具体的には、複数の蒸留器を混合として集約することで十分な情報伝達を実現するため、多チャンネル蒸留フレームワークを設計する。
さらに,教師モデルと生徒モデル間のチャネルを短縮し,ドメイン不変性を維持するために並列ドメイン適応を用いた教師なし手法を提案する。
9言語にまたがる4つのデータセットの実験により, ゼロショット言語間NERにおいて, 提案手法が新たな最先端性能を実現し, 言語や分野間での高度な一般化と互換性が示された。
関連論文リスト
- Multi-Stage Knowledge Integration of Vision-Language Models for Continual Learning [79.46570165281084]
蒸留法における人間の学習過程をエミュレートするマルチステージ知識統合ネットワーク(MulKI)を提案する。
Mulkiは、イデオロギーの排除、新しいイデオロギーの追加、イデオロギーの排除、コネクティクスの作りという4つの段階を通じてこれを達成している。
提案手法は,下流タスク間の連続学習をサポートしながら,ゼロショット能力の維持における大幅な改善を示す。
論文 参考訳(メタデータ) (2024-11-11T07:36:19Z) - Lightweight Model Pre-training via Language Guided Knowledge Distillation [28.693835349747598]
本稿では,多くのモバイルデバイスにおいて不可欠な小型モデルの事前学習の問題について検討する。
本稿では,教師と学生の間で伝達される知識の洗練を支援するために,目標下流タスクのカテゴリ名を用いた言語ガイド蒸留(LGD)システムを提案する。
実験結果から,LGD法を用いた蒸留軽量モデルは最先端性能を示し,分類,検出,セグメンテーションなど,様々な下流タスクで検証された。
論文 参考訳(メタデータ) (2024-06-17T16:07:19Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - A Dual-Contrastive Framework for Low-Resource Cross-Lingual Named Entity
Recognition [5.030581940990434]
クロスランガルな名前付きエンティティ認識(NER)は、低リソース言語におけるデータ空白問題を緩和できるため、最近研究ホットスポットになっている。
本稿では,言語間NERのための2言語コントラストフレームワーク ConCNER について述べる。
論文 参考訳(メタデータ) (2022-04-02T07:59:13Z) - MergeDistill: Merging Pre-trained Language Models using Distillation [5.396915402673246]
我々は、最小限の依存関係で彼らの資産を最大限に活用できる方法で、事前訓練されたLMをマージするフレームワークであるMergeDistillを提案する。
我々は,既存の教師LMと,何桁ものデータと固定モデルキャパシティで訓練された教師LMとの競争力や性能を向上する訓練学生LMを活用して,実践的にフレームワークの適用性を実証する。
論文 参考訳(メタデータ) (2021-06-05T08:22:05Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - Collective Wisdom: Improving Low-resource Neural Machine Translation
using Adaptive Knowledge Distillation [42.38435539241788]
並列文ペアの空白は、バイリンガルで低リソースのシナリオで高品質なニューラルネットワーク翻訳(NMT)モデルをトレーニングする上で、大きなハードルとなる。
そこで本研究では, 蒸留過程における教師モデルの貢献度を動的に調整する適応的知識蒸留手法を提案する。
IWSLTからTED Talksから低リソースの5つの言語ペアへ6つの言語ペアのコレクションを転送する実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2020-10-12T04:26:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。