論文の概要: UniTrans: Unifying Model Transfer and Data Transfer for Cross-Lingual
Named Entity Recognition with Unlabeled Data
- arxiv url: http://arxiv.org/abs/2007.07683v1
- Date: Wed, 15 Jul 2020 13:46:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 05:35:37.986061
- Title: UniTrans: Unifying Model Transfer and Data Transfer for Cross-Lingual
Named Entity Recognition with Unlabeled Data
- Title(参考訳): UniTrans: ラベルなしデータを用いた言語間名前付きエンティティ認識のためのモデル転送とデータ転送
- Authors: Qianhui Wu and Zijia Lin and B\"orje F. Karlsson and Biqing Huang and
Jian-Guang Lou
- Abstract要約: 言語間NERのためのモデルとデータ転送を統一するUniTransと呼ばれる新しい手法を提案する。
提案したUniTransを,ベンチマークデータセットを用いて4つのターゲット言語で評価した。
- 参考スコア(独自算出の注目度): 28.8970132244542
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prior works in cross-lingual named entity recognition (NER) with no/little
labeled data fall into two primary categories: model transfer based and data
transfer based methods. In this paper we find that both method types can
complement each other, in the sense that, the former can exploit context
information via language-independent features but sees no task-specific
information in the target language; while the latter generally generates pseudo
target-language training data via translation but its exploitation of context
information is weakened by inaccurate translations. Moreover, prior works
rarely leverage unlabeled data in the target language, which can be
effortlessly collected and potentially contains valuable information for
improved results. To handle both problems, we propose a novel approach termed
UniTrans to Unify both model and data Transfer for cross-lingual NER, and
furthermore, to leverage the available information from unlabeled
target-language data via enhanced knowledge distillation. We evaluate our
proposed UniTrans over 4 target languages on benchmark datasets. Our
experimental results show that it substantially outperforms the existing
state-of-the-art methods.
- Abstract(参考訳): ラベル付きデータなしの言語間名前付きエンティティ認識(NER)における先行研究は、モデル転送ベースとデータ転送ベースメソッドの2つの主要なカテゴリに分類される。
本稿では,2つの手法が互いに補完しあうことを見出し,前者は言語に依存しない特徴によって文脈情報を活用できるが,対象言語にはタスク固有の情報がない,後者は翻訳によって擬似的対象言語訓練データを生成するが,その文脈情報の活用は不正確な翻訳によって弱められている。
さらに、事前の作業では、対象言語にラベルのないデータを活用することは滅多にありません。
そこで本研究では,クロスリンガル・ナーのモデルとデータ転送を統一し,さらに知識蒸留によりラベル付されていない対象言語データから利用可能な情報を活用するために,unitransという新しい手法を提案する。
ベンチマークデータセット上で提案する4つのターゲット言語に対するunitransの評価を行った。
実験結果から,既存の最先端手法を著しく上回る結果が得られた。
関連論文リスト
- Constrained Decoding for Cross-lingual Label Projection [27.567195418950966]
ラベル付き学習データを持たない低リソース言語では,多言語 LLM を用いた言語間移動が一般的な学習パラダイムとなっている。
しかし、単語やフレーズの微粒な予測を含むNLPタスクでは、ゼロショットの言語間移動学習は教師付き微調整法よりもはるかに遅れている。
論文 参考訳(メタデータ) (2024-02-05T15:57:32Z) - Maximizing Data Efficiency for Cross-Lingual TTS Adaptation by
Self-Supervised Representation Mixing and Embedding Initialization [57.38123229553157]
本稿では,テキスト音声合成システムにおける言語適応のための効果的な伝達学習フレームワークを提案する。
ラベル付きおよびラベルなしの最小データを用いて言語適応を実現することに注力する。
実験結果から,本フレームワークは,ラベル付きデータの4つの発声とラベル付きデータの15分で,未知の言語で理解不能な音声を合成できることが示唆された。
論文 参考訳(メタデータ) (2024-01-23T21:55:34Z) - Optimal Transport Posterior Alignment for Cross-lingual Semantic Parsing [68.47787275021567]
言語間のセマンティックパーシングは、高いソース言語(例えば英語)から少ないトレーニングデータを持つ低リソース言語へのパーシング能力を伝達する。
そこで本稿では,最適輸送を用いた係り受け変数間の言語間相違を明示的に最小化することで,言語間セマンティック解析のための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-09T04:52:31Z) - ConNER: Consistency Training for Cross-lingual Named Entity Recognition [96.84391089120847]
言語間の名前付きエンティティ認識は、対象言語のデータの不足に悩まされる。
言語間NERのための新しい一貫性トレーニングフレームワークとしてConNERを提案する。
論文 参考訳(メタデータ) (2022-11-17T07:57:54Z) - Model and Data Transfer for Cross-Lingual Sequence Labelling in
Zero-Resource Settings [10.871587311621974]
我々は、ゼロショット設定に適用された高容量多言語言語モデルが、データベースのクロスランガルトランスファーアプローチより一貫して優れていることを実験的に実証した。
この結果の詳細な分析は、言語使用における重要な違いによる可能性があることを示唆している。
また,高容量多言語言語モデルが利用できない場合,データに基づく多言語間移動アプローチが競争力のある選択肢であることも示唆した。
論文 参考訳(メタデータ) (2022-10-23T05:37:35Z) - CROP: Zero-shot Cross-lingual Named Entity Recognition with Multilingual
Labeled Sequence Translation [113.99145386490639]
言語間NERは、整列した言語間表現や機械翻訳結果を通じて、言語間で知識を伝達することができる。
ゼロショット言語間NERを実現するために,クロスランガル・エンティティ・プロジェクション・フレームワーク(CROP)を提案する。
多言語ラベル付きシーケンス翻訳モデルを用いて、タグ付けされたシーケンスをターゲット言語に投影し、ターゲットの原文にラベル付けする。
論文 参考訳(メタデータ) (2022-10-13T13:32:36Z) - CONCRETE: Improving Cross-lingual Fact-checking with Cross-lingual
Retrieval [73.48591773882052]
ほとんどのファクトチェックアプローチは、他の言語におけるデータ不足の問題にのみ英語に焦点を当てている。
クロスリンガル検索を付加した最初のファクトチェックフレームワークを提案する。
提案したクロスリンガル逆クローズタスク(XICT)を用いてレトリバーを訓練する。
論文 参考訳(メタデータ) (2022-09-05T17:36:14Z) - A Dual-Contrastive Framework for Low-Resource Cross-Lingual Named Entity
Recognition [5.030581940990434]
クロスランガルな名前付きエンティティ認識(NER)は、低リソース言語におけるデータ空白問題を緩和できるため、最近研究ホットスポットになっている。
本稿では,言語間NERのための2言語コントラストフレームワーク ConCNER について述べる。
論文 参考訳(メタデータ) (2022-04-02T07:59:13Z) - On the Language Coverage Bias for Neural Machine Translation [81.81456880770762]
言語カバレッジバイアスは、ニューラルネットワーク翻訳(NMT)において重要である。
実験を慎重に設計することにより、トレーニングデータにおける言語カバレッジバイアスの包括的分析を行う。
本稿では,言語カバレッジバイアス問題を軽減するための,シンプルで効果的な2つのアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-07T01:55:34Z) - AdvPicker: Effectively Leveraging Unlabeled Data via Adversarial
Discriminator for Cross-Lingual NER [2.739898536581301]
エンコーダがラベル付きソースコードからエンティティドメインの知識を学習する逆学習フレームワークを設計する。
提案手法は, このデータ選択プロセスの恩恵を強く受け, 既存の最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-04T07:17:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。