論文の概要: EntityCS: Improving Zero-Shot Cross-lingual Transfer with Entity-Centric
Code Switching
- arxiv url: http://arxiv.org/abs/2210.12540v1
- Date: Sat, 22 Oct 2022 20:05:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 16:17:29.948605
- Title: EntityCS: Improving Zero-Shot Cross-lingual Transfer with Entity-Centric
Code Switching
- Title(参考訳): EntityCS: Entity-Centric Code SwitchingによるZero-Shotクロスランガルトランスファーの改善
- Authors: Chenxi Whitehouse, Fenia Christopoulou, Ignacio Iacobacci
- Abstract要約: Code-Switchingは単語やフレーズレベルで言語アライメントを提供する。
既存のアプローチでは、CSデータを生成するために単語アライメントを持つ辞書やパラレル文を使用する。
本稿では,構文を損なうことなく細粒度な言語間セマンティクスをキャプチャするEntityCSを提案する。
- 参考スコア(独自算出の注目度): 15.884119564193924
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate alignment between languages is fundamental for improving
cross-lingual pre-trained language models (XLMs). Motivated by the natural
phenomenon of code-switching (CS) in multilingual speakers, CS has been used as
an effective data augmentation method that offers language alignment at word-
or phrase-level, in contrast to sentence-level via parallel instances. Existing
approaches either use dictionaries or parallel sentences with word-alignment to
generate CS data by randomly switching words in a sentence. However, such
methods can be suboptimal as dictionaries disregard semantics, and syntax might
become invalid after random word switching. In this work, we propose EntityCS,
a method that focuses on Entity-level Code-Switching to capture fine-grained
cross-lingual semantics without corrupting syntax. We use Wikidata and the
English Wikipedia to construct an entity-centric CS corpus by switching
entities to their counterparts in other languages. We further propose
entity-oriented masking strategies during intermediate model training on the
EntityCS corpus for improving entity prediction. Evaluation of the trained
models on four entity-centric downstream tasks shows consistent improvements
over the baseline with a notable increase of 10% in Fact Retrieval. We release
the corpus and models to assist research on code-switching and enriching XLMs
with external knowledge.
- Abstract(参考訳): 言語間の正確なアライメントは、言語間事前学習言語モデル(XLM)の改善に不可欠である。
多言語話者におけるコードスイッチング(CS)の自然現象に触発されたCSは、並列インスタンスによる文レベルとは対照的に、語句レベルで言語アライメントを提供する効果的なデータ拡張手法として用いられてきた。
既存のアプローチでは、単語をランダムに切り換えることでcsデータを生成するために辞書またはワードアラインメント付き並列文を使用する。
しかし、そのような方法は意味論を無視した辞書として最適であり、ランダムな単語の切り換え後に構文が無効になる可能性がある。
本稿では,エンティティレベルのコード切り換えに着目し,構文を損なうことなく,きめ細かな言語間意味論を捉える方法であるentitycsを提案する。
我々はWikidataと英語ウィキペディアを使って、エンティティを他の言語のエンティティに切り替えることでエンティティ中心のCSコーパスを構築する。
さらに、エンティティ予測を改善するために、EntityCSコーパスの中間モデルトレーニング中のエンティティ指向マスキング戦略を提案する。
4つのエンティティ中心の下流タスクにおけるトレーニングモデルの評価は、Fact Retrievalの10%の顕著な増加とともに、ベースラインに対する一貫した改善を示している。
コーパスとモデルをリリースし、コードスイッチングと外部知識によるXLMの強化を支援する。
関連論文リスト
- Cross-lingual Back-Parsing: Utterance Synthesis from Meaning Representation for Zero-Resource Semantic Parsing [6.074150063191985]
Cross-Lingual Back-Parsing(クロスリンガル・バック・パーシング)は、セマンティック・パーシングのためのクロスリンガル・トランスファーを強化するために設計された新しいデータ拡張手法である。
提案手法は,ゼロリソース設定に挑戦する上で,言語間データ拡張を効果的に行う。
論文 参考訳(メタデータ) (2024-10-01T08:53:38Z) - mCL-NER: Cross-Lingual Named Entity Recognition via Multi-view
Contrastive Learning [54.523172171533645]
CrossNERは多言語コーパスの不足により不均一な性能から生じる課題に直面している。
言語横断的名前付きエンティティ認識(mCL-NER)のためのマルチビューコントラスト学習を提案する。
40言語にまたがるXTREMEベンチマーク実験では、従来のデータ駆動型およびモデルベースアプローチよりもmCL-NERの方が優れていることを示した。
論文 参考訳(メタデータ) (2023-08-17T16:02:29Z) - Does Manipulating Tokenization Aid Cross-Lingual Transfer? A Study on
POS Tagging for Non-Standardized Languages [18.210880703295253]
3つの異なる家系の7つの言語で事前訓練された言語モデル(PLM)を精査する。
我々は,そのゼロショット性能を,近縁な非標準多様体で解析する。
全体として、ソース内のサブワードに分割される単語の割合とターゲットデータとの類似性が、ターゲットデータ上でのモデル性能の予測に最強であることが判明した。
論文 参考訳(メタデータ) (2023-04-20T08:32:34Z) - CROP: Zero-shot Cross-lingual Named Entity Recognition with Multilingual
Labeled Sequence Translation [113.99145386490639]
言語間NERは、整列した言語間表現や機械翻訳結果を通じて、言語間で知識を伝達することができる。
ゼロショット言語間NERを実現するために,クロスランガル・エンティティ・プロジェクション・フレームワーク(CROP)を提案する。
多言語ラベル付きシーケンス翻訳モデルを用いて、タグ付けされたシーケンスをターゲット言語に投影し、ターゲットの原文にラベル付けする。
論文 参考訳(メタデータ) (2022-10-13T13:32:36Z) - Exposing Cross-Lingual Lexical Knowledge from Multilingual Sentence
Encoders [85.80950708769923]
本稿では,多言語言語モデルを用いて,それらのパラメータに格納された言語間語彙の知識量を探索し,元の多言語LMと比較する。
また、この知識を付加的に微調整した多言語モデルにより公開する新しい手法も考案した。
標準ベンチマークの大幅な向上を報告します。
論文 参考訳(メタデータ) (2022-04-30T13:23:16Z) - End-to-End Speech Translation for Code Switched Speech [13.97982457879585]
コードスイッチング(英: Code switch, CS)とは、異なる言語の単語やフレーズを相互に使用する現象である。
我々は,音声翻訳作業(ST)における英語とスペイン語の会話の文脈において,CSに着目し,書き起こしと翻訳の両方を生成・評価する。
我々のSTアーキテクチャ、特に双方向のエンドツーエンドアーキテクチャは、CS訓練データを使用しなくても、CS音声でよく機能することを示す。
論文 参考訳(メタデータ) (2022-04-11T13:25:30Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z) - On the Importance of Word Order Information in Cross-lingual Sequence
Labeling [80.65425412067464]
ソース言語の単語順に適合する言語間モデルでは、ターゲット言語を処理できない可能性がある。
本研究では,ソース言語の単語順序に敏感なモデルを作成することで,対象言語の適応性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2020-01-30T03:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。