論文の概要: Improving Zero-shot Cross-lingual Transfer between Closely Related
Languages by injecting Character-level Noise
- arxiv url: http://arxiv.org/abs/2109.06772v1
- Date: Tue, 14 Sep 2021 15:38:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-15 20:08:37.835405
- Title: Improving Zero-shot Cross-lingual Transfer between Closely Related
Languages by injecting Character-level Noise
- Title(参考訳): 文字レベル雑音の注入による近接言語間のゼロショット言語間移動の改善
- Authors: No\"emi Aepli and Rico Sennrich
- Abstract要約: 高資源言語とその方言や近縁言語との言語間移動は、その類似性によって促進されるべきである。
文字レベルの雑音で高リソースの親言語のデータを増大させることで、近縁な品種間の言語間移動を改善するための、単純かつ効果的な戦略を提案する。
- 参考スコア(独自算出の注目度): 26.33252528975464
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cross-lingual transfer between a high-resource language and its dialects or
closely related language varieties should be facilitated by their similarity,
but current approaches that operate in the embedding space do not take surface
similarity into account. In this work, we present a simple yet effective
strategy to improve cross-lingual transfer between closely related varieties by
augmenting the data of the high-resource parent language with character-level
noise to make the model more robust towards spelling variations. Our strategy
shows consistent improvements over several languages and tasks: Zero-shot
transfer of POS tagging and topic identification between language varieties
from the Germanic, Uralic, and Romance language genera. Our work provides
evidence for the usefulness of simple surface-level noise in improving transfer
between language varieties.
- Abstract(参考訳): 高リソース言語とその方言や近縁言語との言語間移動は、その類似性によって促進されるべきであるが、埋め込み空間で機能する現在のアプローチは、表面的類似性を考慮していない。
本研究では,文字レベルのノイズを伴って高リソースの親言語のデータを増大させ,スペル変化に対してモデルをより堅牢にすることで,近縁な品種間の言語間移動を改善するための簡易かつ効果的な手法を提案する。
POSタグのゼロショット転送と、ゲルマン語、ウルリク語、ロマンス語からの言語品種間のトピック識別。
本研究は, 言語品種間の移動を改善する上で, 簡易な表面レベルノイズの有用性を示すものである。
関連論文リスト
- Self-Augmentation Improves Zero-Shot Cross-Lingual Transfer [92.80671770992572]
言語間移動は多言語NLPにおける中心的なタスクである。
このタスクの以前の作業では、並列コーパス、バイリンガル辞書、その他の注釈付きアライメントデータを使用していた。
ゼロショットの言語間移動を改善するため, 単純で効果的なSALT法を提案する。
論文 参考訳(メタデータ) (2023-09-19T19:30:56Z) - Enhancing Cross-lingual Transfer via Phonemic Transcription Integration [57.109031654219294]
PhoneXLは、音素転写を言語間移動のための追加のモダリティとして組み込んだフレームワークである。
本研究は, 音素転写が, 言語間移動を促進するために, 正書法以外の重要な情報を提供することを示すものである。
論文 参考訳(メタデータ) (2023-07-10T06:17:33Z) - Optimal Transport Posterior Alignment for Cross-lingual Semantic Parsing [68.47787275021567]
言語間のセマンティックパーシングは、高いソース言語(例えば英語)から少ないトレーニングデータを持つ低リソース言語へのパーシング能力を伝達する。
そこで本稿では,最適輸送を用いた係り受け変数間の言語間相違を明示的に最小化することで,言語間セマンティック解析のための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-09T04:52:31Z) - Transfer to a Low-Resource Language via Close Relatives: The Case Study
on Faroese [54.00582760714034]
言語間のNLP転送は、高ソース言語のデータとモデルを活用することで改善できる。
我々は、名前付きエンティティ認識(NER)、セマンティックテキスト類似性(STS)、スカンジナビア全言語で訓練された新しい言語モデルのためのFaroeseデータセットとFaroeseデータセットの新しいWebコーパスをリリースする。
論文 参考訳(メタデータ) (2023-04-18T08:42:38Z) - Fine-Tuning BERT with Character-Level Noise for Zero-Shot Transfer to
Dialects and Closely-Related Languages [20.539191533339427]
BERTを微調整することで、未知の方言や言語へのゼロショットのクロスランガル転送を可能にします。
キャラクタレベルのノイズは、特定の条件下での言語間移動の極めて効果的である。
論文 参考訳(メタデータ) (2023-03-30T19:51:18Z) - DiTTO: A Feature Representation Imitation Approach for Improving
Cross-Lingual Transfer [15.062937537799005]
ゼロショット転送を改善するためのドメインとしての言語。
我々のアプローチであるDiTTOは、標準のゼロショット微調整法よりも大幅に優れていることを示す。
我々のモデルは、数ショット設定であっても、標準的な微調整法よりも言語間移動がより良くできる。
論文 参考訳(メタデータ) (2023-03-04T08:42:50Z) - A Simple and Effective Method to Improve Zero-Shot Cross-Lingual
Transfer Learning [6.329304732560936]
既存のゼロショットのクロスリンガル転送法は、並列コーパスやバイリンガル辞書に依存している。
意味喪失のない仮想多言語埋め込みに英語の埋め込みを移すための埋め込み・プッシュ・アテンション・プル・ロバスト・ターゲットを提案する。
論文 参考訳(メタデータ) (2022-10-18T15:36:53Z) - Data-adaptive Transfer Learning for Translation: A Case Study in Haitian
and Jamaican [4.4096464238164295]
転送の有効性は,学習データ量と言語間の関係と相関していることを示す。
規則に基づくフランス・ハイチの正書法・構文エンジンと音韻埋め込みの新しい手法を提案する。
非常に低リソースのジャマイカ MT では、正書法的な類似性のためのコードスイッチングは 6.63 BLEU 点の優位性をもたらす。
論文 参考訳(メタデータ) (2022-09-13T20:58:46Z) - When is BERT Multilingual? Isolating Crucial Ingredients for
Cross-lingual Transfer [15.578267998149743]
サブワード重複の欠如は,言語が単語順に異なる場合,ゼロショット転送に大きく影響することを示す。
言語間の伝達性能と単語埋め込みアライメントの間には強い相関関係がある。
その結果、言語間の単語埋め込みアライメントを明示的に改善する多言語モデルに焦点が当てられた。
論文 参考訳(メタデータ) (2021-10-27T21:25:39Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z) - Robust Cross-lingual Embeddings from Parallel Sentences [65.85468628136927]
本稿では,文整合コーパスを利用して頑健な言語間単語表現を実現するCBOW手法のバイリンガル拡張を提案する。
提案手法は,他のすべての手法と比較して,言語間文検索性能を著しく向上させる。
また、ゼロショットのクロスランガル文書分類タスクにおいて、ディープRNN法と同等性を実現する。
論文 参考訳(メタデータ) (2019-12-28T16:18:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。