論文の概要: Fine-Tuning BERT with Character-Level Noise for Zero-Shot Transfer to
Dialects and Closely-Related Languages
- arxiv url: http://arxiv.org/abs/2303.17683v1
- Date: Thu, 30 Mar 2023 19:51:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-03 16:05:32.378954
- Title: Fine-Tuning BERT with Character-Level Noise for Zero-Shot Transfer to
Dialects and Closely-Related Languages
- Title(参考訳): 文字レベル雑音を呈する細調整BERTによる辞書および近接言語へのゼロショット転送
- Authors: Aarohi Srivastava and David Chiang
- Abstract要約: BERTを微調整することで、未知の方言や言語へのゼロショットのクロスランガル転送を可能にします。
キャラクタレベルのノイズは、特定の条件下での言語間移動の極めて効果的である。
- 参考スコア(独自算出の注目度): 20.539191533339427
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we induce character-level noise in various forms when
fine-tuning BERT to enable zero-shot cross-lingual transfer to unseen dialects
and languages. We fine-tune BERT on three sentence-level classification tasks
and evaluate our approach on an assortment of unseen dialects and languages. We
find that character-level noise can be an extremely effective agent of
cross-lingual transfer under certain conditions, while it is not as helpful in
others. Specifically, we explore these differences in terms of the nature of
the task and the relationships between source and target languages, finding
that introduction of character-level noise during fine-tuning is particularly
helpful when a task draws on surface level cues and the source-target
cross-lingual pair has a relatively high lexical overlap with shorter (i.e.,
less meaningful) unseen tokens on average.
- Abstract(参考訳): 本研究では,BERTを微調整することで,未知の方言や言語へのゼロショットのクロスランガル移動を可能にするため,様々な形態の文字レベルノイズを誘導する。
BERTを3つの文レベルの分類タスクで微調整し、未知の方言や言語へのアプローチを評価する。
文字レベルの雑音は特定の条件下での言語間伝達の極めて有効なエージェントとなりうるが、他の状況ではそれほど役に立たない。
具体的には、タスクの性質と、ソース言語とターゲット言語の関係からこれらの違いを探求し、微調整中の文字レベルノイズの導入は、タスクが表面レベルに描画されるときに特に有用であり、ソース-ターゲットのクロスリンガルペアは、平均的に短い(つまり、あまり意味のない)未確認トークンと比較的高い語彙重なりを持つ。
関連論文リスト
- An Initial Investigation of Language Adaptation for TTS Systems under Low-resource Scenarios [76.11409260727459]
本稿では,最近のSSLベースの多言語TSシステムであるZMM-TTSの言語適応性について検討する。
本研究では,事前学習言語と対象言語との音声学的な類似性が,対象言語の適応性能に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-06-13T08:16:52Z) - Improving Multi-lingual Alignment Through Soft Contrastive Learning [9.454626745893798]
本稿では,事前学習した単言語埋め込みモデルによって測定された文の類似性に基づいて,多言語埋め込みを整合させる新しい手法を提案する。
翻訳文ペアが与えられた場合、言語間埋め込み間の類似性は、単言語教師モデルで測定された文の類似性に従うように、多言語モデルを訓練する。
論文 参考訳(メタデータ) (2024-05-25T09:46:07Z) - Unlikelihood Tuning on Negative Samples Amazingly Improves Zero-Shot
Translation [79.96416609433724]
Zero-shot Translation (ZST)は、トレーニングデータにおいて、目に見えない言語ペア間の翻訳を目的としている。
推論中にゼロショット言語マッピングをガイドする一般的な方法は、ソースとターゲット言語IDを意図的に挿入することである。
近年の研究では、言語IDが時折ZSTタスクのナビゲートに失敗し、ターゲット外問題に悩まされることが示されている。
論文 参考訳(メタデータ) (2023-09-28T17:02:36Z) - Simple yet Effective Code-Switching Language Identification with
Multitask Pre-Training and Transfer Learning [0.7242530499990028]
コードスイッチング(Code-switching)は、カジュアルな設定において、多言語話者が異なる言語の単語を1つの発話で混ぜる言語現象である。
英マンダリン言語指向音声データセットにおける言語識別精度向上のための2つの新しいアプローチを提案する。
我々の最良のモデルでは、実際の英マンダリンのコードスイッチングによる子指向音声コーパスにおいて、0.781のバランスの取れた精度を達成し、以前のベースラインを55.3%上回っている。
論文 参考訳(メタデータ) (2023-05-31T11:43:16Z) - The Interpreter Understands Your Meaning: End-to-end Spoken Language
Understanding Aided by Speech Translation [13.352795145385645]
音声翻訳(ST)は、エンドツーエンドの音声言語理解のために、音声モデルを事前訓練する良い方法である。
我々は,本モデルが単言語および多言語意図分類に基づくベースラインよりも高い性能を達成することを示す。
また、音声要約のための新しいベンチマークデータセットを作成し、低リソース/ゼロショットを英語からフランス語またはスペイン語に転送する。
論文 参考訳(メタデータ) (2023-05-16T17:53:03Z) - Exposing Cross-Lingual Lexical Knowledge from Multilingual Sentence
Encoders [85.80950708769923]
本稿では,多言語言語モデルを用いて,それらのパラメータに格納された言語間語彙の知識量を探索し,元の多言語LMと比較する。
また、この知識を付加的に微調整した多言語モデルにより公開する新しい手法も考案した。
標準ベンチマークの大幅な向上を報告します。
論文 参考訳(メタデータ) (2022-04-30T13:23:16Z) - Cross-lingual Low Resource Speaker Adaptation Using Phonological
Features [2.8080708404213373]
我々は、異なる言語に共通する音韻的特徴のセットに基づいて、言語に依存しないマルチスピーカモデルを訓練する。
対象話者データの32と8の発声で、対応する文献に匹敵する高い話者類似度スコアと自然性を得る。
論文 参考訳(メタデータ) (2021-11-17T12:33:42Z) - Cross-lingual Transfer for Speech Processing using Acoustic Language
Similarity [81.51206991542242]
言語間の移動は、このデジタル分割を橋渡しする魅力的な方法を提供する。
現在の言語間アルゴリズムは、テキストベースのタスクや音声関連タスクを低リソース言語で実現している。
本稿では,数百の言語をまたがる音響的言語間移動対を効率的に同定する言語類似性手法を提案する。
論文 参考訳(メタデータ) (2021-11-02T01:55:17Z) - Improving Zero-shot Cross-lingual Transfer between Closely Related
Languages by injecting Character-level Noise [26.33252528975464]
高資源言語とその方言や近縁言語との言語間移動は、その類似性によって促進されるべきである。
文字レベルの雑音で高リソースの親言語のデータを増大させることで、近縁な品種間の言語間移動を改善するための、単純かつ効果的な戦略を提案する。
論文 参考訳(メタデータ) (2021-09-14T15:38:08Z) - Leveraging Adversarial Training in Self-Learning for Cross-Lingual Text
Classification [52.69730591919885]
本稿では,ラベル保存型入力摂動の最大損失を最小限に抑える半教師付き対向学習法を提案する。
多様な言語群に対する文書分類と意図分類において,有効性が著しく向上するのを観察する。
論文 参考訳(メタデータ) (2020-07-29T19:38:35Z) - A Study of Cross-Lingual Ability and Language-specific Information in
Multilingual BERT [60.9051207862378]
Multilingual BERTは、言語間転送タスクで驚くほどうまく機能します。
データサイズとコンテキストウィンドウサイズは、転送可能性にとって重要な要素です。
多言語BERTの言語間能力を改善するために、計算的に安価だが効果的なアプローチがある。
論文 参考訳(メタデータ) (2020-04-20T11:13:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。