論文の概要: Cross-Lingual Transfer from Related Languages: Treating Low-Resource
Maltese as Multilingual Code-Switching
- arxiv url: http://arxiv.org/abs/2401.16895v2
- Date: Sat, 3 Feb 2024 07:26:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 02:29:06.982672
- Title: Cross-Lingual Transfer from Related Languages: Treating Low-Resource
Maltese as Multilingual Code-Switching
- Title(参考訳): 関連言語からの言語間移動:多言語コードスイッチングとしての低リソースマルタ処理
- Authors: Kurt Micallef, Nizar Habash, Claudia Borg, Fadhl Eryani, Houda Bouamor
- Abstract要約: 我々は、アラビア語、イタリア語、英語からかなりの影響を受け、特にラテン語の文字で書かれたマルタ語に焦点を当てている。
単語レベルの語源を付加した新しいデータセットを提案する。
単語の語源に基づく条件翻訳は,非選択的なパイプラインで処理されたマルタ語やマルタ語による微調整よりも優れた結果が得られることを示す。
- 参考スコア(独自算出の注目度): 9.435669487585917
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although multilingual language models exhibit impressive cross-lingual
transfer capabilities on unseen languages, the performance on downstream tasks
is impacted when there is a script disparity with the languages used in the
multilingual model's pre-training data. Using transliteration offers a
straightforward yet effective means to align the script of a resource-rich
language with a target language, thereby enhancing cross-lingual transfer
capabilities. However, for mixed languages, this approach is suboptimal, since
only a subset of the language benefits from the cross-lingual transfer while
the remainder is impeded. In this work, we focus on Maltese, a Semitic
language, with substantial influences from Arabic, Italian, and English, and
notably written in Latin script. We present a novel dataset annotated with
word-level etymology. We use this dataset to train a classifier that enables us
to make informed decisions regarding the appropriate processing of each token
in the Maltese language. We contrast indiscriminate transliteration or
translation to mixing processing pipelines that only transliterate words of
Arabic origin, thereby resulting in text with a mixture of scripts. We
fine-tune the processed data on four downstream tasks and show that conditional
transliteration based on word etymology yields the best results, surpassing
fine-tuning with raw Maltese or Maltese processed with non-selective pipelines.
- Abstract(参考訳): 多言語言語モデルは、未熟な言語で印象的な言語間転送能力を示すが、多言語モデルの事前学習データで使用される言語とスクリプトの相違がある場合、下流タスクのパフォーマンスは影響を受ける。
翻訳を使用することは、リソース豊富な言語のスクリプトをターゲット言語に整合させる、単純かつ効果的な手段を提供する。
しかし、混合言語では、言語の一部だけが言語間移動の恩恵を受け、残りは妨げられるため、このアプローチは準最適である。
この本では、アラビア語、イタリア語、英語から多大な影響を受け、特にラテン文字で書かれたセム語であるマルタ語に焦点を当てている。
単語レベルの語源を付加した新しいデータセットを提案する。
このデータセットを使用して分類器をトレーニングし、マルタ語における各トークンの適切な処理に関する情報決定を可能にする。
我々は、アラビア語起源の単語のみを翻訳する混合処理パイプラインと無差別な翻訳や翻訳を対比し、結果としてテキストとスクリプトの混合を生じさせる。
我々は,4つの下流タスクの処理データを微調整し,単語の語源に基づく条件翻訳が,非選択的パイプラインで処理されたマルタ語やマルタ語による微調整よりも優れた結果をもたらすことを示す。
関連論文リスト
- Breaking the Script Barrier in Multilingual Pre-Trained Language Models with Transliteration-Based Post-Training Alignment [50.27950279695363]
転送性能は、低リソースのターゲット言語が高リソースのソース言語とは異なるスクリプトで書かれている場合、しばしば妨げられる。
本論文は,この問題に対処するために翻訳を用いた最近の研究に触発されて,翻訳に基づくポストプレトレーニングアライメント(PPA)手法を提案する。
論文 参考訳(メタデータ) (2024-06-28T08:59:24Z) - Unknown Script: Impact of Script on Cross-Lingual Transfer [2.5398014196797605]
言語間移動は、言語間で知識を伝達する効果的な方法となっている。
対象言語とそのスクリプトが事前訓練されたモデルの一部ではない場合を考える。
この結果から, 共通スクリプト, 言語類似性, モデルサイズよりも, トークン化の重要性が示唆された。
論文 参考訳(メタデータ) (2024-04-29T15:48:01Z) - Zero-shot Cross-lingual Transfer without Parallel Corpus [6.937772043639308]
本稿では,事前学習モデルを用いてゼロショット言語間移動を行う手法を提案する。
タスク関連のバイリンガル情報アライメントを適用するバイリンガルタスクフィッティングモジュールで構成されている。
自己学習モジュールは、ラベルのないデータに対して擬似ソフトおよびハードラベルを生成し、それを利用して自己学習を行う。
論文 参考訳(メタデータ) (2023-10-07T07:54:22Z) - Self-Augmentation Improves Zero-Shot Cross-Lingual Transfer [92.80671770992572]
言語間移動は多言語NLPにおける中心的なタスクである。
このタスクの以前の作業では、並列コーパス、バイリンガル辞書、その他の注釈付きアライメントデータを使用していた。
ゼロショットの言語間移動を改善するため, 単純で効果的なSALT法を提案する。
論文 参考訳(メタデータ) (2023-09-19T19:30:56Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Investigating Lexical Sharing in Multilingual Machine Translation for
Indian Languages [8.858671209228536]
ネパールのヒンディー語から英語への多言語機械翻訳における語彙共有について検討した。
文字の書き起こしが顕著な改善を与えていないことが分かりました。
分析の結果,オリジナルスクリプトでトレーニングした多言語MTモデルは,すでに多言語間の違いに対して堅牢であることがわかった。
論文 参考訳(メタデータ) (2023-05-04T23:35:15Z) - Romanization-based Large-scale Adaptation of Multilingual Language
Models [124.57923286144515]
大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。
我々は、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータとパラメータ効率の戦略を多数検討し、比較した。
以上の結果から, UROMAN をベースとしたトランスリテラルは,多くの言語で高い性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-04-18T09:58:34Z) - Exposing Cross-Lingual Lexical Knowledge from Multilingual Sentence
Encoders [85.80950708769923]
本稿では,多言語言語モデルを用いて,それらのパラメータに格納された言語間語彙の知識量を探索し,元の多言語LMと比較する。
また、この知識を付加的に微調整した多言語モデルにより公開する新しい手法も考案した。
標準ベンチマークの大幅な向上を報告します。
論文 参考訳(メタデータ) (2022-04-30T13:23:16Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。