論文の概要: TransMI: A Framework to Create Strong Baselines from Multilingual Pretrained Language Models for Transliterated Data
- arxiv url: http://arxiv.org/abs/2405.09913v1
- Date: Thu, 16 May 2024 09:08:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-17 14:51:34.627531
- Title: TransMI: A Framework to Create Strong Baselines from Multilingual Pretrained Language Models for Transliterated Data
- Title(参考訳): TransMI: 翻訳データのための多言語事前学習言語モデルから強力なベースラインを作成するフレームワーク
- Authors: Yihong Liu, Chunlan Ma, Haotian Ye, Hinrich Schütze,
- Abstract要約: そこで我々は,Transliterate Transliteration-Merge (TransMI)を提案する。
結果は、モデルやタスクによって異なるが、3%から34%の改善が一貫したことを示している。
- 参考スコア(独自算出の注目度): 50.40191599304911
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transliterating related languages that use different scripts into a common script shows effectiveness in improving crosslingual transfer in downstream tasks. However, this methodology often makes pretraining a model from scratch unavoidable, as transliteration brings about new subwords not covered in existing multilingual pretrained language models (mPLMs). This is not desired because it takes a lot of computation budget for pretraining. A more promising way is to make full use of available mPLMs. To this end, this paper proposes a simple but effective framework: Transliterate-Merge-Initialize (TransMI), which can create a strong baseline well-suited for data that is transliterated into a common script by exploiting an mPLM and its accompanied tokenizer. TransMI has three stages: (a) transliterate the vocabulary of an mPLM into a common script; (b) merge the new vocabulary with the original vocabulary; and (c) initialize the embeddings of the new subwords. We applied TransMI to three recent strong mPLMs, and our experiments demonstrate that TransMI not only preserves their ability to handle non-transliterated data, but also enables the models to effectively process transliterated data: the results show a consistent improvement of 3% to 34%, varying across different models and tasks. We make our code and models publicly available at \url{https://github.com/cisnlp/TransMI}.
- Abstract(参考訳): 異なるスクリプトを使用する関連言語を共通のスクリプトに翻訳することは、下流タスクにおける言語間転送を改善する効果を示す。
しかし、この手法は、既存の多言語事前学習言語モデル(mPLMs)でカバーされていない新しいサブワードを文字化することによって、スクラッチからモデルの事前学習を回避できないようにすることが多い。
事前トレーニングに多くの計算予算を必要とするため、これは望ましくない。
より有望な方法は、利用可能なmPLMをフル活用することだ。
そこで本研究では,mPLMとそれに伴うトークン化機能を利用して,共通スクリプトに書き起こされるデータに適した,強力なベースラインを生成できるトランスリテラト・マージ・イニシアライズ(TransMI)を提案する。
TransMIには3つのステージがある。
a) mPLMの語彙を共通文字に翻訳すること。
b) 新語彙と原語彙を合併すること,及び
(c) 新しいサブワードの埋め込みを初期化する。
我々は,最近の3つの強力なmPLMにTransMIを適用し,TransMIが非翻訳データの処理能力を保っているだけでなく,翻訳データを効果的に処理できることを実証した。
コードとモデルは、 \url{https://github.com/cisnlp/TransMI}で公開しています。
関連論文リスト
- InterTrans: Leveraging Transitive Intermediate Translations to Enhance LLM-based Code Translation [9.655135415596414]
コード翻訳は、あるプログラムをあるプログラミング言語(PL)から別のプログラミング言語に変換することを目的としている。
近年の研究では、大規模言語モデル(LLM)のような高度な技術でさえもタスクに苦戦していることが示されている。
LLMベースの自動コード翻訳手法であるInterTransを導入する。
論文 参考訳(メタデータ) (2024-11-01T22:31:32Z) - Exploring the Role of Transliteration in In-Context Learning for Low-resource Languages Written in Non-Latin Scripts [50.40191599304911]
非ラテン文字で書かれた低リソース言語に対するLLMの性能向上にも効果があるか検討する。
本稿では,(1) の原文,(2) ラテン文字,(3) の両文を対象とする3つのプロンプトテンプレートを提案する。
本研究の結果から,翻訳の有効性はタスクタイプやモデルサイズによって異なることが明らかとなった。
論文 参考訳(メタデータ) (2024-07-02T14:51:20Z) - Breaking the Script Barrier in Multilingual Pre-Trained Language Models with Transliteration-Based Post-Training Alignment [50.27950279695363]
転送性能は、低リソースのターゲット言語が高リソースのソース言語とは異なるスクリプトで書かれている場合、しばしば妨げられる。
本論文は,この問題に対処するために翻訳を用いた最近の研究に触発されて,翻訳に基づくポストプレトレーニングアライメント(PPA)手法を提案する。
論文 参考訳(メタデータ) (2024-06-28T08:59:24Z) - TransLLaMa: LLM-based Simultaneous Translation System [18.27477980076409]
Decoderのみの大規模言語モデル(LLM)は,特別な"待機"トークンを生成することで,入力セグメンテーションを直接制御できることを示す。
これにより、別個の政策の必要性が排除され、LLMは英語とドイツ語と英語とロシア語のSiMTタスクを実行できるようになる。
また, GPT-4 などのクローズドソースモデルの評価を行い, 事前訓練をせずに SiMT タスクの実行を奨励する結果を示した。
論文 参考訳(メタデータ) (2024-02-07T07:39:27Z) - Cross-Lingual Transfer from Related Languages: Treating Low-Resource
Maltese as Multilingual Code-Switching [9.435669487585917]
我々は、アラビア語、イタリア語、英語からかなりの影響を受け、特にラテン語の文字で書かれたマルタ語に焦点を当てている。
単語レベルの語源を付加した新しいデータセットを提案する。
単語の語源に基づく条件翻訳は,非選択的なパイプラインで処理されたマルタ語やマルタ語による微調整よりも優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2024-01-30T11:04:36Z) - Self-Augmentation Improves Zero-Shot Cross-Lingual Transfer [92.80671770992572]
言語間移動は多言語NLPにおける中心的なタスクである。
このタスクの以前の作業では、並列コーパス、バイリンガル辞書、その他の注釈付きアライメントデータを使用していた。
ゼロショットの言語間移動を改善するため, 単純で効果的なSALT法を提案する。
論文 参考訳(メタデータ) (2023-09-19T19:30:56Z) - Romanization-based Large-scale Adaptation of Multilingual Language
Models [124.57923286144515]
大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。
我々は、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータとパラメータ効率の戦略を多数検討し、比較した。
以上の結果から, UROMAN をベースとしたトランスリテラルは,多くの言語で高い性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-04-18T09:58:34Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。