論文の概要: TransMI: A Framework to Create Strong Baselines from Multilingual Pretrained Language Models for Transliterated Data
- arxiv url: http://arxiv.org/abs/2405.09913v1
- Date: Thu, 16 May 2024 09:08:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-17 14:51:34.627531
- Title: TransMI: A Framework to Create Strong Baselines from Multilingual Pretrained Language Models for Transliterated Data
- Title(参考訳): TransMI: 翻訳データのための多言語事前学習言語モデルから強力なベースラインを作成するフレームワーク
- Authors: Yihong Liu, Chunlan Ma, Haotian Ye, Hinrich Schütze,
- Abstract要約: そこで我々は,Transliterate Transliteration-Merge (TransMI)を提案する。
結果は、モデルやタスクによって異なるが、3%から34%の改善が一貫したことを示している。
- 参考スコア(独自算出の注目度): 50.40191599304911
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transliterating related languages that use different scripts into a common script shows effectiveness in improving crosslingual transfer in downstream tasks. However, this methodology often makes pretraining a model from scratch unavoidable, as transliteration brings about new subwords not covered in existing multilingual pretrained language models (mPLMs). This is not desired because it takes a lot of computation budget for pretraining. A more promising way is to make full use of available mPLMs. To this end, this paper proposes a simple but effective framework: Transliterate-Merge-Initialize (TransMI), which can create a strong baseline well-suited for data that is transliterated into a common script by exploiting an mPLM and its accompanied tokenizer. TransMI has three stages: (a) transliterate the vocabulary of an mPLM into a common script; (b) merge the new vocabulary with the original vocabulary; and (c) initialize the embeddings of the new subwords. We applied TransMI to three recent strong mPLMs, and our experiments demonstrate that TransMI not only preserves their ability to handle non-transliterated data, but also enables the models to effectively process transliterated data: the results show a consistent improvement of 3% to 34%, varying across different models and tasks. We make our code and models publicly available at \url{https://github.com/cisnlp/TransMI}.
- Abstract(参考訳): 異なるスクリプトを使用する関連言語を共通のスクリプトに翻訳することは、下流タスクにおける言語間転送を改善する効果を示す。
しかし、この手法は、既存の多言語事前学習言語モデル(mPLMs)でカバーされていない新しいサブワードを文字化することによって、スクラッチからモデルの事前学習を回避できないようにすることが多い。
事前トレーニングに多くの計算予算を必要とするため、これは望ましくない。
より有望な方法は、利用可能なmPLMをフル活用することだ。
そこで本研究では,mPLMとそれに伴うトークン化機能を利用して,共通スクリプトに書き起こされるデータに適した,強力なベースラインを生成できるトランスリテラト・マージ・イニシアライズ(TransMI)を提案する。
TransMIには3つのステージがある。
a) mPLMの語彙を共通文字に翻訳すること。
b) 新語彙と原語彙を合併すること,及び
(c) 新しいサブワードの埋め込みを初期化する。
我々は,最近の3つの強力なmPLMにTransMIを適用し,TransMIが非翻訳データの処理能力を保っているだけでなく,翻訳データを効果的に処理できることを実証した。
コードとモデルは、 \url{https://github.com/cisnlp/TransMI}で公開しています。
関連論文リスト
- InterTrans: Leveraging Transitive Intermediate Translations to Enhance LLM-based Code Translation [9.655135415596414]
コード翻訳は、あるプログラムをあるプログラミング言語(PL)から別のプログラミング言語に変換することを目的としている。
近年の研究では、大規模言語モデル(LLM)のような高度な技術でさえもタスクに苦戦していることが示されている。
LLMベースの自動コード翻訳手法であるInterTransを導入する。
論文 参考訳(メタデータ) (2024-11-01T22:31:32Z) - Argument Mining in Data Scarce Settings: Cross-lingual Transfer and Few-shot Techniques [5.735035463793008]
また、Argument Miningでは、データ転送の方がモデル転送よりも優れた結果が得られることを示す。
数秒間、タスクの種類(シーケンスの長さと複雑さ)とサンプリングメソッドが重要であることが証明されている。
論文 参考訳(メタデータ) (2024-07-04T08:59:17Z) - Exploring the Role of Transliteration in In-Context Learning for Low-resource Languages Written in Non-Latin Scripts [50.40191599304911]
非ラテン文字で書かれた低リソース言語に対するLLMの性能向上にも効果があるか検討する。
本稿では,(1) の原文,(2) ラテン文字,(3) の両文を対象とする3つのプロンプトテンプレートを提案する。
本研究の結果から,翻訳の有効性はタスクタイプやモデルサイズによって異なることが明らかとなった。
論文 参考訳(メタデータ) (2024-07-02T14:51:20Z) - Breaking the Script Barrier in Multilingual Pre-Trained Language Models with Transliteration-Based Post-Training Alignment [50.27950279695363]
転送性能は、低リソースのターゲット言語が高リソースのソース言語とは異なるスクリプトで書かれている場合、しばしば妨げられる。
本論文は,この問題に対処するために翻訳を用いた最近の研究に触発されて,翻訳に基づくポストプレトレーニングアライメント(PPA)手法を提案する。
論文 参考訳(メタデータ) (2024-06-28T08:59:24Z) - Cross-Lingual Transfer from Related Languages: Treating Low-Resource
Maltese as Multilingual Code-Switching [9.435669487585917]
我々は、アラビア語、イタリア語、英語からかなりの影響を受け、特にラテン語の文字で書かれたマルタ語に焦点を当てている。
単語レベルの語源を付加した新しいデータセットを提案する。
単語の語源に基づく条件翻訳は,非選択的なパイプラインで処理されたマルタ語やマルタ語による微調整よりも優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2024-01-30T11:04:36Z) - Self-Augmentation Improves Zero-Shot Cross-Lingual Transfer [92.80671770992572]
言語間移動は多言語NLPにおける中心的なタスクである。
このタスクの以前の作業では、並列コーパス、バイリンガル辞書、その他の注釈付きアライメントデータを使用していた。
ゼロショットの言語間移動を改善するため, 単純で効果的なSALT法を提案する。
論文 参考訳(メタデータ) (2023-09-19T19:30:56Z) - Multilingual Controllable Transformer-Based Lexical Simplification [4.718531520078843]
本稿では,制御可能なトランスフォーマーを用いたLexical Simplification(LS)システムであるmTLSを提案する。
この研究の新規性は、複雑な単語のより単純な代替法を学ぶために、事前訓練されたマスキング言語モデルから抽出された言語固有の接頭辞、制御トークン、および候補を使用することにある。
論文 参考訳(メタデータ) (2023-07-05T08:48:19Z) - Beyond Triplet: Leveraging the Most Data for Multimodal Machine
Translation [53.342921374639346]
マルチモーダル機械翻訳は、視覚などの他のモーダルからの情報を取り入れることで、翻訳品質を向上させることを目的としている。
従来のMMTシステムは主に視覚情報へのアクセスと利用に重点を置いており、画像関連データセット上でそれらの手法を検証する傾向がある。
本稿では,MTのための新しい手法と新しいデータセットを確立する。
論文 参考訳(メタデータ) (2022-12-20T15:02:38Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。