論文の概要: Happiness is Sharing a Vocabulary: A Study of Transliteration Methods
- arxiv url: http://arxiv.org/abs/2510.10827v1
- Date: Sun, 12 Oct 2025 22:34:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.122947
- Title: Happiness is Sharing a Vocabulary: A Study of Transliteration Methods
- Title(参考訳): 語彙を共有できる幸福 : 音訳法の研究
- Authors: Haeji Jung, Jinju Kim, Kyungjin Kim, Youjeong Roh, David R. Mortensen,
- Abstract要約: 翻訳は多言語NLPにおける様々な言語間のギャップを埋めるための有望な手段として登場した。
共用スクリプト,重複するトークン語彙,共有音韻が多言語モデルの性能に与える影響について検討する。
- 参考スコア(独自算出の注目度): 11.101903956523094
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transliteration has emerged as a promising means to bridge the gap between various languages in multilingual NLP, showing promising results especially for languages using non-Latin scripts. We investigate the degree to which shared script, overlapping token vocabularies, and shared phonology contribute to performance of multilingual models. To this end, we conduct controlled experiments using three kinds of transliteration (romanization, phonemic transcription, and substitution ciphers) as well as orthography. We evaluate each model on two downstream tasks -- named entity recognition (NER) and natural language inference (NLI) -- and find that romanization significantly outperforms other input types in 7 out of 8 evaluation settings, largely consistent with our hypothesis that it is the most effective approach. We further analyze how each factor contributed to the success, and suggest that having longer (subword) tokens shared with pre-trained languages leads to better utilization of the model.
- Abstract(参考訳): 翻訳は多言語NLPにおける様々な言語間のギャップを埋める有望な手段として現れており、特に非ラテン語スクリプトを使用する言語では有望な結果を示している。
共用スクリプト,重複するトークン語彙,共有音韻が多言語モデルの性能に与える影響について検討する。
この目的のために,3種類の翻訳(ロマナイゼーション,音素書き起こし,置換暗号)と正書法を用いた制御実験を行った。
我々は,2つの下流タスク – 名前付きエンティティ認識(NER)と自然言語推論(NLI) -- で各モデルを評価し,ロマン化が8つの評価設定のうち7つで他の入力型よりも有意に優れており,最も効果的なアプローチであるという仮説とほぼ一致していることを確認した。
さらに、各因子が成功にどう貢献したかを分析し、事前訓練された言語とより長い(サブワード)トークンを共有することで、モデルの利用がより良くなることを示唆する。
関連論文リスト
- False Friends Are Not Foes: Investigating Vocabulary Overlap in Multilingual Language Models [53.01170039144264]
多言語コーパスで訓練されたサブワードトークンライザは、言語間で重複するトークンを自然に生成する。
トークンの重複は言語間転送を促進するのか、それとも言語間の干渉を導入するのか?
相反する語彙を持つモデルでは、重なり合う結果が得られます。
論文 参考訳(メタデータ) (2025-09-23T07:47:54Z) - Improving Multi-lingual Alignment Through Soft Contrastive Learning [9.454626745893798]
本稿では,事前学習した単言語埋め込みモデルによって測定された文の類似性に基づいて,多言語埋め込みを整合させる新しい手法を提案する。
翻訳文ペアが与えられた場合、言語間埋め込み間の類似性は、単言語教師モデルで測定された文の類似性に従うように、多言語モデルを訓練する。
論文 参考訳(メタデータ) (2024-05-25T09:46:07Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - 1Cademy at Semeval-2022 Task 1: Investigating the Effectiveness of
Multilingual, Multitask, and Language-Agnostic Tricks for the Reverse
Dictionary Task [13.480318097164389]
本稿では,SemEval2022タスクの逆辞書トラックに着目し,単語の埋め込みと辞書のグルースをマッチングする。
モデルは文の入力をSGNS、Char、Electraの3種類の埋め込みに変換する。
提案するElmoベースの単言語モデルが最も高い結果を得る。
論文 参考訳(メタデータ) (2022-06-08T06:39:04Z) - Exposing Cross-Lingual Lexical Knowledge from Multilingual Sentence
Encoders [85.80950708769923]
本稿では,多言語言語モデルを用いて,それらのパラメータに格納された言語間語彙の知識量を探索し,元の多言語LMと比較する。
また、この知識を付加的に微調整した多言語モデルにより公開する新しい手法も考案した。
標準ベンチマークの大幅な向上を報告します。
論文 参考訳(メタデータ) (2022-04-30T13:23:16Z) - Does Transliteration Help Multilingual Language Modeling? [0.0]
多言語言語モデルに対する音訳の効果を実証的に測定する。
私たちは、世界で最もスクリプトの多様性が高いIndic言語にフォーカスしています。
比較的高いソースコード言語に悪影響を及ぼすことなく、低リソース言語にトランスリテラゼーションが有効であることに気付きました。
論文 参考訳(メタデータ) (2022-01-29T05:48:42Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。