論文の概要: The Impact of Vocabulary Overlaps on Knowledge Transfer in Multilingual Machine Translation
- arxiv url: http://arxiv.org/abs/2605.04196v1
- Date: Tue, 05 May 2026 18:39:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-07 18:41:07.487154
- Title: The Impact of Vocabulary Overlaps on Knowledge Transfer in Multilingual Machine Translation
- Title(参考訳): 多言語機械翻訳における語彙オーバーラップが知識伝達に及ぼす影響
- Authors: Oona Itkonen, Jörg Tiedemann,
- Abstract要約: 知識伝達、特に関連する言語間での知識伝達は、多言語ニューラルマシン翻訳(MNMT)に有用であることが判明した。
本研究は,共用語彙と解離語彙を併用した体系的実験を行い,原語と無関係な補助言語について述べる。
予想通り, 関連言語に典型的な語彙重なりがより広い結果が得られるが, ドメインマッチングや言語関連性が, 共同語彙よりも重要であることを示す実験を行った。
- 参考スコア(独自算出の注目度): 4.935445658043885
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Knowledge transfer, especially across related languages, has been found beneficial for multilingual neural machine translation (MNMT), but some aspects are still under-explored and deserve further investigation. A joint vocabulary is most often applied to form a uniform word embedding space, but since the impact of a disjoint vocabulary on model performance is far less studied, there is no consensus on how much knowledge transfer is mainly due to vocabulary overlap. In this paper, we present systematic experiments with joint and disjoint vocabularies, and auxiliary languages related and unrelated to the source language. We design this experiment in an out-of-domain setup in order to emphasize transfer and the impact of the auxiliary language. As expected, we yield better results with more extensive vocabulary overlaps typical for related languages, but our experiments also show that domain-match and language relatedness are more important than a joint vocabulary.
- Abstract(参考訳): 知識伝達、特に関連する言語間での知識伝達は、多言語ニューラルマシン翻訳(MNMT)に有用であることが見出されているが、まだ未調査であり、さらなる研究に値する側面もある。
連接語彙は、一様単語埋め込み空間を形成するために最もよく用いられるが、解離語彙がモデル性能に与える影響は、はるかに少ないため、主に語彙重複に起因する知識伝達の量についてのコンセンサスはない。
本稿では,共用語彙と解離語彙を併用した体系的な実験を行い,ソース言語と無関係な補助言語について述べる。
本実験は,移動と補助言語の影響を強調するために,ドメイン外の設定で設計する。
予想通り, 関連言語に典型的な語彙重なりがより広い結果が得られるが, ドメインマッチングや言語関連性が, 共同語彙よりも重要であることを示す実験を行った。
関連論文リスト
- When Meanings Meet: Investigating the Emergence and Quality of Shared Concept Spaces during Multilingual Language Model Training [57.230355403478995]
本研究では,EuroLLMの事前学習における言語に依存しない概念空間の開発について検討する。
共有概念空間は早期に出現し、洗練され続けていますが、それらとの整合性は言語に依存しています。
従来の作業とは対照的に、細かな手作業分析により、翻訳品質の顕著な向上は、行動の変化を反映していることが判明した。
論文 参考訳(メタデータ) (2026-01-30T11:23:01Z) - False Friends Are Not Foes: Investigating Vocabulary Overlap in Multilingual Language Models [53.01170039144264]
多言語コーパスで訓練されたサブワードトークンライザは、言語間で重複するトークンを自然に生成する。
トークンの重複は言語間転送を促進するのか、それとも言語間の干渉を導入するのか?
相反する語彙を持つモデルでは、重なり合う結果が得られます。
論文 参考訳(メタデータ) (2025-09-23T07:47:54Z) - Beyond Shared Vocabulary: Increasing Representational Word Similarities
across Languages for Multilingual Machine Translation [9.794506112999823]
本稿では,単語等価クラスによる単語レベルの情報伝達経路を定義し,言語間の単語埋め込みを融合するグラフネットワークに依存する。
1) 類似した意味を持つ単語の埋め込みは言語間で整合性がよいこと,2) 提案手法は高・低リソースのMNMTに対して最大2.3ポイントのBLEU改善を実現すること,3) 計算コストの制限により1.0%未満のトレーニング可能なパラメータを必要とすること,である。
論文 参考訳(メタデータ) (2023-05-23T16:11:00Z) - Cross-Linguistic Syntactic Difference in Multilingual BERT: How Good is
It and How Does It Affect Transfer? [50.48082721476612]
マルチリンガルBERT (mBERT) は, 言語間シンタクティックな機能を示した。
我々は,mBERTから引き起こされる文法的関係の分布を,24言語に類型的に異なる文脈で検討した。
論文 参考訳(メタデータ) (2022-12-21T09:44:08Z) - When is BERT Multilingual? Isolating Crucial Ingredients for
Cross-lingual Transfer [15.578267998149743]
サブワード重複の欠如は,言語が単語順に異なる場合,ゼロショット転送に大きく影響することを示す。
言語間の伝達性能と単語埋め込みアライメントの間には強い相関関係がある。
その結果、言語間の単語埋め込みアライメントを明示的に改善する多言語モデルに焦点が当てられた。
論文 参考訳(メタデータ) (2021-10-27T21:25:39Z) - Gender Bias in Multilingual Embeddings and Cross-Lingual Transfer [101.58431011820755]
多言語埋め込みにおけるジェンダーバイアスとNLPアプリケーションの伝達学習への影響について検討する。
我々は、バイアス分析のための多言語データセットを作成し、多言語表現におけるバイアスの定量化方法をいくつか提案する。
論文 参考訳(メタデータ) (2020-05-02T04:34:37Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。