論文の概要: Modular Sentence Encoders: Separating Language Specialization from Cross-Lingual Alignment
- arxiv url: http://arxiv.org/abs/2407.14878v2
- Date: Fri, 30 May 2025 10:19:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.431583
- Title: Modular Sentence Encoders: Separating Language Specialization from Cross-Lingual Alignment
- Title(参考訳): モジュール型文エンコーダ:言語仕様を言語間アライメントから分離する
- Authors: Yongxin Huang, Kexin Wang, Goran Glavaš, Iryna Gurevych,
- Abstract要約: 多言語文エンコーダ(MSE)は、多言語言語モデルを訓練し、異なる言語からの文を共有意味空間にマッピングすることで一般的に得られる。
MSEは、パラメータ共有による単言語表現精度の喪失である多言語性の呪いを受ける。
我々は、異なる言語間タスクの矛盾する要求を解決するために、2つの異なるタイプのデータで言語間アダプタを訓練する。
- 参考スコア(独自算出の注目度): 50.80949663719335
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Multilingual sentence encoders (MSEs) are commonly obtained by training multilingual language models to map sentences from different languages into a shared semantic space. As such, they are subject to curse of multilinguality, a loss of monolingual representational accuracy due to parameter sharing. Another limitation of MSEs is the trade-off between different task performance: cross-lingual alignment training distorts the optimal monolingual structure of semantic spaces of individual languages, harming the utility of sentence embeddings in monolingual tasks; cross-lingual tasks, such as cross-lingual semantic similarity and zero-shot transfer for sentence classification, may also require conflicting cross-lingual alignment strategies. In this work, we address both issues by means of modular training of sentence encoders. We first train language-specific monolingual modules to mitigate negative interference between languages (i.e., the curse). We then align all non-English sentence embeddings to the English by training cross-lingual alignment adapters, preventing interference with monolingual specialization from the first step. We train the cross-lingual adapters with two different types of data to resolve the conflicting requirements of different cross-lingual tasks. Monolingual and cross-lingual results on semantic text similarity and relatedness, bitext mining and sentence classification show that our modular solution achieves better and more balanced performance across all the tasks compared to full-parameter training of monolithic multilingual sentence encoders, especially benefiting low-resource languages.
- Abstract(参考訳): 多言語文エンコーダ(MSE)は、多言語言語モデルを訓練し、異なる言語からの文を共有意味空間にマッピングすることで一般的に得られる。
そのため、パラメータ共有による単言語表現精度の喪失である多言語性の呪いにさらされる。
言語間アライメントトレーニングは、個々の言語のセマンティック空間の最適なモノリンガル構造を歪め、モノリンガルタスクへの文埋め込みの有用性を損なう。
本研究では,文エンコーダのモジュラートレーニングにより両問題に対処する。
まず言語固有のモノリンガルモジュールをトレーニングし、言語間の負の干渉(すなわち呪い)を軽減する。
次に、言語間アライメントアダプタをトレーニングすることで、英語以外のすべての文の埋め込みを英語に調整し、最初のステップからモノリンガルの特殊化による干渉を防ぐ。
我々は、異なる言語間タスクの矛盾する要求を解決するために、2つの異なるタイプのデータで言語間アダプタを訓練する。
セマンティックテキストの類似性や関連性,bitextマイニング,文分類に関するモノリンガルおよびクロスランガルの結果から,モノリシックな多言語文エンコーダのフルパラメータトレーニングと比較して,モジュール型ソリューションは,すべてのタスクにおいて,よりよい,よりバランスの取れたパフォーマンスを実現していることが明らかとなった。
関連論文リスト
- Code-mixed Sentiment and Hate-speech Prediction [2.9140539998069803]
大規模言語モデルは、ほとんどの自然言語処理タスクを支配してきた。
我々は、英語・ヒンディー語・英語・スロベニア語用に、バイリンガルで事前訓練された4つのマスク付き言語モデルを作成しました。
複数の言語で単言語,バイリンガル,少数言語,大規模多言語モデルの評価を行った。
論文 参考訳(メタデータ) (2024-05-21T16:56:36Z) - Fine-Tuned Self-Supervised Speech Representations for Language
Diarization in Multilingual Code-Switched Speech [4.39549503760707]
大規模自己教師型アーキテクチャ(WavLM)から抽出した微調整音声表現を用いた連続多言語ダイアリザを開発した。
南アフリカ語5言語(isiZulu, isiXa, Seswana, Sesotho, English)からなるコード交換コーパスを実験した。
論文 参考訳(メタデータ) (2023-12-15T09:40:41Z) - Improving In-context Learning of Multilingual Generative Language Models with Cross-lingual Alignment [42.624862172666624]
本稿では,一対の翻訳文を利用する単純な言語間アライメントフレームワークを提案する。
多言語コントラスト学習を通じて、異なる言語にまたがる内部文表現を整合させる。
実験結果から,事前学習トークンが0.1文未満であっても,アライメントフレームワークは生成言語モデルの言語間相互性を大幅に向上させることが明らかとなった。
論文 参考訳(メタデータ) (2023-11-14T11:24:08Z) - Bitext Mining Using Distilled Sentence Representations for Low-Resource
Languages [12.00637655338665]
私たちは、非常に低リソースの言語を研究し、50のアフリカ言語を扱っています。
我々は文エンコーダ、マイニングビットクストを訓練し、NMTシステムのトレーニングによりビットクストを検証する。
これらの言語では、文エンコーダ、ビットクストをマイニングし、NMTシステムのトレーニングによってビットクストを検証する。
論文 参考訳(メタデータ) (2022-05-25T10:53:24Z) - Reducing language context confusion for end-to-end code-switching
automatic speech recognition [50.89821865949395]
本稿では,E2E符号スイッチングASRモデルの多言語コンテキストの混同を低減するための言語関連アテンション機構を提案する。
複数の言語のそれぞれの注意を計算することにより、豊かな単言語データから言語知識を効率的に伝達することができる。
論文 参考訳(メタデータ) (2022-01-28T14:39:29Z) - How Good is Your Tokenizer? On the Monolingual Performance of
Multilingual Language Models [96.32118305166412]
本研究では,5つの単一言語下流タスクのセットに基づいて,事前学習可能な単言語モデルを持つ9種類の言語について検討した。
多言語モデルの語彙で適切に表現された言語は、単言語モデルよりも性能が著しく低下する。
論文 参考訳(メタデータ) (2020-12-31T14:11:00Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。