論文の概要: Language Versatilists vs. Specialists: An Empirical Revisiting on
Multilingual Transfer Ability
- arxiv url: http://arxiv.org/abs/2306.06688v1
- Date: Sun, 11 Jun 2023 14:03:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-13 17:16:33.619181
- Title: Language Versatilists vs. Specialists: An Empirical Revisiting on
Multilingual Transfer Ability
- Title(参考訳): 言語学者対スペシャリスト:多言語移行能力に関する実証的再考
- Authors: Jiacheng Ye, Xijia Tao, Lingpeng Kong
- Abstract要約: 我々は4種類の推論タスクにまたがって実験を行う。
多言語事前学習モデルは、必ずしも英語中心のモデルよりも優れているとは限らない。
英語は適切なソース言語ではないようで、英語中心のモデルがスケールアップされると、ソース言語の選択が重要になりにくくなります。
- 参考スコア(独自算出の注目度): 11.000499414131324
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multilingual transfer ability, which reflects how well the models fine-tuned
on one source language can be applied to other languages, has been well studied
in multilingual pre-trained models (e.g., BLOOM). However, such ability has not
been investigated for English-centric models (e.g., LLaMA). To fill this gap,
we study the following research questions. First, does multilingual transfer
ability exist in English-centric models and how does it compare with
multilingual pretrained models? Second, does it only appears when English is
the source language for the English-centric model? Third, how does it vary in
different tasks? We take multilingual reasoning ability as our focus and
conduct extensive experiments across four types of reasoning tasks. We find
that the multilingual pretrained model does not always outperform an
English-centric model. Furthermore, English appears to be a less suitable
source language, and the choice of source language becomes less important when
the English-centric model scales up. In addition, different types of tasks
exhibit different multilingual transfer abilities. These findings demonstrate
that English-centric models not only possess multilingual transfer ability but
may even surpass the transferability of multilingual pretrained models if
well-trained. By showing the strength and weaknesses, the experiments also
provide valuable insights into enhancing multilingual reasoning abilities for
the English-centric models.
- Abstract(参考訳): 1つのソース言語で微調整されたモデルを他の言語にどの程度適用できるかを反映した多言語伝達能力は、多言語事前学習モデル(例えばブルーム)でよく研究されてきた。
しかし、英語中心のモデル(LLaMAなど)ではそのような能力は研究されていない。
このギャップを埋めるために、以下の研究課題を考察する。
第一に、多言語移動能力は英語中心モデルに存在し、多言語事前学習モデルと比較してどうか。
第二に、英語が英語中心モデルの起源言語である場合にのみ現れるのか?
第三に、異なるタスクでどう違うのか?
我々は、多言語推論能力に着目し、4種類の推論タスクにまたがる広範な実験を行う。
多言語事前学習モデルが必ずしも英語中心モデルを上回るとは限らない。
さらに、英語は適切なソース言語ではなく、英語中心のモデルがスケールアップされると、ソース言語の選択が重要になる。
さらに、異なる種類のタスクは、異なる多言語転送能力を示す。
これらの結果は、英語中心のモデルは多言語伝達能力を持つだけでなく、十分に訓練された場合、多言語事前学習モデルの伝達能力を超えることさえも示している。
強みと弱みを示すことによって、実験は英語中心のモデルに対する多言語推論能力の強化に関する貴重な洞察を与える。
関連論文リスト
- Could We Have Had Better Multilingual LLMs If English Was Not the Central Language? [4.655168524016426]
大規模言語モデル(LLM)は、トレーニング対象の言語に対して強力な機械翻訳能力を示す。
我々の研究は、Llama2の翻訳能力について論じている。
実験の結果,7B Llama2モデルはこれまでに見たすべての言語に翻訳すると10 BLEU以上になることがわかった。
論文 参考訳(メタデータ) (2024-02-21T16:32:38Z) - Multilingual BERT has an accent: Evaluating English influences on
fluency in multilingual models [23.62852626011989]
我々は,高次情報源言語における文法構造が低次情報源言語に肥大化したことを示す。
このバイアスは、多言語モデルの流布度とモノリンガルのスペイン語とギリシア語のモデルの流布度を比較する新しい方法によって示される。
論文 参考訳(メタデータ) (2022-10-11T17:06:38Z) - MonoByte: A Pool of Monolingual Byte-level Language Models [4.491765479948667]
同じ構成で厳格に事前訓練された10のモノリンガルバイトレベルのモデルをリリースする。
トークンを含まないため、目に見えないトークン埋め込みの問題は排除される。
QAタスクとNLIタスクの実験は、我々のモノリンガルモデルがマルチリンガルモデルと競合する性能を達成することを示す。
論文 参考訳(メタデータ) (2022-09-22T14:32:48Z) - Analyzing the Mono- and Cross-Lingual Pretraining Dynamics of
Multilingual Language Models [73.11488464916668]
本研究では,多言語事前学習プロセスのダイナミクスについて検討する。
我々は,XLM-Rプレトレーニング全体から抽出したチェックポイントを,一連の言語的タスクを用いて探索する。
分析の結果,より複雑なものよりも低レベルな言語スキルが得られ,早期に高い言語性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-05-24T03:35:00Z) - Same Neurons, Different Languages: Probing Morphosyntax in Multilingual
Pre-trained Models [84.86942006830772]
多言語事前学習モデルは文法に関する言語・ユニバーサルの抽象化を導出できると推測する。
43の言語と14のモルフォシンタクティックなカテゴリーで、最先端のニューロンレベルのプローブを用いて、初めて大規模な実験を行った。
論文 参考訳(メタデータ) (2022-05-04T12:22:31Z) - Towards Best Practices for Training Multilingual Dense Retrieval Models [54.91016739123398]
我々は,このような設計を用いて,多種多様言語における単言語検索の課題に焦点をあてる。
本研究は多言語高密度検索モデルのトレーニングのための「ベストプラクティス」ガイドとして組織されている。
論文 参考訳(メタデータ) (2022-04-05T17:12:53Z) - Do Multilingual Language Models Capture Differing Moral Norms? [71.52261949766101]
大量多言語文表現は、未処理データの大規模なコーパスに基づいて訓練される。
これは、高資源言語からの道徳的判断を含む文化的価値をモデルが把握する原因となる可能性がある。
特定の言語におけるデータ不足は、ランダムで潜在的に有害な信念を発達させる可能性がある。
論文 参考訳(メタデータ) (2022-03-18T12:26:37Z) - On the ability of monolingual models to learn language-agnostic
representations [2.604227467422371]
異なる言語で事前訓練および微調整された単言語モデルが競合性能を実現することを示す。
例えば、ドイツ語やポルトガル語のような遠方の言語で事前訓練されたモデルは、英語のタスクでも同様に機能する。
論文 参考訳(メタデータ) (2021-09-04T22:09:44Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - Revisiting the Primacy of English in Zero-shot Cross-lingual Transfer [39.360667403003745]
ゼロショット・クロスランガル・トランスファーは実用的な解決策として浮上している。
人気のあるゼロショットベンチマークによって強化されたように、英語は転送のための主要なソース言語である。
ドイツ語やロシア語のような他の高リソース言語は、より効果的に転送されることがよくあります。
論文 参考訳(メタデータ) (2021-06-30T16:05:57Z) - Multilingual Translation with Extensible Multilingual Pretraining and
Finetuning [77.33262578776291]
これまでの研究は、bitextで微調整することで機械翻訳システムを作成できることを実証してきた。
多言語翻訳モデルは多言語微調整により作成可能であることを示す。
事前訓練されたモデルは、性能を損なうことなく、追加の言語を組み込むように拡張できることを実証する。
論文 参考訳(メタデータ) (2020-08-02T05:36:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。