論文の概要: Multilingual Pretraining and Instruction Tuning Improve Cross-Lingual Knowledge Alignment, But Only Shallowly
- arxiv url: http://arxiv.org/abs/2404.04659v1
- Date: Sat, 6 Apr 2024 15:25:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 20:09:57.369323
- Title: Multilingual Pretraining and Instruction Tuning Improve Cross-Lingual Knowledge Alignment, But Only Shallowly
- Title(参考訳): 多言語事前学習と授業チューニングは言語間知識調整を改善するが、わずかにしか改善されない
- Authors: Changjiang Gao, Hongda Hu, Peng Hu, Jiajun Chen, Jixing Li, Shujian Huang,
- Abstract要約: これに対処する2つのアプローチ、すなわち、多言語事前学習と多言語命令チューニングを提案する。
性能, 一貫性, 導電率レベルにおけるLLMの言語間知識アライメントを評価するために, CLiKAを提案する。
その結果、多言語事前学習と指導訓練は、多言語間知識アライメントに有用であるが、訓練戦略を慎重に設計する必要があることが示唆された。
- 参考スコア(独自算出の注目度): 53.04368883943773
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite their strong ability to retrieve knowledge in English, current large language models show imbalance abilities in different languages. Two approaches are proposed to address this, i.e., multilingual pretraining and multilingual instruction tuning. However, whether and how do such methods contribute to the cross-lingual knowledge alignment inside the models is unknown. In this paper, we propose CLiKA, a systematic framework to assess the cross-lingual knowledge alignment of LLMs in the Performance, Consistency and Conductivity levels, and explored the effect of multilingual pretraining and instruction tuning on the degree of alignment. Results show that: while both multilingual pretraining and instruction tuning are beneficial for cross-lingual knowledge alignment, the training strategy needs to be carefully designed. Namely, continued pretraining improves the alignment of the target language at the cost of other languages, while mixed pretraining affect other languages less. Also, the overall cross-lingual knowledge alignment, especially in the conductivity level, is unsatisfactory for all tested LLMs, and neither multilingual pretraining nor instruction tuning can substantially improve the cross-lingual knowledge conductivity.
- Abstract(参考訳): 英語で知識を得る能力は強いが、現在の大きな言語モデルは異なる言語で不均衡な能力を示す。
これに対処する2つのアプローチ、すなわち、多言語事前学習と多言語命令チューニングを提案する。
しかし、そのような手法がモデル内の言語間知識アライメントにどのように寄与するかは不明である。
本稿では,LLMの多言語間知識アライメントを性能,一貫性,導電率レベルにおいて評価するための体系的フレームワークであるCLiKAを提案し,多言語事前学習と指導指導がアライメントの程度に与える影響を考察した。
その結果,多言語事前学習と指導訓練は多言語間知識アライメントに有用であるが,訓練戦略を慎重に設計する必要があることがわかった。
すなわち、継続事前訓練は、他の言語のコストでターゲット言語のアライメントを改善するが、混合事前訓練は他の言語にはあまり影響しない。
また、全体的な言語間知識アライメント、特に伝導度レベルは、全ての試験されたLLMに不満足であり、多言語事前学習や指導チューニングは、言語間知識アライメントを大幅に改善することができない。
関連論文リスト
- PreAlign: Boosting Cross-Lingual Transfer by Early Establishment of Multilingual Alignment [68.20851615263953]
大規模な言語モデルは、英語中心の事前訓練にもかかわらず、合理的な多言語能力を示す。
これらのモデルにおける自発的な多言語アライメントは弱く、不満足な言語間移動と知識共有をもたらす。
言語モデル事前学習に先立って多言語アライメントを確立するフレームワークであるPreAlignを提案する。
論文 参考訳(メタデータ) (2024-07-23T06:59:53Z) - No Train but Gain: Language Arithmetic for training-free Language Adapters enhancement [59.37775534633868]
本稿では,学習不要な後処理が可能な言語演算法を提案する。
提案手法の有効性を,MAD-Xに基づく言語間スキームの3つの下流課題に適用した。
論文 参考訳(メタデータ) (2024-04-24T08:52:40Z) - Multilingual Instruction Tuning With Just a Pinch of Multilinguality [31.360147312195068]
多くの言語が単言語チューニングから命令追従機能を他の言語に移行していることを示す。
多言語混合に調整されたモデルは、複数の言語で同等または優れた性能を示す。
2-4言語でも命令チューニングセットの多様化は、言語間の一般化を著しく改善する。
論文 参考訳(メタデータ) (2024-01-03T17:48:10Z) - Turning English-centric LLMs Into Polyglots: How Much Multilinguality Is Needed? [40.13166574854085]
英語中心の大規模言語モデルにおいて,多言語間の一般化を実現するために必要な最小限の多言語性について検討する。
複数言語から3言語までの多言語命令チューニングは,効果的な言語間一般化を実現するのに必要かつ十分であることがわかった。
論文 参考訳(メタデータ) (2023-12-20T00:49:52Z) - Improving In-context Learning of Multilingual Generative Language Models with Cross-lingual Alignment [42.624862172666624]
本稿では,一対の翻訳文を利用する単純な言語間アライメントフレームワークを提案する。
多言語コントラスト学習を通じて、異なる言語にまたがる内部文表現を整合させる。
実験結果から,事前学習トークンが0.1文未満であっても,アライメントフレームワークは生成言語モデルの言語間相互性を大幅に向上させることが明らかとなった。
論文 参考訳(メタデータ) (2023-11-14T11:24:08Z) - Eliciting the Translation Ability of Large Language Models via Multilingual Finetuning with Translation Instructions [68.01449013641532]
大規模事前学習言語モデル(LLM)は多言語翻訳において強力な能力を示している。
本稿では,多言語事前学習言語モデルであるXGLM-7Bを微調整して,多言語翻訳を行う方法を提案する。
論文 参考訳(メタデータ) (2023-05-24T12:00:24Z) - VECO 2.0: Cross-lingual Language Model Pre-training with
Multi-granularity Contrastive Learning [56.47303426167584]
複数粒度アライメントを持つコントラスト学習に基づく言語間事前学習モデルVECO2.0を提案する。
具体的には、シーケンス・ツー・シーケンスアライメントが誘導され、並列対の類似性を最大化し、非並列対を最小化する。
トークン・ツー・トークンのアライメントは、シソーラス辞書を介して発掘された同義トークンと、バイリンガルな例の他の未使用トークンとのギャップを埋めるために統合される。
論文 参考訳(メタデータ) (2023-04-17T12:23:41Z) - Cross-Lingual Language Model Meta-Pretraining [21.591492094502424]
異なる学習段階における2つの能力について学習する言語間メタプレトレーニングを提案する。
本手法は一般化と言語間移動を両立させ,様々な言語にまたがる表現の整合性を向上する。
論文 参考訳(メタデータ) (2021-09-23T03:47:44Z) - Competence-based Curriculum Learning for Multilingual Machine
Translation [28.30800327665549]
既存の多言語機械翻訳モデルは、不均衡という深刻な課題に直面している。
本稿では,多言語機械翻訳のためのコンピテンスベースのカリキュラム学習を提案する。
TEDトークデータセットにおける従来の最先端のアプローチと比較して,我々のアプローチは着実に,顕著なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2021-09-09T02:52:34Z) - Improving the Lexical Ability of Pretrained Language Models for
Unsupervised Neural Machine Translation [127.81351683335143]
クロスリンガルプリトレーニングは、2つの言語の語彙的表現と高レベル表現を整列させるモデルを必要とする。
これまでの研究では、これは表現が十分に整合していないためです。
本稿では,語彙レベルの情報で事前学習するバイリンガルマスク言語モデルを,型レベルのクロスリンガルサブワード埋め込みを用いて強化する。
論文 参考訳(メタデータ) (2021-03-18T21:17:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。