Fugu-MT 論文翻訳(概要): Multilingual Encoder Knows more than You Realize: Shared Weights Pretraining for Extremely Low-Resource Languages

論文の概要: Multilingual Encoder Knows more than You Realize: Shared Weights Pretraining for Extremely Low-Resource Languages

arxiv url: http://arxiv.org/abs/2502.10852v1
Date: Sat, 15 Feb 2025 16:53:10 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-18 20:34:44.709914
Title: Multilingual Encoder Knows more than You Realize: Shared Weights Pretraining for Extremely Low-Resource Languages
Title（参考訳）: マルチ言語エンコーダは、あなた以上のことを知っている:極低リソース言語のための共有ウェイト準備
Authors: Zeli Su, Ziyin Zhang, Guixian Xu, Jianing Liu, XU Han, Ting Zhang, Yushuang Dong,
Abstract要約: 極低リソース言語におけるテキスト生成に多言語エンコーダを適用するための新しいフレームワークを提案する。我々のフレームワークは,エンコーダとデコーダの間の重みを再利用することにより,学習したエンコーダの意味空間を活用することができる。この枠組みを4つの中国語マイノリティ言語に適用し、XLM-SWCMを提案し、様々な下流タスクにおいて優れた性能を示す。
参考スコア（独自算出の注目度）: 9.066355705304984
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: While multilingual language models like XLM-R have advanced multilingualism in NLP, they still perform poorly in extremely low-resource languages. This situation is exacerbated by the fact that modern LLMs such as LLaMA and Qwen support far fewer languages than XLM-R, making text generation models non-existent for many languages in the world. To tackle this challenge, we propose a novel framework for adapting multilingual encoders to text generation in extremely low-resource languages. By reusing the weights between the encoder and the decoder, our framework allows the model to leverage the learned semantic space of the encoder, enabling efficient learning and effective generalization in low-resource languages. Applying this framework to four Chinese minority languages, we present XLM-SWCM, and demonstrate its superior performance on various downstream tasks even when compared with much larger models.
Abstract（参考訳）: XLM-Rのような多言語言語モデルは、NLPにおいて高度な多言語性を持っているが、非常に低リソース言語では依然として性能が劣っている。この状況は、LLaMAやQwenのような現代のLLMがXLM-Rよりもはるかに少ない言語をサポートするという事実によって悪化し、世界中の多くの言語ではテキスト生成モデルは存在しない。この課題に対処するために、極低リソース言語におけるテキスト生成に多言語エンコーダを適用するための新しいフレームワークを提案する。我々のフレームワークは,エンコーダとデコーダの間の重みを再利用することにより,学習したエンコーダのセマンティック空間を活用でき,低リソース言語における効率的な学習と効率的な一般化を可能にする。この枠組みを4つの中国語マイノリティ言語に適用し、XLM-SWCMを示し、より大規模なモデルと比較しても、様々な下流タスクにおいて優れた性能を示す。

関連論文リスト

Enhancing Code Generation for Low-Resource Languages: No Silver Bullet [55.39571645315926]
大規模言語モデル(LLM)は、プログラミング言語の構文、意味論、使用パターンを学ぶために、大規模で多様なデータセットに依存している。低リソース言語では、そのようなデータの限られた可用性は、モデルを効果的に一般化する能力を損なう。本稿では,低リソース言語におけるLLMの性能向上のためのいくつかの手法の有効性を実証研究する。
論文参考訳（メタデータ） (2025-01-31T12:23:28Z)
Exploring Pretraining via Active Forgetting for Improving Cross Lingual Transfer for Decoder Language Models [7.998168689120558]
大規模言語モデル(LLM)は、多数のNLPタスクにおいて例外的な機能を示す。英語以外の言語に対するそのようなモデルの有効性は制限されることが多い。能動的忘れを前提としたLLMは,新しい言語や目に見えない言語に適応する上で非常に有効であることを示す。
論文参考訳（メタデータ） (2024-10-21T16:33:16Z)
Multilingual Large Language Models and Curse of Multilinguality [4.096453902709292]
大規模言語モデル(LLM)は自然言語処理(NLP)の研究者や実践者の間で広く普及している。本稿では,多言語LLMの展望を概観し,その技術的側面について概観する。基礎となるアーキテクチャ、客観的関数、事前トレーニングされたデータソース、トークン化メソッドを説明します。
論文参考訳（メタデータ） (2024-06-15T11:31:39Z)
Towards a More Inclusive AI: Progress and Perspectives in Large Language Model Training for the Sámi Language [7.289015788793582]
本研究は、S'ami言語における技術参加の増大に焦点を当てている。我々は,Ultra Low Resource (ULR)言語の言語モデリング問題に対して,MLコミュニティの注目を集めている。 Webから利用可能なS'ami言語リソースをコンパイルして、言語モデルをトレーニングするためのクリーンなデータセットを作成しました。
論文参考訳（メタデータ） (2024-05-09T13:54:22Z)
Enhancing Multilingual Capabilities of Large Language Models through Self-Distillation from Resource-Rich Languages [60.162717568496355]
大規模言語モデル(LLM)は多言語コーパスで事前訓練されている。彼らのパフォーマンスは、いくつかのリソース豊富な言語と比較して、ほとんどの言語でまだ遅れています。
論文参考訳（メタデータ） (2024-02-19T15:07:32Z)
Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文参考訳（メタデータ） (2023-06-20T08:27:47Z)
Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文参考訳（メタデータ） (2023-06-13T08:08:08Z)
Generalizing Multimodal Pre-training into Multilingual via Language Acquisition [54.69707237195554]
英語のVision-Language Pre-Trainingは、様々な下流タスクで大きな成功を収めた。この成功を英語以外の言語に一般化するために、Multilingual Vision-Language Pre-Trainingを通じていくつかの取り組みがなされている。単言語視覚言語事前学習モデルを多言語に容易に一般化できるtextbfMultitextbfLingual textbfAcquisition (MLA) フレームワークを提案する。
論文参考訳（メタデータ） (2022-05-29T08:53:22Z)
Bitext Mining Using Distilled Sentence Representations for Low-Resource Languages [12.00637655338665]
私たちは、非常に低リソースの言語を研究し、50のアフリカ言語を扱っています。我々は文エンコーダ、マイニングビットクストを訓練し、NMTシステムのトレーニングによりビットクストを検証する。これらの言語では、文エンコーダ、ビットクストをマイニングし、NMTシステムのトレーニングによってビットクストを検証する。
論文参考訳（メタデータ） (2022-05-25T10:53:24Z)
UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文参考訳（メタデータ） (2020-12-31T11:37:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。