論文の概要: ANGOFA: Leveraging OFA Embedding Initialization and Synthetic Data for Angolan Language Model
- arxiv url: http://arxiv.org/abs/2404.02534v1
- Date: Wed, 3 Apr 2024 07:44:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 18:10:13.057038
- Title: ANGOFA: Leveraging OFA Embedding Initialization and Synthetic Data for Angolan Language Model
- Title(参考訳): ANGOFA: アンゴラ語モデルの初期化と合成データの導入
- Authors: Osvaldo Luamba Quinjica, David Ifeoluwa Adelani,
- Abstract要約: 本稿では,多言語適応微調整(MAFT)アプローチを用いて,アンゴラ語に特化された4つの言語モデルを提案する。
本稿では、下流タスクにおけるMAFTモデルの性能向上における情報埋め込みと合成データの役割について調査する。
- 参考スコア(独自算出の注目度): 6.674289868371233
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, the development of pre-trained language models (PLMs) has gained momentum, showcasing their capacity to transcend linguistic barriers and facilitate knowledge transfer across diverse languages. However, this progress has predominantly bypassed the inclusion of very-low resource languages, creating a notable void in the multilingual landscape. This paper addresses this gap by introducing four tailored PLMs specifically finetuned for Angolan languages, employing a Multilingual Adaptive Fine-tuning (MAFT) approach. In this paper, we survey the role of informed embedding initialization and synthetic data in enhancing the performance of MAFT models in downstream tasks. We improve baseline over SOTA AfroXLMR-base (developed through MAFT) and OFA (an effective embedding initialization) by 12.3 and 3.8 points respectively.
- Abstract(参考訳): 近年、プレトレーニング言語モデル(PLM)の開発が勢いを増し、言語障壁を超越し、多様な言語間の知識伝達を促進する能力を示している。
しかし、この進歩は、非常に低いリソース言語を含むことをほとんど回避し、多言語環境において顕著な空白を生み出した。
本稿では,多言語適応微調整(MAFT)アプローチを用いて,アンゴラ語に特化された4つのPLMを導入することで,このギャップを解消する。
本稿では、下流タスクにおけるMAFTモデルの性能向上における情報埋め込み初期化と合成データの役割について調査する。
我々は,SOTA AfroXLMRベース(MAFTにより開発された)とOFA(効果的な埋め込み初期化)のベースラインを,それぞれ12.3ポイント,3.8ポイント改善する。
関連論文リスト
- Pangea: A Fully Open Multilingual Multimodal LLM for 39 Languages [55.36534539177367]
本稿では,39言語にまたがる多様な6M命令データセットに基づいて訓練された多言語多言語多言語大言語モデル(MLLM)であるPangeaを紹介する。
P Pangeaは、多言語設定や多様な文化的コンテキストにおいて、既存のオープンソースモデルよりも大幅に優れています。
我々は、包括的で堅牢な多言語MLLMの開発を容易にするために、データ、コード、訓練されたチェックポイントを完全にオープンソースにしています。
論文 参考訳(メタデータ) (2024-10-21T16:19:41Z) - RLHF Can Speak Many Languages: Unlocking Multilingual Preference Optimization for LLMs [13.563021984882704]
高品質な多言語フィードバックデータを生成するための,新しいスケーラブルな手法を提案する。
我々の選好訓練モデルはAya 23 8Bに対して54.4%の勝利率を達成した。
その結果,世界の人口の半分をカバーする23言語にアライメント手法のフロンティアを広げた。
論文 参考訳(メタデータ) (2024-07-02T17:42:30Z) - MoE-CT: A Novel Approach For Large Language Models Training With Resistance To Catastrophic Forgetting [53.77590764277568]
ベースモデルの学習を多言語拡張プロセスから分離する新しいMoE-CTアーキテクチャを提案する。
我々の設計では、元のLLMパラメータを凍結し、高リソース言語のパフォーマンスを保護しますが、様々な言語データセットに基づいてトレーニングされたMoEモジュールは、低リソース言語の習熟度を向上します。
論文 参考訳(メタデータ) (2024-06-25T11:03:45Z) - Open Generative Large Language Models for Galician [1.3049334790726996]
大規模言語モデル(LLM)は自然言語処理に変化をもたらした。
しかし、彼らの主に英語中心のトレーニングは、言語間でのバイアスとパフォーマンスの相違につながっている。
この不均衡は、ガリシア語のような低い資源を持つ言語にとって、NLP技術への公平なアクセスを困難にしている。
このギャップを埋めるために、ガリシアに焦点をあてた最初の2つの生成LDMを提示する。
論文 参考訳(メタデータ) (2024-06-19T23:49:56Z) - Compass: Large Multilingual Language Model for South-east Asia [0.0]
CompassLLMは東南アジアの言語に特化した多言語モデルである。
我々のモデルはインドネシア語のような東南アジアの言語で優れた性能を示す。
論文 参考訳(メタデータ) (2024-04-14T11:48:33Z) - Towards Building Multilingual Language Model for Medicine [54.1382395897071]
6つの主要言語を含む約25.5Bトークンを含む多言語医療コーパスを構築した。
MMedBench と呼ばれる有理性を持つ多言語医療用多言語質問応答ベンチマークを提案する。
我々の最終モデルであるMMed-Llama 3は、8Bパラメータしか持たないが、MMedBenchおよび英語ベンチマークの他のすべてのオープンソースモデルと比較して優れた性能が得られる。
論文 参考訳(メタデータ) (2024-02-21T17:47:20Z) - PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z) - Multilingual Neural Machine Translation:Can Linguistic Hierarchies Help? [29.01386302441015]
MNMT(Multilingual Neural Machine Translation)は、複数の言語間の翻訳をサポートする単一のNMTモデルを訓練する。
MNMTモデルの性能は、様々な言語から知識を伝達することで、負の転送によって翻訳性能が低下するので、訓練で使用される言語の種類に大きく依存する。
本稿では,MNMTにおける階層的知識蒸留(HKD)手法を提案する。
論文 参考訳(メタデータ) (2021-10-15T02:31:48Z) - Leveraging Monolingual Data with Self-Supervision for Multilingual
Neural Machine Translation [54.52971020087777]
モノリンガルデータを使用することで、マルチリンガルモデルにおける低リソース言語の翻訳品質が大幅に向上する。
自己監督は多言語モデルのゼロショット翻訳品質を改善する。
並列データやバックトランスレーションなしで、ro-en翻訳で最大33のBLEUを得る。
論文 参考訳(メタデータ) (2020-05-11T00:20:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。