論文の概要: PersianMind: A Cross-Lingual Persian-English Large Language Model
- arxiv url: http://arxiv.org/abs/2401.06466v1
- Date: Fri, 12 Jan 2024 09:24:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 19:56:48.527698
- Title: PersianMind: A Cross-Lingual Persian-English Large Language Model
- Title(参考訳): ペルシャマインド:ペルシア語-英語大言語モデル
- Authors: Pedram Rostami, Ali Salemi, Mohammad Javad Dousti
- Abstract要約: オープンソースのバイリンガル大言語モデルであるPerphaMindを紹介する。
これはペルシア語のクローズドソース GPT-3.5-turbo に匹敵する性能を示している。
提案手法は,モデルの英語知識を保存し,タスク知識をある言語から別の言語に伝達する際の優れた伝達学習を利用する。
- 参考スコア(独自算出の注目度): 2.565964707090901
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models demonstrate remarkable proficiency in various
linguistic tasks and have extensive knowledge across various domains. Although
they perform best in English, their ability in other languages is notable too.
In contrast, open-source models, such as LLaMa, are primarily trained on
English datasets, resulting in poor performance in non-English languages. In
this paper, we introduce PersianMind, an open-source bilingual large language
model which demonstrates comparable performance to closed-source GPT-3.5-turbo
in the Persian language. By expanding LLaMa2's vocabulary with 10,000 Persian
tokens and training it on a dataset comprising nearly 2 billion Persian tokens,
we show that our approach preserves the model's English knowledge and employs
transfer learning to excel at transferring task knowledge from one language to
another.
- Abstract(参考訳): 大きな言語モデルは、様々な言語タスクにおいて顕著な熟練度を示し、様々なドメインにまたがる幅広い知識を持っている。
英語が得意だが、他の言語でもその能力は顕著である。
対照的に、llamaのようなオープンソースモデルは、主に英語のデータセットでトレーニングされており、非英語言語のパフォーマンスが低下する。
本稿では,ペルシャ語のGPT-3.5-turboに匹敵する性能を示すオープンソースのバイリンガル大言語モデルであるペルシャミンドを紹介する。
LLaMa2の語彙を1万のペルシャトークンで拡張し、約20億のペルシャトークンからなるデータセット上でトレーニングすることにより、我々のアプローチがモデルの英語知識を保存し、ある言語から別の言語へのタスク知識の転送に優れた転写学習を採用することを示す。
関連論文リスト
- Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間で対応する概念を関連付けることができ、効果的にクロスランガルなのでしょうか?
本研究は,言語横断的課題に関する6つの技術 LLM の評価を行った。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - Poro 34B and the Blessing of Multilinguality [3.270981284471548]
Poro 34Bは、フィンランド語、英語、プログラミング言語の1兆トークンのために訓練された34億のパラメータモデルである。
フィンランド語における既存モデルの能力を大幅に向上するモデルを,多言語学習アプローチにより生成できることが示される。
論文 参考訳(メタデータ) (2024-04-02T11:34:12Z) - Aya Model: An Instruction Finetuned Open-Access Multilingual Language
Model [33.87586041774359]
Ayaは101言語で命令に従う多言語生成言語モデルであり、50%以上が低リソースであると考えられている。
99言語にまたがる多言語evalの最先端性を広げる広範な評価スイートを導入する。
我々は、最適微調整混合物組成、データプルーニング、およびモデルの毒性、バイアス、安全性について詳細な調査を行う。
論文 参考訳(メタデータ) (2024-02-12T17:34:13Z) - UltraLink: An Open-Source Knowledge-Enhanced Multilingual Supervised
Fine-tuning Dataset [69.33424532827608]
オープンソースの大規模言語モデル(LLM)は、様々な分野において大きな強みを持っている。
本研究では,オープンソースの多言語教師付き微調整データセットを構築する。
結果として得られたUltraLinkデータセットは、5つの言語にわたる約100万のサンプルで構成されている。
論文 参考訳(メタデータ) (2024-02-07T05:05:53Z) - PersianLLaMA: Towards Building First Persian Large Language Model [5.79461948374354]
本稿ではペルシャ語テキストとデータセットの収集に基づいて訓練されたペルシャ語モデルであるペルシャ語モデル(ペルシャ語モデル)を紹介する。
その結果、ペルシャのLLaMAは、ペルシャ語のテキストの理解と生成において、競争相手を著しく上回っていることが示唆された。
論文 参考訳(メタデータ) (2023-12-25T12:48:55Z) - Language Representation Projection: Can We Transfer Factual Knowledge
across Languages in Multilingual Language Models? [48.88328580373103]
パラメータフリーの$textbfL$anguage $textbfR$epresentation $textbfP$rojection Module (LRP2)を提案する。
第1のモジュールは非英語の表現を英語のような同値に変換し、第2のモジュールは英語のような表現を対応する非英語の表現に戻す。
mLAMAデータセットによる実験結果から,LRP2は事実知識検索の精度を大幅に向上し,多種多様な非英語言語間の知識伝達を容易にすることが示された。
論文 参考訳(メタデータ) (2023-11-07T08:16:16Z) - Baichuan 2: Open Large-scale Language Models [51.56361715162972]
我々は、70億と13億のパラメータを含む大規模な多言語言語モデルであるBaichuan 2を、2.6兆のトークン上でスクラッチからトレーニングする。
Baichuan 2は、MMLU、CMMLU、GSM8K、HumanEvalなどの公開ベンチマークで、同様のサイズの他のオープンソースモデルにマッチするか、より優れています。
論文 参考訳(メタデータ) (2023-09-19T04:13:22Z) - PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z) - Bilingual Language Modeling, A transfer learning technique for Roman
Urdu [0.0]
言語のコードスイッチングプロパティが、対応する高リソース言語からのクロス言語転送学習にどのように使用されるかを示す。
また、このトランスファー学習技術であるバイリンガル言語モデリングを用いて、ロマン・ウルドゥのより良いパフォーマンスモデルを作成する方法を示す。
論文 参考訳(メタデータ) (2021-02-22T12:56:37Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。