論文の概要: Amharic LLaMA and LLaVA: Multimodal LLMs for Low Resource Languages
- arxiv url: http://arxiv.org/abs/2403.06354v1
- Date: Mon, 11 Mar 2024 01:04:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-12 20:40:49.421822
- Title: Amharic LLaMA and LLaVA: Multimodal LLMs for Low Resource Languages
- Title(参考訳): Amharic LLaMAとLLaVA:低資源言語のためのマルチモーダルLLM
- Authors: Michael Andersland
- Abstract要約: 大規模言語モデル(LLM)は、自然言語処理タスクにおいて驚くほどの習熟度を示している。
LLMは、トレーニングデータが少ないため、低リソースの言語でよく機能するのに苦労することが多い。
本研究では,世界5000万人以上の人々が話す言語であるAmharicを話すためのLLaMA-2の訓練について検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) like GPT-4 and LLaMA have shown incredible
proficiency at natural language processing tasks and have even begun to excel
at tasks across other modalities such as vision and audio. Despite their
success, LLMs often struggle to perform well on low-resource languages because
there is so little training data available. This shortcoming is especially
prevalent with open source models. In this work, we explore training LLaMA-2 to
speak Amharic, a language which is spoken by over 50 million people world wide,
but has orders of magnitude less data available than languages like English. We
employ methods previously used for training LLMs on other languages with data
scarcity, and use open source translation models to perform data augmentation
and grow our dataset from millions of tokens to billions. We further enhance
the capabilities of our model by connecting an image encoder and training on a
translated visual instruction tuning dataset in the same manner as LLaVA,
resulting in a multimodal Amharic LLM that can understand images along with
text. We introduce an Amharic version of a popular benchmarking dataset to
evaluate our work. Our models and dataset are open sourced and available on
GitHub.
- Abstract(参考訳): gpt-4やllamaといった大規模言語モデル(llm)は、自然言語処理タスクに驚くほど熟練しており、視覚や音声といった他のモダリティを越えたタスクでも優れている。
その成功にもかかわらず、llmはトレーニングデータが少ないため、低リソース言語でうまく機能するのに苦労することが多い。
この欠点は特にオープンソースモデルに共通している。
本研究では,世界5000万人以上の人々が話す言語であるAmharicを話すためのLLaMA-2の訓練について検討する。
我々は、データ不足を伴う他の言語でのLLMのトレーニングに使用した手法を採用し、オープンソースの翻訳モデルを使用してデータ拡張を行い、数百万のトークンから数十億のトークンまでデータセットを成長させます。
我々は、画像エンコーダを接続し、LLaVAと同じ方法で翻訳された視覚的命令調律データセット上でトレーニングすることで、画像とテキストを同時に理解できるマルチモーダル・アンモリック・LLMを実現することにより、モデルの性能をさらに向上させる。
一般的なベンチマークデータセットのAmharicバージョンを導入し、作業を評価します。
私たちのモデルとデータセットはオープンソースで、GitHubから入手可能です。
関連論文リスト
- Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization [108.6908427615402]
CLS(Cross-lingual summarization)は、異なるターゲット言語でソーステキストの要約を生成することを目的としている。
現在、インストラクションチューニング付き大規模言語モデル (LLM) は様々な英語タスクで優れている。
近年の研究では、LCSタスクにおけるLCMの性能は、わずかな設定でも満足できないことが示されている。
論文 参考訳(メタデータ) (2024-10-26T00:39:44Z) - Tagengo: A Multilingual Chat Dataset [3.8073142980733]
74言語で70k以上のプロンプト応答対の高品質なデータセットを提示する。
このデータセットを使って、最先端のオープンソースLLMをトレーニングし、マルチ言語でチャットします。
論文 参考訳(メタデータ) (2024-05-21T09:06:36Z) - Towards a More Inclusive AI: Progress and Perspectives in Large Language Model Training for the Sámi Language [7.289015788793582]
本研究は、S'ami言語における技術参加の増大に焦点を当てている。
我々は,Ultra Low Resource (ULR)言語の言語モデリング問題に対して,MLコミュニティの注目を集めている。
Webから利用可能なS'ami言語リソースをコンパイルして、言語モデルをトレーニングするためのクリーンなデータセットを作成しました。
論文 参考訳(メタデータ) (2024-05-09T13:54:22Z) - Enhancing Multilingual Capabilities of Large Language Models through
Self-Distillation from Resource-Rich Languages [60.162717568496355]
大規模言語モデル(LLM)は多言語コーパスで事前訓練されている。
彼らのパフォーマンスは、いくつかのリソース豊富な言語と比較して、ほとんどの言語でまだ遅れています。
論文 参考訳(メタデータ) (2024-02-19T15:07:32Z) - UltraLink: An Open-Source Knowledge-Enhanced Multilingual Supervised
Fine-tuning Dataset [69.33424532827608]
オープンソースの大規模言語モデル(LLM)は、様々な分野において大きな強みを持っている。
本研究では,オープンソースの多言語教師付き微調整データセットを構築する。
結果として得られたUltraLinkデータセットは、5つの言語にわたる約100万のサンプルで構成されている。
論文 参考訳(メタデータ) (2024-02-07T05:05:53Z) - CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large
Language Models in 167 Languages [86.90220551111096]
大規模言語モデル(LLM)のトレーニングデータセットは、完全には公開されないことが多い。
我々は167言語で6.3兆のトークンを持つ相当な多言語データセットであるCulturaXを紹介する。
論文 参考訳(メタデータ) (2023-09-17T23:49:10Z) - PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。