論文の概要: Tamil-Llama: A New Tamil Language Model Based on Llama 2
- arxiv url: http://arxiv.org/abs/2311.05845v1
- Date: Fri, 10 Nov 2023 03:02:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-13 16:10:57.681509
- Title: Tamil-Llama: A New Tamil Language Model Based on Llama 2
- Title(参考訳): Tamil-Llama: Llama 2に基づいた新しいタミル語モデル
- Authors: Abhinand Balachandran
- Abstract要約: 本稿では,タミル語における優れたテキスト生成と理解の実現を目的として,16,000個のタミルトークンを付加したオープンソースのLLaMAモデルを改良する。
我々は,総合的なタミルコーパス上での効率的なモデルトレーニングのためのLoRA手法を戦略的に活用し,計算可能性とモデル堅牢性を確保する。
以上の結果から,タミル語テキスト生成の性能は大幅に向上し,インド語における大規模言語モデルの視野が拡大する可能性が示唆された。
- 参考スコア(独自算出の注目度): 6.449795539095749
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language modeling has witnessed remarkable advancements in recent years, with
Large Language Models (LLMs) like ChatGPT setting unparalleled benchmarks in
human-like text generation. However, a prevailing limitation is the
underrepresentation of languages like Tamil in these cutting-edge models,
leading to suboptimal performance in diverse linguistic contexts. This paper
addresses this lacuna, enhancing the open-source LLaMA model with an addition
of 16,000 Tamil tokens, aiming to achieve superior text generation and
comprehension in the Tamil language. We strategically employ the LoRA
methodology for efficient model training on a comprehensive Tamil corpus,
ensuring computational feasibility and model robustness. Moreover, we introduce
a Tamil-translated version of the Alpaca dataset and a subset of the OpenOrca
dataset tailored for instruction fine-tuning. Our results showcase significant
performance improvements in Tamil text generation, with potential implications
for the broader landscape of LLMs in Indian languages. We further underscore
our commitment to open research by making our models, datasets, and code
publicly accessible, fostering further innovations in language modeling.
- Abstract(参考訳): 言語モデリングは、ChatGPTのような大規模言語モデル(LLM)が人間のようなテキスト生成で非並列ベンチマークを設定するなど、近年顕著な進歩を見せている。
しかしながら、一般的な制限は、これらの最先端モデルにおけるタミル語のような言語の過小評価であり、多様な言語的文脈において最適以下のパフォーマンスをもたらす。
本稿では,オープンソースのLLaMAモデルを16,000個のタミルトークンを追加して拡張し,タミル語における優れたテキスト生成と理解の実現を目指す。
我々は,総合的なタミルコーパス上での効率的なモデルトレーニングのためのLoRA手法を戦略的に活用し,計算可能性とモデル堅牢性を確保する。
さらに、Alpacaデータセットのタミル訳バージョンと、命令の微調整に適したOpenOrcaデータセットのサブセットを導入する。
以上の結果から,タミル語テキスト生成の性能は大幅に向上し,インド語におけるLLMのより広い景観に影響を及ぼす可能性が示唆された。
オープンリサーチへのコミットメントをさらに強調し、モデル、データセット、コードを公開アクセス可能にし、言語モデリングのさらなるイノベーションを促進します。
関連論文リスト
- One Model is All You Need: ByT5-Sanskrit, a Unified Model for Sanskrit NLP Tasks [26.848664285007022]
ByT5-Sanskritは、形態的にリッチなサンスクリット言語を含むNLPアプリケーション向けに設計された。
外部の言語資源によってカバーされていないデータへのデプロイが容易で、より堅牢である。
提案手法は,他の形態学的にリッチな言語に対する補題化と依存関係解析のための新たなベストスコアが得られることを示す。
論文 参考訳(メタデータ) (2024-09-20T22:02:26Z) - Walia-LLM: Enhancing Amharic-LLaMA by Integrating Task-Specific and Generative Datasets [2.8123257987021058]
タスク固有および生成データセットを統合することでLLaMA-2-Amharicモデルの強化に注力する。
我々はAmharic命令の微調整データセットとLLaMA-2-Amharicモデルをコンパイルする。
微調整されたモデルは、異なるNLPタスクで有望な結果を示す。
論文 参考訳(メタデータ) (2024-02-12T19:25:11Z) - Paramanu: A Family of Novel Efficient Generative Foundation Language Models for Indian Languages [3.9018931027384056]
インド語のための新しい言語モデル(LM)のファミリーである「Paramanu」を提示する。
10の言語(アッサム語、バングラ語、ヒンディー語、コンカニ語、マイティシ語、マラティ語、オディア語、サンスクリット語、タミル語、テルグ語)を5文字でカバーしている。
モデルは、コンテキストサイズが1024の1つのGPUで事前トレーニングされており、サイズは13.29万(M)から367.5Mまで様々である。
論文 参考訳(メタデータ) (2024-01-31T17:58:10Z) - YAYI 2: Multilingual Open-Source Large Language Models [53.92832054643197]
我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。
YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。
ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
論文 参考訳(メタデータ) (2023-12-22T17:34:47Z) - Conversations in Galician: a Large Language Model for an
Underrepresented Language [2.433983268807517]
本稿では,ガリシア語に対する自然言語処理(NLP)を強化するために設計された2つの新しい資源を紹介する。
52,000の指示と実演を含むアルパカデータセットのガリシア適応について述べる。
データセットユーティリティのデモとして、元々モデルでサポートされていない言語であるGalicianで、LLaMA-7Bの理解と応答を微調整した。
論文 参考訳(メタデータ) (2023-11-07T08:52:28Z) - FinGPT: Large Generative Models for a Small Language [48.46240937758779]
我々は、世界の人口の0.1%未満で話されるフィンランド語のための大きな言語モデル(LLM)を作成します。
我々は、FinGPTと呼ばれる7つの単言語モデル(186Mから13Bパラメータ)をスクラッチからトレーニングする。
我々は、元のトレーニングデータとフィンランド語を混合した多言語BLOOMモデルの事前訓練を継続し、その結果、176億のパラメータモデルをBLUUMIと呼ぶ。
論文 参考訳(メタデータ) (2023-11-03T08:05:04Z) - PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z) - Generalizing Multimodal Pre-training into Multilingual via Language
Acquisition [54.69707237195554]
英語のVision-Language Pre-Trainingは、様々な下流タスクで大きな成功を収めた。
この成功を英語以外の言語に一般化するために、Multilingual Vision-Language Pre-Trainingを通じていくつかの取り組みがなされている。
単言語視覚言語事前学習モデルを多言語に容易に一般化できるtextbfMultitextbfLingual textbfAcquisition (MLA) フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-29T08:53:22Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。