論文の概要: Building pre-train LLM Dataset for the INDIC Languages: a case study on Hindi
- arxiv url: http://arxiv.org/abs/2407.09855v1
- Date: Sat, 13 Jul 2024 11:29:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 20:27:46.275313
- Title: Building pre-train LLM Dataset for the INDIC Languages: a case study on Hindi
- Title(参考訳): INDIC言語のためのプレトレインLLMデータセットの構築:ヒンディー語を事例として
- Authors: Shantipriya Parida, Shakshi Panwar, Kusum Lata, Sanskruti Mishra, Sambit Sekhar,
- Abstract要約: 私たちは、ヒンディー語に有用なヒンディー語における大規模な事前訓練データセットを提案しています。
データセットには28億のヒンディー語トークンが含まれている。
- 参考スコア(独自算出の注目度): 0.745652600521932
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) demonstrated transformative capabilities in many applications that require automatically generating responses based on human instruction. However, the major challenge for building LLMs, particularly in Indic languages, is the availability of high-quality data for building foundation LLMs. In this paper, we are proposing a large pre-train dataset in Hindi useful for the Indic language Hindi. We have collected the data span across several domains including major dialects in Hindi. The dataset contains 1.28 billion Hindi tokens. We have explained our pipeline including data collection, pre-processing, and availability for LLM pre-training. The proposed approach can be easily extended to other Indic and low-resource languages and will be available freely for LLM pre-training and LLM research purposes.
- Abstract(参考訳): 大規模言語モデル(LLM)は、人間の命令に基づいて応答を自動的に生成する必要がある多くのアプリケーションにおいて、変換能力を示した。
しかし、特にIndic言語でLLMを構築する上での大きな課題は、基礎となるLLMを構築するための高品質なデータを提供することである。
本稿では,ヒンディー語のヒンディー語に有用な,ヒンディー語における事前訓練前の大規模データセットを提案する。
我々はヒンディー語の主要な方言を含むいくつかの領域にまたがるデータを収集した。
データセットには28億のヒンディー語トークンが含まれている。
データ収集、事前処理、LLM事前トレーニングの可用性など、パイプラインについて説明しました。
提案手法は、他のIndicおよび低リソース言語に容易に拡張でき、LLM事前学習およびLLM研究目的で自由に利用できる。
関連論文リスト
- INDIC QA BENCHMARK: A Multilingual Benchmark to Evaluate Question Answering capability of LLMs for Indic Languages [26.13077589552484]
Indic-QAは、2つの言語ファミリーから11の主要なインドの言語に対して、公開可能なコンテキストベース質問答えデータセットとして最大である。
我々は、Geminiモデルを用いて合成データセットを生成し、パスを与えられた質問応答ペアを作成し、品質保証のために手作業で検証する。
様々な多言語大言語モデルと,その命令を微調整した変種をベンチマークで評価し,その性能,特に低リソース言語について検討した。
論文 参考訳(メタデータ) (2024-07-18T13:57:16Z) - LLMs Beyond English: Scaling the Multilingual Capability of LLMs with Cross-Lingual Feedback [61.23008372927665]
我々はLLaMAとBLOOMの多言語機能を100言語に拡張するxLLMs-100を紹介する。
5つの多言語ベンチマークでxLLMs-100の多言語理解と生成能力を評価する。
論文 参考訳(メタデータ) (2024-06-03T20:25:12Z) - Aya Dataset: An Open-Access Collection for Multilingual Instruction
Tuning [49.79783940841352]
既存のデータセットはほとんどが英語で書かれている。
私たちは世界中の言語に精通した話者と協力して、指示と完了の自然な例を集めています。
既存のデータセットを114言語でテンプレート化し、翻訳することで、5億1300万のインスタンスを含む、これまでで最も広範な多言語コレクションを作成します。
論文 参考訳(メタデータ) (2024-02-09T18:51:49Z) - UltraLink: An Open-Source Knowledge-Enhanced Multilingual Supervised
Fine-tuning Dataset [69.33424532827608]
オープンソースの大規模言語モデル(LLM)は、様々な分野において大きな強みを持っている。
本研究では,オープンソースの多言語教師付き微調整データセットを構築する。
結果として得られたUltraLinkデータセットは、5つの言語にわたる約100万のサンプルで構成されている。
論文 参考訳(メタデータ) (2024-02-07T05:05:53Z) - Building a Llama2-finetuned LLM for Odia Language Utilizing Domain
Knowledge Instruction Set [1.6261478739213642]
英語以外の言語でLLMを構築することは、多言語LLMが利用できないことや性能のために大きな需要がある。
本稿では,LLMファインチューニングに適したドメイン知識データを含む,大規模なOdia命令セットを生成する方法と,Odiaドメインの性能向上に適したLlama2ファインチューニングモデルを構築する方法を提案する。
論文 参考訳(メタデータ) (2023-12-19T22:01:01Z) - CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large
Language Models in 167 Languages [86.90220551111096]
大規模言語モデル(LLM)のトレーニングデータセットは、完全には公開されないことが多い。
我々は167言語で6.3兆のトークンを持つ相当な多言語データセットであるCulturaXを紹介する。
論文 参考訳(メタデータ) (2023-09-17T23:49:10Z) - Okapi: Instruction-tuned Large Language Models in Multiple Languages
with Reinforcement Learning from Human Feedback [61.83548032416181]
複数の言語を対象としたRLHFに基づく命令調整型LLMシステムであるOkapiを提案する。
オカピは26の多言語言語でインストラクションと応答ランクデータを導入し、将来の多言語LLM研究の促進と開発に役立てている。
論文 参考訳(メタデータ) (2023-07-29T18:01:46Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z) - llm-japanese-dataset v0: Construction of Japanese Chat Dataset for Large
Language Models and its Methodology [4.396516562723691]
本研究では,約840万レコードからなる大規模言語モデル(LLM)をチューニングするための日本語チャットデータセットを構築した。
その結果,このデータセットはLLMにとって有益である可能性が示唆された。
しかし、英語以外の言語でLLMを構築することの難しさも明らかにした。
論文 参考訳(メタデータ) (2023-05-22T04:59:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。