論文の概要: Building a Llama2-finetuned LLM for Odia Language Utilizing Domain
Knowledge Instruction Set
- arxiv url: http://arxiv.org/abs/2312.12624v1
- Date: Tue, 19 Dec 2023 22:01:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 17:53:05.886515
- Title: Building a Llama2-finetuned LLM for Odia Language Utilizing Domain
Knowledge Instruction Set
- Title(参考訳): ドメイン知識命令セットを利用したodia言語用llmの構築
- Authors: Guneet Singh Kohli, Shantipriya Parida, Sambit Sekhar, Samirit Saha,
Nipun B Nair, Parul Agarwal, Sonal Khosla, Kusumlata Patiyal, Debasish Dhal
- Abstract要約: 英語以外の言語でLLMを構築することは、多言語LLMが利用できないことや性能のために大きな需要がある。
本稿では,LLMファインチューニングに適したドメイン知識データを含む,大規模なOdia命令セットを生成する方法と,Odiaドメインの性能向上に適したLlama2ファインチューニングモデルを構築する方法を提案する。
- 参考スコア(独自算出の注目度): 1.6261478739213642
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Building LLMs for languages other than English is in great demand due to the
unavailability and performance of multilingual LLMs, such as understanding the
local context. The problem is critical for low-resource languages due to the
need for instruction sets. In a multilingual country like India, there is a
need for LLMs supporting Indic languages to provide generative AI and LLM-based
technologies and services to its citizens.
This paper presents our approach of i) generating a large Odia instruction
set, including domain knowledge data suitable for LLM fine-tuning, and ii)
building a Llama2-finetuned model tailored for enhanced performance in the Odia
domain. The proposed work will help researchers build an instruction set and
LLM, particularly for Indic languages. We will release the model and
instruction set for the public for research and noncommercial purposes.
- Abstract(参考訳): 英語以外の言語でllmを構築するのは、現地の文脈を理解するなど多言語llmが利用できないため、大きな需要がある。
この問題は、命令セットを必要とするため、低リソース言語にとって重要である。
インドのような多言語国では、ジェネレーティブAIとLLMベースの技術とサービスを市民に提供するために、Indic言語をサポートするLLMが必要である。
本稿では,我々のアプローチについて述べる。
一 LLM微調整に適したドメイン知識データを含む大規模なOdia命令セットの作成及び
二 オーディアドメインの性能を高めるために調整されたLlama2ファインチュードモデルを構築すること。
提案された研究は、特にIndic言語のための命令セットとLLMの構築を支援する。
研究や非商業目的のために、モデルとインストラクションセットを一般向けにリリースします。
関連論文リスト
- Building pre-train LLM Dataset for the INDIC Languages: a case study on Hindi [0.745652600521932]
私たちは、ヒンディー語に有用なヒンディー語における大規模な事前訓練データセットを提案しています。
データセットには28億のヒンディー語トークンが含まれている。
論文 参考訳(メタデータ) (2024-07-13T11:29:20Z) - Getting More from Less: Large Language Models are Good Spontaneous Multilingual Learners [67.85635044939836]
大きな言語モデル(LLM)は印象的な言語機能を示している。
本研究では,LLMの自然多言語アライメント改善について検討する。
質問翻訳データ(すなわち注釈付き回答なし)に基づいて学習したLLMは、英語と幅広い言語との整合を促進できることがわかった。
論文 参考訳(メタデータ) (2024-05-22T16:46:19Z) - CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large
Language Models in 167 Languages [86.90220551111096]
大規模言語モデル(LLM)のトレーニングデータセットは、完全には公開されないことが多い。
我々は167言語で6.3兆のトークンを持つ相当な多言語データセットであるCulturaXを紹介する。
論文 参考訳(メタデータ) (2023-09-17T23:49:10Z) - Okapi: Instruction-tuned Large Language Models in Multiple Languages
with Reinforcement Learning from Human Feedback [61.83548032416181]
複数の言語を対象としたRLHFに基づく命令調整型LLMシステムであるOkapiを提案する。
オカピは26の多言語言語でインストラクションと応答ランクデータを導入し、将来の多言語LLM研究の促進と開発に役立てている。
論文 参考訳(メタデータ) (2023-07-29T18:01:46Z) - PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z) - InstructAlign: High-and-Low Resource Language Alignment via Continual
Crosslingual Instruction Tuning [66.31509106146605]
命令を調整した大規模言語モデル(LLM)は、様々なタスクや言語で顕著な能力を示している。
しかし、利用可能なデータが不足しているため、表現不足の言語に一般化する能力は限られている。
InstructAlignは、LLMが新しい未知の言語を学習済みの高リソース言語と整列できるようにするために、連続的なクロスリンガル命令チューニングを使用する。
論文 参考訳(メタデータ) (2023-05-23T02:51:34Z) - llm-japanese-dataset v0: Construction of Japanese Chat Dataset for Large
Language Models and its Methodology [4.396516562723691]
本研究では,約840万レコードからなる大規模言語モデル(LLM)をチューニングするための日本語チャットデータセットを構築した。
その結果,このデータセットはLLMにとって有益である可能性が示唆された。
しかし、英語以外の言語でLLMを構築することの難しさも明らかにした。
論文 参考訳(メタデータ) (2023-05-22T04:59:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。