論文の概要: Airavata: Introducing Hindi Instruction-tuned LLM
- arxiv url: http://arxiv.org/abs/2401.15006v1
- Date: Fri, 26 Jan 2024 17:07:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-29 14:27:22.685458
- Title: Airavata: Introducing Hindi Instruction-tuned LLM
- Title(参考訳): Airavata: ヒンディー語指導のLLMの導入
- Authors: Jay Gala and Thanmay Jayakumar and Jaavid Aktar Husain and Aswanth
Kumar M and Mohammed Safi Ur Rahman Khan and Diptesh Kanojia and Ratish
Puduppully and Mitesh M. Khapra and Raj Dabre and Rudra Murthy and Anoop
Kunchukuttan
- Abstract要約: AiravataはOpenHathiを細調整し、多様なインストラクションチューニングされたHindiデータセットによって作成された。
AiravataはHindiをサポートしますが、22の予定のIndic言語に拡張する予定です。
- 参考スコア(独自算出の注目度): 33.32250839515929
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We announce the initial release of "Airavata," an instruction-tuned LLM for
Hindi. Airavata was created by fine-tuning OpenHathi with diverse,
instruction-tuning Hindi datasets to make it better suited for assistive tasks.
Along with the model, we also share the IndicInstruct dataset, which is a
collection of diverse instruction-tuning datasets to enable further research
for Indic LLMs. Additionally, we present evaluation benchmarks and a framework
for assessing LLM performance across tasks in Hindi. Currently, Airavata
supports Hindi, but we plan to expand this to all 22 scheduled Indic languages.
You can access all artifacts at https://ai4bharat.github.io/airavata.
- Abstract(参考訳): ヒンディー語のための命令調整型LLMである"Airavata"の最初のリリースをアナウンスする。
airavataは、様々な命令をチューニングするヒンディー語データセットでopenhathiを微調整することで作成され、補助的なタスクに適している。
Indic Instructデータセットはまた、Indic LLMのさらなる研究を可能にする多様な命令チューニングデータセットのコレクションであるIndicInstructデータセットも共有しています。
さらに,Hindiにおけるタスク間のLLM性能を評価するための評価ベンチマークとフレームワークを提案する。
現在、AiravataはHindiをサポートしていますが、22の予定のIndic言語に拡張する予定です。
すべてのアーティファクトはhttps://ai4bharat.github.io/airavataでアクセスできる。
関連論文リスト
- IndicLLMSuite: A Blueprint for Creating Pre-training and Fine-Tuning
Datasets for Indian Languages [37.79850860981589]
本研究は、Indic LLMの開発に特化して設計された、拡張性のあるリソーススイートを紹介する。
このアプローチでは、高度にキュレートされた手作業による検証データ、検証されていないが価値のあるデータ、合成データを組み合わせています。
命令ファインチューニングでは、既存のIndicデータセットをアマルガメートし、英語データセットをインド語に翻訳・翻訳し、LLaMa2とMixtralモデルを利用する。
論文 参考訳(メタデータ) (2024-03-11T00:46:56Z) - Aya Dataset: An Open-Access Collection for Multilingual Instruction
Tuning [49.79783940841352]
既存のデータセットはほとんどが英語で書かれている。
私たちは世界中の言語に精通した話者と協力して、指示と完了の自然な例を集めています。
既存のデータセットを114言語でテンプレート化し、翻訳することで、5億1300万のインスタンスを含む、これまでで最も広範な多言語コレクションを作成します。
論文 参考訳(メタデータ) (2024-02-09T18:51:49Z) - UltraLink: An Open-Source Knowledge-Enhanced Multilingual Supervised
Fine-tuning Dataset [69.33424532827608]
オープンソースの大規模言語モデル(LLM)は、様々な分野において大きな強みを持っている。
本研究では,オープンソースの多言語教師付き微調整データセットを構築する。
結果として得られたUltraLinkデータセットは、5つの言語にわたる約100万のサンプルで構成されている。
論文 参考訳(メタデータ) (2024-02-07T05:05:53Z) - Building a Llama2-finetuned LLM for Odia Language Utilizing Domain
Knowledge Instruction Set [1.6261478739213642]
英語以外の言語でLLMを構築することは、多言語LLMが利用できないことや性能のために大きな需要がある。
本稿では,LLMファインチューニングに適したドメイン知識データを含む,大規模なOdia命令セットを生成する方法と,Odiaドメインの性能向上に適したLlama2ファインチューニングモデルを構築する方法を提案する。
論文 参考訳(メタデータ) (2023-12-19T22:01:01Z) - Breaking Language Barriers: A Question Answering Dataset for Hindi and
Marathi [1.03590082373586]
本稿では,ヒンディー語とマラティー語という2つの言語を対象とした質問回答データセットの開発に焦点をあてる。
ヒンディー語は世界第3位の言語であり、マラシ語は世界第11位の言語であるにもかかわらず、両方の言語は効率的な質問回答システムを構築するための限られた資源に直面している。
これらの言語で利用可能な最大の質問回答データセットをリリースし、各データセットには28,000のサンプルが含まれています。
論文 参考訳(メタデータ) (2023-08-19T00:39:21Z) - Okapi: Instruction-tuned Large Language Models in Multiple Languages
with Reinforcement Learning from Human Feedback [61.83548032416181]
複数の言語を対象としたRLHFに基づく命令調整型LLMシステムであるOkapiを提案する。
オカピは26の多言語言語でインストラクションと応答ランクデータを導入し、将来の多言語LLM研究の促進と開発に役立てている。
論文 参考訳(メタデータ) (2023-07-29T18:01:46Z) - InstructAlign: High-and-Low Resource Language Alignment via Continual
Crosslingual Instruction Tuning [66.31509106146605]
命令を調整した大規模言語モデル(LLM)は、様々なタスクや言語で顕著な能力を示している。
しかし、利用可能なデータが不足しているため、表現不足の言語に一般化する能力は限られている。
InstructAlignは、LLMが新しい未知の言語を学習済みの高リソース言語と整列できるようにするために、連続的なクロスリンガル命令チューニングを使用する。
論文 参考訳(メタデータ) (2023-05-23T02:51:34Z) - IndicNLG Suite: Multilingual Datasets for Diverse NLG Tasks in Indic
Languages [23.157951796614466]
本稿では,11言語を対象とした自然言語生成をベンチマークするデータセットの集合であるIndicNLGスイートを提案する。
本稿では,ウィキペディア情報ボックス(WikiBio)を用いたバイオグラフィー生成,ニュース見出し生成,文要約,質問生成,パラフレーズ生成の5つのタスクに着目した。
論文 参考訳(メタデータ) (2022-03-10T15:53:58Z) - "A Passage to India": Pre-trained Word Embeddings for Indian Languages [30.607474624873014]
既存のアプローチを使って、14のインドの言語に複数の単語を埋め込みます。
これらすべての言語への組み込みを単一のリポジトリに配置します。
8つの異なるアプローチを使って、合計436のモデルをリリースします。
論文 参考訳(メタデータ) (2021-12-27T17:31:04Z) - Challenge Dataset of Cognates and False Friend Pairs from Indian
Languages [54.6340870873525]
コニャートは異なる言語で同じテキストの複数の変種に存在する。
本稿では,12言語を対象とした2つのコグネートデータセットの作成について述べる。
論文 参考訳(メタデータ) (2021-12-17T14:23:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。