論文の概要: Airavata: Introducing Hindi Instruction-tuned LLM
- arxiv url: http://arxiv.org/abs/2401.15006v2
- Date: Mon, 26 Feb 2024 12:17:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 18:37:03.584290
- Title: Airavata: Introducing Hindi Instruction-tuned LLM
- Title(参考訳): Airavata: ヒンディー語指導のLLMの導入
- Authors: Jay Gala, Thanmay Jayakumar, Jaavid Aktar Husain, Aswanth Kumar M,
Mohammed Safi Ur Rahman Khan, Diptesh Kanojia, Ratish Puduppully, Mitesh M.
Khapra, Raj Dabre, Rudra Murthy and Anoop Kunchukuttan
- Abstract要約: AiravataはOpenHathiを細調整し、多様なインストラクションチューニングされたHindiデータセットによって作成された。
AiravataはHindiをサポートしますが、22の予定のIndic言語に拡張する予定です。
- 参考スコア(独自算出の注目度): 33.32250839515929
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We announce the initial release of "Airavata," an instruction-tuned LLM for
Hindi. Airavata was created by fine-tuning OpenHathi with diverse,
instruction-tuning Hindi datasets to make it better suited for assistive tasks.
Along with the model, we also share the IndicInstruct dataset, which is a
collection of diverse instruction-tuning datasets to enable further research
for Indic LLMs. Additionally, we present evaluation benchmarks and a framework
for assessing LLM performance across tasks in Hindi. Currently, Airavata
supports Hindi, but we plan to expand this to all 22 scheduled Indic languages.
You can access all artifacts at https://ai4bharat.github.io/airavata.
- Abstract(参考訳): ヒンディー語のための命令調整型LLMである"Airavata"の最初のリリースをアナウンスする。
airavataは、様々な命令をチューニングするヒンディー語データセットでopenhathiを微調整することで作成され、補助的なタスクに適している。
Indic Instructデータセットはまた、Indic LLMのさらなる研究を可能にする多様な命令チューニングデータセットのコレクションであるIndicInstructデータセットも共有しています。
さらに,Hindiにおけるタスク間のLLM性能を評価するための評価ベンチマークとフレームワークを提案する。
現在、AiravataはHindiをサポートしていますが、22の予定のIndic言語に拡張する予定です。
すべてのアーティファクトはhttps://ai4bharat.github.io/airavataでアクセスできる。
関連論文リスト
- Atlas-Chat: Adapting Large Language Models for Low-Resource Moroccan Arabic Dialect [45.755756115243486]
我々はAtlas-Chatを紹介した。Atlas-Chatは、方言アラビア語に特化して開発された大規模な言語モデルのコレクションである。
既存のDarija言語資源を集約し、手動と合成の両方で新しいデータセットを作成することで、命令データセットを構築します。
データセットを微調整したAtlas-Chat-9Bと2Bモデルは、Darija命令に従い、標準のNLPタスクを実行する優れた能力を示す。
論文 参考訳(メタデータ) (2024-09-26T14:56:38Z) - Hindi-BEIR : A Large Scale Retrieval Benchmark in Hindi [8.21020989074456]
進行中の研究にもかかわらず、ヒンディー語で検索モデルを評価するための包括的なベンチマークが欠如している。
我々は、ヒンディー語に翻訳された英語のBEIRデータセットのサブセット、既存のヒンディー語検索データセット、検索用の合成データセットを含むBEIRベンチマークのヒンディー語版を紹介する。
本ベンチマークでは,タスクやドメイン固有の課題の特定と検索性能への影響を明らかにするため,最先端の多言語検索モデルの評価を行う。
論文 参考訳(メタデータ) (2024-08-18T10:55:04Z) - Building pre-train LLM Dataset for the INDIC Languages: a case study on Hindi [0.745652600521932]
私たちは、ヒンディー語に有用なヒンディー語における大規模な事前訓練データセットを提案しています。
データセットには28億のヒンディー語トークンが含まれている。
論文 参考訳(メタデータ) (2024-07-13T11:29:20Z) - IndicLLMSuite: A Blueprint for Creating Pre-training and Fine-Tuning
Datasets for Indian Languages [37.79850860981589]
本研究は、Indic LLMの開発に特化して設計された、拡張性のあるリソーススイートを紹介する。
このアプローチでは、高度にキュレートされた手作業による検証データ、検証されていないが価値のあるデータ、合成データを組み合わせています。
命令ファインチューニングでは、既存のIndicデータセットをアマルガメートし、英語データセットをインド語に翻訳・翻訳し、LLaMa2とMixtralモデルを利用する。
論文 参考訳(メタデータ) (2024-03-11T00:46:56Z) - Aya Dataset: An Open-Access Collection for Multilingual Instruction
Tuning [49.79783940841352]
既存のデータセットはほとんどが英語で書かれている。
私たちは世界中の言語に精通した話者と協力して、指示と完了の自然な例を集めています。
既存のデータセットを114言語でテンプレート化し、翻訳することで、5億1300万のインスタンスを含む、これまでで最も広範な多言語コレクションを作成します。
論文 参考訳(メタデータ) (2024-02-09T18:51:49Z) - UltraLink: An Open-Source Knowledge-Enhanced Multilingual Supervised
Fine-tuning Dataset [69.33424532827608]
オープンソースの大規模言語モデル(LLM)は、様々な分野において大きな強みを持っている。
本研究では,オープンソースの多言語教師付き微調整データセットを構築する。
結果として得られたUltraLinkデータセットは、5つの言語にわたる約100万のサンプルで構成されている。
論文 参考訳(メタデータ) (2024-02-07T05:05:53Z) - Building a Llama2-finetuned LLM for Odia Language Utilizing Domain
Knowledge Instruction Set [1.6261478739213642]
英語以外の言語でLLMを構築することは、多言語LLMが利用できないことや性能のために大きな需要がある。
本稿では,LLMファインチューニングに適したドメイン知識データを含む,大規模なOdia命令セットを生成する方法と,Odiaドメインの性能向上に適したLlama2ファインチューニングモデルを構築する方法を提案する。
論文 参考訳(メタデータ) (2023-12-19T22:01:01Z) - Okapi: Instruction-tuned Large Language Models in Multiple Languages
with Reinforcement Learning from Human Feedback [61.83548032416181]
複数の言語を対象としたRLHFに基づく命令調整型LLMシステムであるOkapiを提案する。
オカピは26の多言語言語でインストラクションと応答ランクデータを導入し、将来の多言語LLM研究の促進と開発に役立てている。
論文 参考訳(メタデータ) (2023-07-29T18:01:46Z) - InstructAlign: High-and-Low Resource Language Alignment via Continual
Crosslingual Instruction Tuning [66.31509106146605]
命令を調整した大規模言語モデル(LLM)は、様々なタスクや言語で顕著な能力を示している。
しかし、利用可能なデータが不足しているため、表現不足の言語に一般化する能力は限られている。
InstructAlignは、LLMが新しい未知の言語を学習済みの高リソース言語と整列できるようにするために、連続的なクロスリンガル命令チューニングを使用する。
論文 参考訳(メタデータ) (2023-05-23T02:51:34Z) - IndicNLG Suite: Multilingual Datasets for Diverse NLG Tasks in Indic
Languages [23.157951796614466]
本稿では,11言語を対象とした自然言語生成をベンチマークするデータセットの集合であるIndicNLGスイートを提案する。
本稿では,ウィキペディア情報ボックス(WikiBio)を用いたバイオグラフィー生成,ニュース見出し生成,文要約,質問生成,パラフレーズ生成の5つのタスクに着目した。
論文 参考訳(メタデータ) (2022-03-10T15:53:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。