Fugu-MT 論文翻訳(概要): Airavata: Introducing Hindi Instruction-tuned LLM

論文の概要: Airavata: Introducing Hindi Instruction-tuned LLM

arxiv url: http://arxiv.org/abs/2401.15006v1
Date: Fri, 26 Jan 2024 17:07:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-29 14:27:22.685458
Title: Airavata: Introducing Hindi Instruction-tuned LLM
Title（参考訳）: Airavata: ヒンディー語指導のLLMの導入
Authors: Jay Gala and Thanmay Jayakumar and Jaavid Aktar Husain and Aswanth Kumar M and Mohammed Safi Ur Rahman Khan and Diptesh Kanojia and Ratish Puduppully and Mitesh M. Khapra and Raj Dabre and Rudra Murthy and Anoop Kunchukuttan
Abstract要約: AiravataはOpenHathiを細調整し、多様なインストラクションチューニングされたHindiデータセットによって作成された。 AiravataはHindiをサポートしますが、22の予定のIndic言語に拡張する予定です。
参考スコア（独自算出の注目度）: 33.32250839515929
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We announce the initial release of "Airavata," an instruction-tuned LLM for Hindi. Airavata was created by fine-tuning OpenHathi with diverse, instruction-tuning Hindi datasets to make it better suited for assistive tasks. Along with the model, we also share the IndicInstruct dataset, which is a collection of diverse instruction-tuning datasets to enable further research for Indic LLMs. Additionally, we present evaluation benchmarks and a framework for assessing LLM performance across tasks in Hindi. Currently, Airavata supports Hindi, but we plan to expand this to all 22 scheduled Indic languages. You can access all artifacts at https://ai4bharat.github.io/airavata.
Abstract（参考訳）: ヒンディー語のための命令調整型LLMである"Airavata"の最初のリリースをアナウンスする。 airavataは、様々な命令をチューニングするヒンディー語データセットでopenhathiを微調整することで作成され、補助的なタスクに適している。 Indic Instructデータセットはまた、Indic LLMのさらなる研究を可能にする多様な命令チューニングデータセットのコレクションであるIndicInstructデータセットも共有しています。さらに,Hindiにおけるタスク間のLLM性能を評価するための評価ベンチマークとフレームワークを提案する。現在、AiravataはHindiをサポートしていますが、22の予定のIndic言語に拡張する予定です。すべてのアーティファクトはhttps://ai4bharat.github.io/airavataでアクセスできる。

関連論文リスト

Benchmarking Hindi LLMs: A New Suite of Datasets and a Comparative Analysis [3.9680588541743718]
IFEval-Hi, MT-Bench-Hi, GSM8K-Hi, ChatRAG-Hi, BFCL-Hiの5つのHindi評価データセット群を紹介する。これらは、intra-scratch Humanアノテーションとtranslate-and-verifyプロセスを組み合わせた方法論を用いて作成された。
論文参考訳（メタデータ） (2025-08-27T12:35:31Z)
DeepRAG: Building a Custom Hindi Embedding Model for Retrieval Augmented Generation from Scratch [0.0]
DeepRAGは、RAGシステムにおけるヒンディー語専用に構築した特殊な埋め込みモデルです。検索精度は、みんなが使っている多言語モデルと比べて23%向上しました。
論文参考訳（メタデータ） (2025-03-11T09:27:56Z)
Instruction Tuning on Public Government and Cultural Data for Low-Resource Language: a Case Study in Kazakh [57.002807772016524]
カザフスタンの主要な制度的・文化的知識をカバーする大規模な(10,600サンプル)命令追従データセットを導入,オープンソース化する。データセット構築のためのオープンウェイトモデルとクローズドウェイトモデルを比較し,GPT-4oをバックボーンとして選択する。データセット上の微調整Qwen、Falcon、Gemmaは、複数の選択タスクと生成タスクの両方において、一貫したパフォーマンス改善をもたらします。
論文参考訳（メタデータ） (2025-02-19T11:44:27Z)
Atlas-Chat: Adapting Large Language Models for Low-Resource Moroccan Arabic Dialect [45.755756115243486]
既存のDarija言語リソースを統合することで,命令データセットを構築する。データセットに微調整されたAtlas-Chat-2B、9B、27Bモデルは、Darija命令に従う上で優れた能力を示す。
論文参考訳（メタデータ） (2024-09-26T14:56:38Z)
Hindi-BEIR : A Large Scale Retrieval Benchmark in Hindi [8.21020989074456]
進行中の研究にもかかわらず、ヒンディー語で検索モデルを評価するための包括的なベンチマークが欠如している。我々は、ヒンディー語に翻訳された英語のBEIRデータセットのサブセット、既存のヒンディー語検索データセット、検索用の合成データセットを含むBEIRベンチマークのヒンディー語版を紹介する。本ベンチマークでは,タスクやドメイン固有の課題の特定と検索性能への影響を明らかにするため,最先端の多言語検索モデルの評価を行う。
論文参考訳（メタデータ） (2024-08-18T10:55:04Z)
Building pre-train LLM Dataset for the INDIC Languages: a case study on Hindi [0.745652600521932]
私たちは、ヒンディー語に有用なヒンディー語における大規模な事前訓練データセットを提案しています。データセットには28億のヒンディー語トークンが含まれている。
論文参考訳（メタデータ） (2024-07-13T11:29:20Z)
IndicLLMSuite: A Blueprint for Creating Pre-training and Fine-Tuning Datasets for Indian Languages [37.79850860981589]
本研究は、Indic LLMの開発に特化して設計された、拡張性のあるリソーススイートを紹介する。このアプローチでは、高度にキュレートされた手作業による検証データ、検証されていないが価値のあるデータ、合成データを組み合わせています。命令ファインチューニングでは、既存のIndicデータセットをアマルガメートし、英語データセットをインド語に翻訳・翻訳し、LLaMa2とMixtralモデルを利用する。
論文参考訳（メタデータ） (2024-03-11T00:46:56Z)
Aya Dataset: An Open-Access Collection for Multilingual Instruction Tuning [49.79783940841352]
既存のデータセットはほとんどが英語で書かれている。私たちは世界中の言語に精通した話者と協力して、指示と完了の自然な例を集めています。既存のデータセットを114言語でテンプレート化し、翻訳することで、5億1300万のインスタンスを含む、これまでで最も広範な多言語コレクションを作成します。
論文参考訳（メタデータ） (2024-02-09T18:51:49Z)
UltraLink: An Open-Source Knowledge-Enhanced Multilingual Supervised Fine-tuning Dataset [69.33424532827608]
オープンソースの大規模言語モデル(LLM)は、様々な分野において大きな強みを持っている。本研究では,オープンソースの多言語教師付き微調整データセットを構築する。結果として得られたUltraLinkデータセットは、5つの言語にわたる約100万のサンプルで構成されている。
論文参考訳（メタデータ） (2024-02-07T05:05:53Z)
Building a Llama2-finetuned LLM for Odia Language Utilizing Domain Knowledge Instruction Set [1.6261478739213642]
英語以外の言語でLLMを構築することは、多言語LLMが利用できないことや性能のために大きな需要がある。本稿では,LLMファインチューニングに適したドメイン知識データを含む,大規模なOdia命令セットを生成する方法と,Odiaドメインの性能向上に適したLlama2ファインチューニングモデルを構築する方法を提案する。
論文参考訳（メタデータ） (2023-12-19T22:01:01Z)
Okapi: Instruction-tuned Large Language Models in Multiple Languages with Reinforcement Learning from Human Feedback [61.83548032416181]
複数の言語を対象としたRLHFに基づく命令調整型LLMシステムであるOkapiを提案する。オカピは26の多言語言語でインストラクションと応答ランクデータを導入し、将来の多言語LLM研究の促進と開発に役立てている。
論文参考訳（メタデータ） (2023-07-29T18:01:46Z)
InstructAlign: High-and-Low Resource Language Alignment via Continual Crosslingual Instruction Tuning [66.31509106146605]
命令を調整した大規模言語モデル(LLM)は、様々なタスクや言語で顕著な能力を示している。しかし、利用可能なデータが不足しているため、表現不足の言語に一般化する能力は限られている。 InstructAlignは、LLMが新しい未知の言語を学習済みの高リソース言語と整列できるようにするために、連続的なクロスリンガル命令チューニングを使用する。
論文参考訳（メタデータ） (2023-05-23T02:51:34Z)
IndicNLG Suite: Multilingual Datasets for Diverse NLG Tasks in Indic Languages [23.157951796614466]
本稿では,11言語を対象とした自然言語生成をベンチマークするデータセットの集合であるIndicNLGスイートを提案する。本稿では,ウィキペディア情報ボックス(WikiBio)を用いたバイオグラフィー生成,ニュース見出し生成,文要約,質問生成,パラフレーズ生成の5つのタスクに着目した。
論文参考訳（メタデータ） (2022-03-10T15:53:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。