論文の概要: Llama-3-Nanda-10B-Chat: An Open Generative Large Language Model for Hindi
- arxiv url: http://arxiv.org/abs/2504.06011v1
- Date: Tue, 08 Apr 2025 13:16:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-09 13:30:21.118023
- Title: Llama-3-Nanda-10B-Chat: An Open Generative Large Language Model for Hindi
- Title(参考訳): Llama-3-Nanda-10B-Chat:ヒンディー語のためのオープンソースの大規模言語モデル
- Authors: Monojit Choudhury, Shivam Chauhan, Rocktim Jyoti Das, Dhruv Sahnan, Xudong Han, Haonan Li, Aaryamonvikram Singh, Alok Anil Jadhav, Utkarsh Agarwal, Mukund Choudhary, Debopriyo Banerjee, Fajri Koto, Junaid Bhat, Awantika Shukla, Samujjwal Ghosh, Samta Kamboj, Onkar Pandit, Lalit Pradhan, Rahul Pal, Sunil Sahu, Soundar Doraiswamy, Parvez Mullah, Ali El Filali, Neha Sengupta, Gokul Ramakrishnan, Rituraj Joshi, Gurpreet Gosal, Avraham Sheinin, Natalia Vassilieva, Preslav Nakov,
- Abstract要約: Llama-3-Nanda-10B-Chat(略してNanda)を紹介する。
Nandaは、Llama Proの方法論を利用して、拡張されたトランスフォーマーブロックによる継続的事前トレーニングを取り入れている。
100億のパラメータを持つNandaは、オープンソースのHindiと、同様のスケールのマルチ言語モデルのトップパフォーマンスの1つだ。
- 参考スコア(独自算出の注目度): 28.979822255004194
- License:
- Abstract: Developing high-quality large language models (LLMs) for moderately resourced languages presents unique challenges in data availability, model adaptation, and evaluation. We introduce Llama-3-Nanda-10B-Chat, or Nanda for short, a state-of-the-art Hindi-centric instruction-tuned generative LLM, designed to push the boundaries of open-source Hindi language models. Built upon Llama-3-8B, Nanda incorporates continuous pre-training with expanded transformer blocks, leveraging the Llama Pro methodology. A key challenge was the limited availability of high-quality Hindi text data; we addressed this through rigorous data curation, augmentation, and strategic bilingual training, balancing Hindi and English corpora to optimize cross-linguistic knowledge transfer. With 10 billion parameters, Nanda stands among the top-performing open-source Hindi and multilingual models of similar scale, demonstrating significant advantages over many existing models. We provide an in-depth discussion of training strategies, fine-tuning techniques, safety alignment, and evaluation metrics, demonstrating how these approaches enabled Nanda to achieve state-of-the-art results. By open-sourcing Nanda, we aim to advance research in Hindi LLMs and support a wide range of real-world applications across academia, industry, and public services.
- Abstract(参考訳): 中程度のリソースを持つ言語のための高品質な大規模言語モデル(LLM)の開発は、データ可用性、モデル適応、評価においてユニークな課題を提示している。
Llama-3-Nanda-10B-Chat,略してNandaは、オープンソースのヒンディー語モデルの境界を押し上げるために設計された、最先端のヒンディー語中心の命令調整型ジェネレータLLMである。
Llama-3-8Bをベースとして開発されたNandaは、拡張トランスフォーマーブロックによる継続的事前トレーニングを取り入れ、Llama Proの方法論を活用している。
我々は、厳密なデータキュレーション、拡張、戦略的バイリンガルトレーニング、ヒンディー語と英語のコーパスのバランスを取り、言語間の知識伝達を最適化することで、この問題に対処した。
100億のパラメータを持つNandaは、オープンソースのHindiと、同様のスケールのマルチリンガルモデルの中で、多くの既存モデルに対して大きな優位性を示している。
トレーニング戦略、微調整技術、安全性アライメント、評価指標について詳細な議論を行い、これらのアプローチによってNandaが最先端の結果を達成できたことを示す。
Nanda をオープンソース化することで,ヒンディー語 LLM の研究を進め,学術,産業,公共サービスにまたがる幅広い現実世界のアプリケーションをサポートすることを目指しています。
関連論文リスト
- LLMic: Romanian Foundation Language Model [76.09455151754062]
ルーマニア語に特化して設計された基礎言語モデルである LLMic について述べる。
英語からルーマニア語への翻訳作業において,事前学習後の言語翻訳のための微調整 LLMic が既存の解よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-01-13T22:14:45Z) - HindiLLM: Large Language Model for Hindi [0.09363323206192666]
我々はヒンディー語のための2つの自己回帰型大規模言語モデル(LLM)を事前訓練した。
教師なし事前学習と教師付き微調整を含む2段階のプロセスを用いる。
評価の結果,HindiLLMをベースとした微調整モデルでは,言語関連タスクの大部分において,いくつかのモデルよりも優れていた。
論文 参考訳(メタデータ) (2024-12-29T05:28:15Z) - MERaLiON-TextLLM: Cross-Lingual Understanding of Large Language Models in Chinese, Indonesian, Malay, and Singlish [17.36441080071885]
本報告では,中国語,インドネシア語,マレー語,シングリッシュ語の理解と生成を改善するためのオープンソース言語モデルであるMERaLiON-TextLLMについて述べる。
提案手法は,これらの言語のベンチマークにおいて,公式のLlama-3モデルを上回る性能向上を実現する。
論文 参考訳(メタデータ) (2024-12-21T05:50:48Z) - Navigating Text-to-Image Generative Bias across Indic Languages [53.92640848303192]
本研究ではインドで広く話されているIndic言語に対するテキスト・ツー・イメージ(TTI)モデルのバイアスについて検討する。
これらの言語における主要なTTIモデルの生成的パフォーマンスと文化的関連性を評価し,比較する。
論文 参考訳(メタデータ) (2024-08-01T04:56:13Z) - SeaLLMs 3: Open Foundation and Chat Multilingual Large Language Models for Southeast Asian Languages [77.75535024869224]
東南アジアの言語に合わせたSeaLLMsモデルファミリーの最新版SeaLLMs 3を紹介します。
SeaLLMs 3は、英語、中国語、インドネシア語、ベトナム語、タイ語、タガログ語、マレー語、ビルマ語、クメール語、ラオス語、タミル語、ジャワ語など、この地域で話される言語全般をカバーすることで、このギャップを埋めることを目指している。
我々のモデルは、世界的知識、数学的推論、翻訳、命令の追従といったタスクに優れており、同様の大きさのモデルで最先端の性能を達成する。
論文 参考訳(メタデータ) (2024-07-29T03:26:22Z) - PALO: A Polyglot Large Multimodal Model for 5B People [23.839200109033538]
より包括的な視覚言語モデル(VLM)を追求するために,PALOと呼ばれる大規模マルチモーダルモデルを導入する。
PALOは、英語、中国語、ヒンディー語、スペイン語、フランス語、アラビア語、ベンガル語、ロシア語、ウルドゥー語、日本語を含む10の主要言語で視覚的推論機能を提供する。
論文 参考訳(メタデータ) (2024-02-22T18:59:58Z) - Aya Model: An Instruction Finetuned Open-Access Multilingual Language
Model [33.87586041774359]
Ayaは101言語で命令に従う多言語生成言語モデルであり、50%以上が低リソースであると考えられている。
99言語にまたがる多言語evalの最先端性を広げる広範な評価スイートを導入する。
我々は、最適微調整混合物組成、データプルーニング、およびモデルの毒性、バイアス、安全性について詳細な調査を行う。
論文 参考訳(メタデータ) (2024-02-12T17:34:13Z) - UltraLink: An Open-Source Knowledge-Enhanced Multilingual Supervised
Fine-tuning Dataset [69.33424532827608]
オープンソースの大規模言語モデル(LLM)は、様々な分野において大きな強みを持っている。
本研究では,オープンソースの多言語教師付き微調整データセットを構築する。
結果として得られたUltraLinkデータセットは、5つの言語にわたる約100万のサンプルで構成されている。
論文 参考訳(メタデータ) (2024-02-07T05:05:53Z) - Tamil-Llama: A New Tamil Language Model Based on Llama 2 [6.449795539095749]
本稿では,タミル語における優れたテキスト生成と理解の実現を目的として,16,000個のタミルトークンを付加したオープンソースのLLaMAモデルを改良する。
我々は,総合的なタミルコーパス上での効率的なモデルトレーニングのためのLoRA手法を戦略的に活用し,計算可能性とモデル堅牢性を確保する。
以上の結果から,タミル語テキスト生成の性能は大幅に向上し,インド語における大規模言語モデルの視野が拡大する可能性が示唆された。
論文 参考訳(メタデータ) (2023-11-10T03:02:39Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。