論文の概要: Krutrim LLM: Multilingual Foundational Model for over a Billion People
- arxiv url: http://arxiv.org/abs/2502.09642v1
- Date: Mon, 10 Feb 2025 09:32:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-17 14:47:59.304681
- Title: Krutrim LLM: Multilingual Foundational Model for over a Billion People
- Title(参考訳): Krutrim LLM: 10億人を超える人々のための多言語基礎モデル
- Authors: Aditya Kallappa, Palash Kamble, Abhinav Ravi, Akshat Patidar, Vinayak Dhruv, Deepak Kumar, Raghav Awasthi, Arveti Manjunath, Shubham Agarwal, Kumar Ashish, Gautam Bhargava, Chandra Khatri,
- Abstract要約: クルトリム(Krutrim)は、インドの言語景観のために設計された2兆トークン多言語モデルである。
最大のIndicデータセットが組み込まれており、データの不足を軽減し、方言間でのバランスの取れたパフォーマンスを確保する。
16タスク中10タスクでLAMA-2のようなモデルと一致またはオーバーし、平均スコアは0.57対0.55である。
- 参考スコア(独自算出の注目度): 3.457504857530457
- License:
- Abstract: India is a diverse society with unique challenges in developing AI systems, including linguistic diversity, oral traditions, data accessibility, and scalability. Existing foundation models are primarily trained on English, limiting their effectiveness for India's population. Indic languages comprise only 1 percent of Common Crawl corpora despite India representing 18 percent of the global population, leading to linguistic biases. Thousands of regional languages, dialects, and code mixing create additional representation challenges due to sparse training data. We introduce Krutrim LLM, a 2 trillion token multilingual model designed for India's linguistic landscape. It incorporates the largest known Indic dataset, mitigating data scarcity and ensuring balanced performance across dialects. Krutrim outperforms or matches state-of-the-art models on Indic benchmarks while maintaining competitive English performance. Despite being significantly smaller in training flops, Krutrim LLM matches or exceeds models like LLAMA-2 on 10 out of 16 tasks, with an average score of 0.57 versus 0.55. This evidences Krutrim's flexible multilingual fluency across diverse linguistic contexts. Krutrim is integrated with real-time search to improve factual accuracy in conversational AI applications. This enhances accessibility for over 1 billion users worldwide. Through intentional design choices addressing data imbalances, Krutrim LLM signifies meaningful progress in building ethical, globally representative AI models.
- Abstract(参考訳): インドは、言語的多様性、口承の伝統、データアクセシビリティ、スケーラビリティなど、AIシステムの開発においてユニークな課題を持つ多様な社会である。
既存の基礎モデルは、主に英語で訓練されており、インドの人口に対する有効性を制限している。
インドは世界の人口の18%を占めており、言語バイアスにつながっているにもかかわらず、インド語はコモン・クローリング・コーパスのわずか1%を占めている。
何千もの地域言語、方言、およびコードミキシングは、スパーストレーニングデータによる追加の表現課題を生み出している。
インドの言語景観のために設計された2兆トークン多言語モデルであるKrutrim LLMを紹介する。
最大のIndicデータセットが組み込まれており、データの不足を軽減し、方言間でのバランスの取れたパフォーマンスを確保する。
Krutrimは、競争力のある英語のパフォーマンスを維持しながら、Indicベンチマークで最先端のモデルを上回るか、マッチする。
トレーニングフロップが大幅に小さいにもかかわらず、クルトリム LLM は16タスク中10タスクで LLAMA-2 のようなモデルと一致し、平均スコアは 0.57 対 0.55 である。
このことはクルトリムの様々な言語文脈における柔軟な多言語流布を証明している。
Krutrimはリアルタイム検索と統合され、会話型AIアプリケーションの事実精度を向上させる。
これにより、全世界で10億人以上のユーザーへのアクセシビリティが向上する。
データ不均衡に対処する意図的な設計選択を通じて、Krutrim LLMは倫理的、グローバルに代表されるAIモデルを構築する上で有意義な進歩を示している。
関連論文リスト
- Navigating Text-to-Image Generative Bias across Indic Languages [53.92640848303192]
本研究ではインドで広く話されているIndic言語に対するテキスト・ツー・イメージ(TTI)モデルのバイアスについて検討する。
これらの言語における主要なTTIモデルの生成的パフォーマンスと文化的関連性を評価し,比較する。
論文 参考訳(メタデータ) (2024-08-01T04:56:13Z) - Fine-tuning Pre-trained Named Entity Recognition Models For Indian Languages [6.7638050195383075]
課題を分析し,インド語の多言語名称認識に適した手法を提案する。
主要な2つのインド語族から4つのインド語に対する40K文の注釈付きエンティティコーパスを提示する。
我々は、我々のモデルの有用性を裏付けるインド言語のための、全く見当たらないベンチマークデータセットにおいて、同等のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-05-08T05:54:54Z) - IndicGenBench: A Multilingual Benchmark to Evaluate Generation Capabilities of LLMs on Indic Languages [12.514648269553104]
IndicGenBenchは、大規模言語モデル(LLM)を評価するための最大のベンチマークである。
言語間要約、機械翻訳、言語間質問応答などの多様な世代タスクで構成されている。
最大の PaLM-2 モデルは、ほとんどのタスクにおいて最高に機能するが、英語と比較して全ての言語で顕著な性能差がある。
論文 参考訳(メタデータ) (2024-04-25T17:57:36Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Baichuan 2: Open Large-scale Language Models [51.56361715162972]
我々は、70億と13億のパラメータを含む大規模な多言語言語モデルであるBaichuan 2を、2.6兆のトークン上でスクラッチからトレーニングする。
Baichuan 2は、MMLU、CMMLU、GSM8K、HumanEvalなどの公開ベンチマークで、同様のサイズの他のオープンソースモデルにマッチするか、より優れています。
論文 参考訳(メタデータ) (2023-09-19T04:13:22Z) - Breaking Language Barriers: A Question Answering Dataset for Hindi and
Marathi [1.03590082373586]
本稿では,ヒンディー語とマラティー語という2つの言語を対象とした質問回答データセットの開発に焦点をあてる。
ヒンディー語は世界第3位の言語であり、マラシ語は世界第11位の言語であるにもかかわらず、両方の言語は効率的な質問回答システムを構築するための限られた資源に直面している。
これらの言語で利用可能な最大の質問回答データセットをリリースし、各データセットには28,000のサンプルが含まれています。
論文 参考訳(メタデータ) (2023-08-19T00:39:21Z) - MasakhaNER 2.0: Africa-centric Transfer Learning for Named Entity
Recognition [55.95128479289923]
アフリカ系言語は10億人を超える人々によって話されているが、NLPの研究や開発ではあまり語られていない。
我々は、20のアフリカ言語で最大の人間アノテーション付きNERデータセットを作成します。
最適な転送言語を選択すると、ゼロショットF1スコアが平均14ポイント向上することを示す。
論文 参考訳(メタデータ) (2022-10-22T08:53:14Z) - Making a MIRACL: Multilingual Information Retrieval Across a Continuum
of Languages [62.730361829175415]
MIRACLは、WSDM 2023 Cupチャレンジのために構築した多言語データセットです。
18の言語にまたがるアドホック検索に焦点を当てている。
我々の目標は、言語連続体における検索を改善する研究を加速させることです。
論文 参考訳(メタデータ) (2022-10-18T16:47:18Z) - IndicSUPERB: A Speech Processing Universal Performance Benchmark for
Indian languages [16.121708272597154]
インド12言語における音声認識のためのIndicSUPERBベンチマークをリリースする。
一般的に使用されているベースラインベンチマークとともに、さまざまな自己教師付きモデルをトレーニングし、評価する。
言語固有の微調整モデルはほとんどのタスクのベースラインよりも正確であることを示す。
論文 参考訳(メタデータ) (2022-08-24T20:14:52Z) - MCoNaLa: A Benchmark for Code Generation from Multiple Natural Languages [76.93265104421559]
英語以外の自然言語コマンドからコード生成をベンチマークします。
スペイン語,日本語,ロシア語の3言語で896個のNLコードペアを注釈した。
難易度はこれらの3つの言語によって異なるが、全てのシステムは英語にかなり遅れている。
論文 参考訳(メタデータ) (2022-03-16T04:21:50Z) - MuRIL: Multilingual Representations for Indian Languages [3.529875637780551]
インドは、1369の合理化された言語と方言が全国で話されている多言語社会です。
それにもかかわらず、今日の最先端の多言語システムは、インド(IN)言語で最適に動作します。
IN言語に特化した多言語言語モデルであるMuRILを提案します。
論文 参考訳(メタデータ) (2021-03-19T11:06:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。