論文の概要: TigerLLM -- A Family of Bangla Large Language Models
- arxiv url: http://arxiv.org/abs/2503.10995v1
- Date: Fri, 14 Mar 2025 01:41:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:08:00.564619
- Title: TigerLLM -- A Family of Bangla Large Language Models
- Title(参考訳): TigerLLM - バングラ語大言語モデルのファミリー
- Authors: Nishat Raihan, Marcos Zampieri,
- Abstract要約: バングラ語モデルのファミリーであるTigerLLMを紹介します。
以上の結果から,これらのモデルがすべてのオープンソース代替品を上回り,GPT3.5のような大型のプロプライエタリモデルを上回る結果が得られた。
- 参考スコア(独自算出の注目度): 8.258559455995917
- License:
- Abstract: The development of Large Language Models (LLMs) remains heavily skewed towards English and a few other high-resource languages. This linguistic disparity is particularly evident for Bangla - the 5th most spoken language. A few initiatives attempted to create open-source Bangla LLMs with performance still behind high-resource languages and limited reproducibility. To address this gap, we introduce TigerLLM - a family of Bangla LLMs. Our results demonstrate that these models surpass all open-source alternatives and also outperform larger proprietary models like GPT3.5 across standard benchmarks, establishing TigerLLM as the new baseline for future Bangla language modeling.
- Abstract(参考訳): LLM(Large Language Models)の開発は、英語や他のいくつかの高リソース言語に大きく依存している。
この言語格差はバングラ語にとって特に顕著であり、第5位の言語である。
いくつかのイニシアチブは、オープンソースのBangla LLMの作成を試み、高性能言語の裏側で性能を保ち、再現性が制限された。
このギャップに対処するために、Bangla LLMsのファミリーであるTigerLLMを紹介します。
以上の結果から,これらのモデルがすべてのオープンソース代替モデルを超え,標準ベンチマークにおけるGPT3.5などの大規模プロプライエタリモデルよりも優れており,将来のバングラ語モデリングの新たなベースラインとしてTigerLLMが確立されている。
関連論文リスト
- LLMic: Romanian Foundation Language Model [76.09455151754062]
ルーマニア語に特化して設計された基礎言語モデルである LLMic について述べる。
英語からルーマニア語への翻訳作業において,事前学習後の言語翻訳のための微調整 LLMic が既存の解よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-01-13T22:14:45Z) - MERaLiON-TextLLM: Cross-Lingual Understanding of Large Language Models in Chinese, Indonesian, Malay, and Singlish [17.36441080071885]
本報告では,中国語,インドネシア語,マレー語,シングリッシュ語の理解と生成を改善するためのオープンソース言語モデルであるMERaLiON-TextLLMについて述べる。
提案手法は,これらの言語のベンチマークにおいて,公式のLlama-3モデルを上回る性能向上を実現する。
論文 参考訳(メタデータ) (2024-12-21T05:50:48Z) - BongLLaMA: LLaMA for Bangla Language [0.0]
BongLLaMAは、大規模なBanglaコーパスと命令チューニングデータセットにのみ焦点を絞った、オープンソースの大規模言語モデルである。
BLPタスクにおけるBongLLaMAの有用性を示すため,本手法,データ拡張手法,微調整の詳細,総合的なベンチマーク結果を提案する。
論文 参考訳(メタデータ) (2024-10-28T16:44:02Z) - Performance of Recent Large Language Models for a Low-Resourced Language [0.0]
大規模言語モデル(LLM)は、過去1年間で大きな進歩を見せている。
Claude と GPT 4o は最初からうまく動作し、以前のバージョンよりも大幅に改善されている。
LlamaとMistralはパフォーマンスが良くないが、微調整で改善の約束を示す。
論文 参考訳(メタデータ) (2024-07-31T04:38:07Z) - TeenyTinyLlama: open-source tiny language models trained in Brazilian Portuguese [0.0]
大規模言語モデル(LLM)は、かなり進歩した自然言語処理を持つが、その進歩は言語間ではまだ等しくなっていない。
本研究では,低リソース環境での使用に適したオープン・ファウンデーション・モデルの開発について述べる。
これはTeenyTinyLlamaペアで、ブラジルのポルトガル語テキスト生成用の2つのコンパクトモデルです。
論文 参考訳(メタデータ) (2024-01-30T00:25:54Z) - MaLA-500: Massive Language Adaptation of Large Language Models [61.440556436524]
MALA-500は、幅広い534言語をカバーするように設計された、新しい大きな言語モデルである。
我々の本質的な評価は,MALA-500 が既存の多言語 LLM よりも低リソース言語のテキストの予測に優れていることを示している。
論文 参考訳(メタデータ) (2024-01-24T08:57:39Z) - SeaLLMs -- Large Language Models for Southeast Asia [76.50157503379086]
東南アジア(SEA)言語に焦点を当てた,革新的な言語モデルであるSeaLLMを紹介した。
SeaLLMはLlama-2モデルに基づいて構築され、さらに拡張語彙、特殊命令、アライメントチューニングによる事前訓練が継続されている。
包括的評価により,SeaLLM-13bモデルは言語タスクやアシスタントスタイルの指示追従能力に優れた性能を示した。
論文 参考訳(メタデータ) (2023-12-01T17:17:56Z) - Crosslingual Retrieval Augmented In-context Learning for Bangla [8.065775937617417]
本稿では,テキスト内学習を付加した言語間検索を利用した先駆的手法を提案する。
本研究では,多言語事前学習型言語モデル(MPLM)を用いて,Banglaタスクの性能向上を実現した。
本評価では, 言語間検索の高速化により, ゼロショット性能に対してMPLMを安定的に改善できることを示す。
論文 参考訳(メタデータ) (2023-11-01T15:32:50Z) - Baichuan 2: Open Large-scale Language Models [51.56361715162972]
我々は、70億と13億のパラメータを含む大規模な多言語言語モデルであるBaichuan 2を、2.6兆のトークン上でスクラッチからトレーニングする。
Baichuan 2は、MMLU、CMMLU、GSM8K、HumanEvalなどの公開ベンチマークで、同様のサイズの他のオープンソースモデルにマッチするか、より優れています。
論文 参考訳(メタデータ) (2023-09-19T04:13:22Z) - PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z) - Massively Multilingual Shallow Fusion with Large Language Models [62.76735265311028]
複数の言語で浅い融合のための単一多言語言語モデル(LM)を訓練する。
GLaMは、推論中に同様の計算を行う密度の高いLMと比較して、イングランドのロングテールテストのWERを4.4%削減する。
多言語浅層融合タスクでは、GLaMは50言語中41言語を改善し、平均相対的なWERの3.85%、最大10%の削減を実現している。
論文 参考訳(メタデータ) (2023-02-17T14:46:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。