論文の概要: TigerCoder: A Novel Suite of LLMs for Code Generation in Bangla
- arxiv url: http://arxiv.org/abs/2509.09101v1
- Date: Thu, 11 Sep 2025 02:25:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-12 16:52:24.203262
- Title: TigerCoder: A Novel Suite of LLMs for Code Generation in Bangla
- Title(参考訳): TigerCoder: Banglaにおけるコード生成のためのLLMの新しいスイート
- Authors: Nishat Raihan, Antonios Anastasopoulos, Marcos Zampieri,
- Abstract要約: バングラ語は5番目に話される言語であるにもかかわらず、Large Language Models (LLMs) では表現されていない。
これは主に、高品質なデータの不足から、事前訓練や微調整といったモデルに起因している。
1)プログラムドメイン適応のための包括的なBanglaコード命令データセット,(2)Banglaコード生成の評価ベンチマークMBPP-Bangla,(3)Code LLMのTigerCoderファミリー,(3)Pass@1では,既存の多言語および汎用のBangla LLMに対して,11~18%のパフォーマンス向上を達成した。
- 参考スコア(独自算出の注目度): 37.210208249613
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Despite being the 5th most spoken language, Bangla remains underrepresented in Large Language Models (LLMs), particularly for code generation. This primarily stems from the scarcity of high-quality data to pre-train and/or finetune such models. Hence, we introduce the first dedicated family of Code LLMs for Bangla (1B & 9B). We offer three major contributions: (1) a comprehensive Bangla code instruction datasets for programming domain adaptation; (2) MBPP-Bangla, an evaluation benchmark for Bangla code generation; and (3) the TigerCoder-family of Code LLMs, achieving significant ~11-18% performance gains at Pass@1 over existing multilingual and general-purpose Bangla LLMs. Our findings show that curated, high-quality datasets can overcome limitations of smaller models for low-resource languages. We open-source all resources to advance further Bangla LLM research.
- Abstract(参考訳): 5番目に話されている言語であるにも拘わらず、BanglaはLarge Language Models (LLMs) において、特にコード生成において不足している。
これは主に、高品質なデータの不足から、事前訓練や微調整といったモデルに起因している。
したがって、Bangla (1B と 9B) のための Code LLM の最初の専用ファミリを紹介します。
1)プログラムドメイン適応のための包括的なBanglaコード命令データセット,(2)Banglaコード生成の評価ベンチマークMBPP-Bangla,(3)Code LLMのTigerCoderファミリー,(3)Pass@1では,既存の多言語および汎用のBangla LLMに対して,約11~18%のパフォーマンス向上を達成した。
我々の研究結果によると、キュレートされた高品質なデータセットは、低リソース言語に対するより小さなモデルの制限を克服できる。
我々は、Bangla LLM研究をさらに進めるために、すべてのリソースをオープンソースにしています。
関連論文リスト
- Zero-Shot Multi-Label Classification of Bangla Documents: Large Decoders Vs. Classic Encoders [0.0]
バングラ語は3億人以上の母語話者によって話され、世界でも6番目に話されている言語である。
32種類の最先端モデルの評価結果から,既存の強力なエンコーダやデコーダは,Bangla Zero-Shot-MLCタスクの高精度化に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2025-03-04T20:39:07Z) - TituLLMs: A Family of Bangla LLMs with Comprehensive Benchmarking [6.070192392563392]
1b と 3b のパラメータサイズで利用可能な,最初の大規模事前訓練型 Bangla LLM である TituLLM を提案する。
TituLLMsをトレーニングするために、約37億トークンの事前トレーニングデータセットを収集しました。
我々はLlama-3.2トークンを言語や文化固有の知識に組み込むように拡張した。
論文 参考訳(メタデータ) (2025-02-16T16:22:23Z) - IRCoder: Intermediate Representations Make Language Models Robust Multilingual Code Generators [49.903001442804594]
本研究では、コンパイラ中間表現(IR)を活用して、Code-LMの多言語機能を改善する可能性について検討する。
まず,約400万のソースコードファイルからなる並列データセットであるSLTransをコンパイルする。
次に、SLTransにおける因果言語モデリングトレーニングを継続して実施し、Code-LMはIR言語を学習せざるを得なかった。
IRCoderと呼ばれる結果のモデルは、さまざまなコード生成タスクやメトリクスに対して、サイズと一貫性のあるゲインを表示します。
論文 参考訳(メタデータ) (2024-03-06T17:52:08Z) - Introducing Bode: A Fine-Tuned Large Language Model for Portuguese
Prompt-Based Task [1.158680734110387]
この研究は、ポルトガルのプロンプト「ボーデ」のための微調整されたLLaMA 2ベースのモデルを提案する。
In-context Learningを用いたゼロショット手法を用いて分類タスクにおけるこのモデルの性能を評価する。
論文 参考訳(メタデータ) (2024-01-05T17:15:01Z) - Large Language Model-Aware In-Context Learning for Code Generation [75.68709482932903]
大規模言語モデル(LLM)は、コード生成において印象的なコンテキスト内学習(ICL)能力を示している。
コード生成のためのLAIL (LLM-Aware In-context Learning) という新しい学習ベース選択手法を提案する。
論文 参考訳(メタデータ) (2023-10-15T06:12:58Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。