論文の概要: Assessing Small Language Models for Code Generation: An Empirical Study with Benchmarks
- arxiv url: http://arxiv.org/abs/2507.03160v2
- Date: Tue, 08 Jul 2025 10:11:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 12:20:17.793975
- Title: Assessing Small Language Models for Code Generation: An Empirical Study with Benchmarks
- Title(参考訳): コード生成のための小さな言語モデルの評価:ベンチマークによる実証的研究
- Authors: Md Mahade Hasan, Muhammad Waseem, Kai-Kristian Kemell, Jussi Rasku, Juha Ala-Rantala, Pekka Abrahamsson,
- Abstract要約: 小型言語モデル(SLM)は、大規模言語モデル(LLM)の軽量で費用対効果の高い代替手段を提供する。
本研究では,5つのコード関連ベンチマークにおいて,0.4Bから10Bまでの20個のオープンソースSLMの総合的評価を行った。
- 参考スコア(独自算出の注目度): 4.448709087838503
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The recent advancements of Small Language Models (SLMs) have opened new possibilities for efficient code generation. SLMs offer lightweight and cost-effective alternatives to Large Language Models (LLMs), making them attractive for use in resource-constrained environments. However, empirical understanding of SLMs, particularly their capabilities, limitations, and performance trade-offs in code generation remains limited. This study presents a comprehensive empirical evaluation of 20 open-source SLMs ranging from 0.4B to 10B parameters on five diverse code-related benchmarks (HumanEval, MBPP, Mercury, HumanEvalPack, and CodeXGLUE). The models are assessed along three dimensions: i) functional correctness of generated code, ii) computational efficiency and iii) performance across multiple programming languages. The findings of this study reveal that several compact SLMs achieve competitive results while maintaining a balance between performance and efficiency, making them viable for deployment in resource-constrained environments. However, achieving further improvements in accuracy requires switching to larger models. These models generally outperform their smaller counterparts, but they require much more computational power. We observe that for 10% performance improvements, models can require nearly a 4x increase in VRAM consumption, highlighting a trade-off between effectiveness and scalability. Besides, the multilingual performance analysis reveals that SLMs tend to perform better in languages such as Python, Java, and PHP, while exhibiting relatively weaker performance in Go, C++, and Ruby. However, statistical analysis suggests these differences are not significant, indicating a generalizability of SLMs across programming languages. Based on the findings, this work provides insights into the design and selection of SLMs for real-world code generation tasks.
- Abstract(参考訳): 最近のSmall Language Models (SLM) の進歩は、効率的なコード生成の新しい可能性を開いた。
SLMは、LLM(Large Language Models)の軽量で費用対効果の高い代替手段を提供し、リソース制約のある環境での使用を魅力的なものにしている。
しかし、SLMの実証的な理解、特にコード生成における能力、制限、パフォーマンスのトレードオフは限定的のままである。
本研究では,HumanEval,MBPP,Mercury,HumanEvalPack,CodeXGLUEの5種類のコード関連ベンチマークにおいて,0.4Bから10Bまでの20個のオープンソースSLMの総合的評価を行った。
モデルは3次元に沿って評価される。
一 生成されたコードの機能的正当性
二 計算効率及び計算効率
iii) 複数のプログラミング言語のパフォーマンス。
本研究では,複数の小型SLMが性能と効率のバランスを保ちながら競争力を発揮することを明らかにする。
しかし、精度をさらに向上するためには、より大きなモデルに切り替える必要がある。
これらのモデルは一般により小さなモデルよりも優れているが、より計算力を必要とする。
10%の性能改善のために、モデルは4倍近いVRAM消費を必要とし、有効性とスケーラビリティのトレードオフを強調します。
さらに、多言語のパフォーマンス分析により、Python、Java、PHPなどの言語ではSLMの方がパフォーマンスが良く、Go、C++、Rubyでは比較的弱いことが分かる。
しかし、統計的分析からこれらの違いは重要でないことが示唆され、プログラミング言語間でのSLMの一般化可能性を示している。
本研究は,実世界のコード生成タスクにおけるSLMの設計と選択に関する知見を提供する。
関連論文リスト
- Small Models, Big Impact: Efficient Corpus and Graph-Based Adaptation of Small Multilingual Language Models for Low-Resource Languages [10.418542753869433]
低リソース言語(LRL)は、限られたデータのために自然言語処理(NLP)において重大な課題に直面している。
現在の最先端の大規模言語モデル(LLM)は、まだLRLと競合している。
mBERTやXLM-Rのような小さなマルチリンガルモデル(mLM)は、トレーニングデータサイズに適合する能力が向上するため、より有望である。
論文 参考訳(メタデータ) (2025-02-14T13:10:39Z) - Enhancing Code Generation for Low-Resource Languages: No Silver Bullet [55.39571645315926]
大規模言語モデル(LLM)は、プログラミング言語の構文、意味論、使用パターンを学ぶために、大規模で多様なデータセットに依存している。
低リソース言語では、そのようなデータの限られた可用性は、モデルを効果的に一般化する能力を損なう。
本稿では,低リソース言語におけるLLMの性能向上のためのいくつかの手法の有効性を実証研究する。
論文 参考訳(メタデータ) (2025-01-31T12:23:28Z) - EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。
EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T23:00:31Z) - Achieving Peak Performance for Large Language Models: A Systematic Review [0.0]
大規模言語モデル(LLM)は自然言語処理(NLP)において顕著な成功を収めた
モデルが1兆のパラメータ範囲に成長するにつれて、計算とメモリのコストは大幅に増加する。
これにより、多くの研究者がこれらのモデルのトレーニングや適用に必要なリソースにアクセスするのが難しくなる。
論文 参考訳(メタデータ) (2024-09-07T13:57:41Z) - Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。
我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。
Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文 参考訳(メタデータ) (2024-07-04T15:14:17Z) - Empirical Studies of Parameter Efficient Methods for Large Language Models of Code and Knowledge Transfer to R [1.9799527196428242]
コード要約と生成のための大規模言語モデル上でPEFT法, LoRA, Compacter, IA3を評価する。
我々の実験によると、LoRAはすべての設定でCompacterとIA3を一貫して上回っている。
我々の研究は、Rを含む見知らぬ言語のためのコード知能タスクの開発における将来の研究を導くことができる。
論文 参考訳(メタデータ) (2024-03-16T03:12:45Z) - CoLLiE: Collaborative Training of Large Language Models in an Efficient
Way [59.09824823710863]
CoLLiEは、大規模な言語モデルの協調トレーニングを容易にする効率的なライブラリである。
モジュール設計と包括的な機能により、CoLLiEは効率性、使いやすさ、カスタマイズのバランスのとれたブレンドを提供する。
論文 参考訳(メタデータ) (2023-12-01T08:02:16Z) - Cross-lingual Transfer in Programming Languages: An Extensive Empirical Study [5.350495525141013]
大規模言語モデル(LLM)は、様々なソフトウェアエンジニアリングタスクにおいて最先端のパフォーマンスを達成した。
RustやSwiftといった重要な言語は、公開コードに制限があるため、低リソースのままである。
対象とタスクに対して最適なソース言語を推定する性能予測モデルを構築した。
論文 参考訳(メタデータ) (2023-10-25T19:04:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。