論文の概要: Enhancing LLM Code Generation Capabilities through Test-Driven Development and Code Interpreter
- arxiv url: http://arxiv.org/abs/2511.12823v1
- Date: Sun, 16 Nov 2025 23:05:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.561494
- Title: Enhancing LLM Code Generation Capabilities through Test-Driven Development and Code Interpreter
- Title(参考訳): テスト駆動開発とコード解釈によるLLMコード生成機能の強化
- Authors: Sajed Jalil, Shuvo Saha, Hossain Mohammad Seym,
- Abstract要約: 我々は、Bengaliのプロンプトによるコード生成のベースライン精度を改善し、全体的な精度を85%向上させる新しいアプローチを導入する。
我々のアプローチは微調整を必要とせず、同じ家系の最小モデルでさえ、最大のモデルと比較して最大98%の精度が得られることを証明している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Over the past few years, improving LLM code generation capabilities has been a key focus in NLP research. Despite Bengali having 242 million native speakers worldwide, it receives little attention when it comes to training LLMs. More recently, various fine-tuning and augmented generation techniques have been employed to significantly enhance code generation performance. However, they require considerable expertise and resources to utilize effectively as an end user. The goal of our work is to democratize access to powerful code generation tools in resource-constrained emerging markets, enabling users to leverage them in their native language. We introduce a novel approach that combines Test-Driven Development (TDD) and Code Interpreter (CI), utilizing open-weight models, which improves the baseline accuracy for code generation with Bengali prompts and achieves an overall accuracy of 85%. Our approach requires no finetuning and proves that even the smallest models in the same family can attain up to 98% accuracy compared to the largest models. All of our results are publicly shared in GitHub for validation and reproducibility.
- Abstract(参考訳): 過去数年間、LLMコード生成能力の改善は、NLP研究において重要な焦点となっている。
ベンガル語は世界中で2億2200万人のネイティブスピーカーを持っているが、LLMのトレーニングに関してはほとんど注目されていない。
最近では、コード生成性能を大幅に向上させるために、様々な微調整および拡張生成技術が採用されている。
しかし、エンドユーザーとして効果的に活用するには、かなりの専門知識とリソースが必要である。
当社の目標は、リソースが制限された新興市場における強力なコード生成ツールへのアクセスを民主化し、ユーザがネイティブ言語でそれらを活用できるようにすることです。
テスト駆動開発(TDD)とコードインタープリタ(CI)を組み合わせた新しいアプローチを導入し、オープンウェイトモデルを活用し、Bengaliのプロンプトによるコード生成のベースライン精度を改善し、全体的な精度を85%向上させる。
我々のアプローチは微調整を必要とせず、同じ家系の最小モデルでさえ、最大のモデルと比較して最大98%の精度が得られることを証明している。
結果はすべて、バリデーションと再現性のためにGitHubで公開されています。
関連論文リスト
- From Code Foundation Models to Agents and Applications: A Practical Guide to Code Intelligence [150.3696990310269]
大規模言語モデル(LLM)は、自然言語記述を直接関数コードに変換することによって、自動ソフトウェア開発を変革した。
コードLLMに関する総合的な合成と実践的ガイド(一連の解析および探索実験)を提供する。
一般LLM(GPT-4, Claude, LLaMA)とコード特殊化LLM(StarCoder, Code LLaMA, DeepSeek-Coder, QwenCoder)のコード機能の解析を行う。
論文 参考訳(メタデータ) (2025-11-23T17:09:34Z) - Rethinking Technology Stack Selection with AI Coding Proficiency [49.617080246389605]
大規模言語モデル(LLM)は今やソフトウェア開発の不可欠な部分です。
我々は、LLMが与えられた技術を用いて高品質なコードスニペットを生成することができる、AI符号化能力という概念を提案する。
我々は,170のサードパーティ製ライブラリと61のタスクシナリオを対象とした,AI習熟度に関する初の総合的研究を行った。
論文 参考訳(メタデータ) (2025-09-14T06:56:47Z) - IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。
IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文 参考訳(メタデータ) (2025-07-30T08:08:48Z) - Large Language Models for Code Generation: A Comprehensive Survey of Challenges, Techniques, Evaluation, and Applications [0.9105696129628794]
大規模言語モデル(LLM)は多くの分野においてその顕著な能力を示している。
この調査は、LLMがユーザに対して、技術的背景に関係なく、ヒューマン言語を使用して実行可能なコードを自動的に生成する方法に焦点を当てている。
論文 参考訳(メタデータ) (2025-03-03T07:17:30Z) - Resource-Efficient & Effective Code Summarization [3.512140256677132]
QLoRAのようなGreenAI技術は、大規模モデルのサステナビリティを扱うための有望なパスを提供する。
本研究では,Python と Java の2つのプログラミング言語にまたがる最先端の CLM の評価を行った。
その結果、QLoRAはコード要約のためのCLMを効率的に微調整できることがわかった。
論文 参考訳(メタデータ) (2025-02-05T21:06:30Z) - GREEN-CODE: Learning to Optimize Energy Efficiency in LLM-based Code Generation [1.5749416770494706]
本研究では,Large Language Models (LLM) におけるエネルギーを考慮したコード生成フレームワークを提案する。
我々は、正確性、レイテンシ、エネルギー消費のトレードオフのバランスをとることを学ぶ強化学習エージェント(RL)を訓練する。
その結果,コード生成作業における平均23~50パーセントのエネルギー消費を,精度に悪影響を及ぼすことなく削減できることが示唆された。
論文 参考訳(メタデータ) (2025-01-19T10:44:03Z) - CodeLutra: Boosting LLM Code Generation via Preference-Guided Refinement [32.46078765471136]
大規模言語モデル(LLM)はコード生成に革命をもたらしたが、かなりのリソースを必要とし、しばしば過度に一般化する。
私たちは、正しいコード試行と間違ったコード試行の両方を活用するフレームワークであるCodeLutraを紹介します。
成功と失敗の両方から学ぶことで、CodeLutraは、高品質なコード生成へのスケーラブルで効率的なパスを提供する。
論文 参考訳(メタデータ) (2024-11-07T21:51:07Z) - OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [76.59316249991657]
コードのための大規模言語モデル(LLM)は、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で必須になっている。
オープンアクセスのコード LLM はプロプライエタリなモデルの性能レベルに近づきつつあるが、高品質なコード LLM は依然として限られている。
トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの"オープンクックブック"としても機能します。
論文 参考訳(メタデータ) (2024-11-07T17:47:25Z) - Large Language Models as Code Executors: An Exploratory Study [29.545321608864295]
本稿では,Large Language Models (LLM) をコードエグゼキュータとして探索する。
OpenAIのo1、GPT-4o、GPT-3.5、DeepSeek、Qwen-Coderなど、さまざまなLLMでこの実現可能性を調べています。
我々は,コードスニペットを行単位で処理し,弱いモデルの精度を平均7.22%向上させるIIP(Iterative Instruction Prompting)技術を導入する。
論文 参考訳(メタデータ) (2024-10-09T08:23:22Z) - Exploring Data-Efficient Adaptation of Large Language Models for Code Generation [64.5583894165813]
コード生成のための誤り駆動学習を用いたデータ効率向上のための新しい適応手法DEEDを提案する。
実験により、他の主流の微調整手法と比較して、DEEDは訓練データが少なく、優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-02-29T16:09:02Z) - CodePori: Large-Scale System for Autonomous Software Development Using Multi-Agent Technology [4.2990995991059275]
大規模言語モデル(LLM)とGPT(Generative Pre-trained Transformer)は、ソフトウェア工学の分野を変えました。
我々は,大規模かつ複雑なソフトウェアプロジェクトのコード生成を自動化するように設計された,新しいシステムであるCodePoriを紹介する。
結果: CodePoriは、典型的なソフトウェア開発プロセスに合わせて、大規模プロジェクトの実行コードを生成することができる。
論文 参考訳(メタデータ) (2024-02-02T13:42:50Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。