論文の概要: PyBangla at BLP-2025 Task 2: Enhancing Bangla-to-Python Code Generation with Iterative Self-Correction and Multilingual Agents
- arxiv url: http://arxiv.org/abs/2512.23713v1
- Date: Thu, 27 Nov 2025 07:09:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-04 08:45:17.112422
- Title: PyBangla at BLP-2025 Task 2: Enhancing Bangla-to-Python Code Generation with Iterative Self-Correction and Multilingual Agents
- Title(参考訳): PyBangla at BLP-2025 Task 2: Enhancing Bangla-to-Python code generation with Iterative Self-Correction and Multilingual Agents (英語)
- Authors: Jahidul Islam, Md Ataullha, Saiful Azad,
- Abstract要約: 我々はBangla-to-Pythonでコード生成を行うエージェントベースのフレームワークであるBanglaCodeActを紹介する。
BanglaCodeActは、Thought-Code-Observationループ内にオープンソースの多言語LLMを採用し、Bangla命令からの動的生成、テスト、改善を可能にする。
本結果は,Bangla-to-Python翻訳のための新しいベンチマークを確立し,低リソース言語における信頼性コード生成に対するエージェントベースの推論の可能性を強調した。
- 参考スコア(独自算出の注目度): 0.5735035463793009
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: LLMs excel at code generation from English prompts, but this progress has not extended to low-resource languages. We address Bangla-to-Python code generation by introducing BanglaCodeAct, an agent-based framework that leverages multi-agent prompting and iterative self-correction. Unlike prior approaches relying on task-specific fine-tuning, BanglaCodeAct employs an open-source multilingual LLM within a Thought-Code-Observation loop, enabling dynamic generation, testing, and refinement of code from Bangla instructions. We benchmark several small-parameter open-source LLMs and evaluate their effectiveness on the mHumanEval dataset for Bangla NL2Code. Our results show that Qwen3-8B, when deployed with BanglaCodeAct, achieves the best performance, with pass@1 accuracy of 94.0\% on the development set and 71.6\% on the blind test set. These results establish a new benchmark for Bangla-to-Python translation and highlight the potential of agent-based reasoning for reliable code generation in low-resource languages. Experimental scripts are publicly available at github.com/jahidulzaid/PyBanglaCodeActAgent.
- Abstract(参考訳): LLMは英語のプロンプトからコード生成に優れていますが、この進歩は低リソース言語に拡張されていません。
エージェントベースのフレームワークであるBanglaCodeActを導入することで,Bangla-to-Pythonコード生成に対処する。
タスク固有の微調整に依存する従来のアプローチとは異なり、BanglaCodeActでは、Thought-Code-Observationループ内にオープンソースの多言語LLMを採用しており、Bangla命令からの動的生成、テスト、コードの洗練を可能にしている。
そこで我々は,Bangla NL2Code の mHumanEval データセット上で,いくつかの小パラメータオープンソース LLM のベンチマークを行い,その有効性を評価する。
この結果から,Qwen3-8BはBanglaCodeActでデプロイすると,開発セットで94.0\%,ブラインドテストセットで71.6\%のパス@1精度で最高の性能を発揮することがわかった。
これらの結果はBangla-to-Python翻訳の新しいベンチマークを確立し、低リソース言語における信頼性コード生成に対するエージェントベースの推論の可能性を強調している。
実験用スクリプトはgithub.com/jahidulzaid/PyBanglaCodeActAgentで公開されている。
関連論文リスト
- BanglaForge: LLM Collaboration with Self-Refinement for Bangla Code Generation [0.2761313371455893]
ここでは,Bangla関数記述からコードを生成する新しいフレームワークであるBanglaForgeを紹介する。
BLP-2025 Bangla Code Generationベンチマークでは、BanglaForgeは84.00%という競合するPass@1精度を達成した。
論文 参考訳(メタデータ) (2025-12-22T07:53:16Z) - Retriv at BLP-2025 Task 2: Test-Driven Feedback-Guided Framework for Bangla-to-Python Code Generation [7.459430148112738]
提案手法は,インストラクションプロンプトと,テスト駆動のフィードバック誘導型反復精製プロセスを組み合わせた手法である。
モデルはBangla命令からコードを生成し、ユニットテストに対してテストし、3つの評価パスを通じて失敗するアウトプットを反復的に洗練する。
このアプローチはチームの"Retriv"がPass@1スコア0.934で共有タスクの2位を確保するのに役立ちました。
論文 参考訳(メタデータ) (2025-11-10T18:41:44Z) - TigerCoder: A Novel Suite of LLMs for Code Generation in Bangla [37.210208249613]
バングラ語は5番目に話される言語であるにもかかわらず、Large Language Models (LLMs) では表現されていない。
これは主に、高品質なデータの不足から、事前訓練や微調整といったモデルに起因している。
1)プログラムドメイン適応のための包括的なBanglaコード命令データセット,(2)Banglaコード生成の評価ベンチマークMBPP-Bangla,(3)Code LLMのTigerCoderファミリー,(3)Pass@1では,既存の多言語および汎用のBangla LLMに対して,11~18%のパフォーマンス向上を達成した。
論文 参考訳(メタデータ) (2025-09-11T02:25:49Z) - IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。
IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文 参考訳(メタデータ) (2025-07-30T08:08:48Z) - ObscuraCoder: Powering Efficient Code LM Pre-Training Via Obfuscation Grounding [60.37988508851391]
言語モデル(LM)は、コード記述ツールボックスのベースとなっている。
Code-LMの事前学習目標の変更を探求する研究は、データ効率の向上と構文とセマンティクスの相互接続性の向上を目的としており、顕著に不十分である。
本研究では,Code-LMが表面的な構文を超越し,事前学習したサンプルの効率を高めるために,難読化コードの基盤について検討する。
論文 参考訳(メタデータ) (2025-03-27T23:08:53Z) - Executable Code Actions Elicit Better LLM Agents [76.95566120678787]
この研究は、Pythonコードを使用して、Large Language Model(LLM)エージェントのアクションを統一されたアクション空間(CodeAct)に統合することを提案する。
Pythonインタプリタと統合されたCodeActは、コードアクションを実行し、事前アクションを動的に修正したり、マルチターンインタラクションを通じて新しい観察に新しいアクションを発行することができる。
CodeActのパフォーマンス向上は、解釈可能なコードを実行し、自然言語を使ってユーザとコラボレーションすることで、環境と対話するオープンソースのLLMエージェントを構築する動機となります。
論文 参考訳(メタデータ) (2024-02-01T21:38:58Z) - CodeFuse-13B: A Pretrained Multi-lingual Code Large Language Model [58.127534002232096]
本稿では,オープンソースの事前学習型LLMであるCodeFuse-13Bを紹介する。
英語と中国語の両方のプロンプトによるコード関連のタスク用に特別に設計されている。
CodeFuseは、高品質な事前トレーニングデータセットを利用することで、その効果を達成する。
論文 参考訳(メタデータ) (2023-10-10T02:38:44Z) - Code Llama: Open Foundation Models for Code [93.30115424203868]
私たちはLlama 2.0をベースにしたコードのための大規模言語モデルのファミリーであるCode Llamaをリリースした。
Code Llamaは、いくつかのコードベンチマークで、オープンモデルの最先端のパフォーマンスに達する。
私たちはCode Llamaをパーミッシブライセンスでリリースし、研究と商用の両方の使用を可能にします。
論文 参考訳(メタデータ) (2023-08-24T17:39:13Z) - LEVER: Learning to Verify Language-to-Code Generation with Execution [64.36459105535]
本稿では,プログラムの実行結果の検証を学習することで,言語からコードへの生成を改善するシンプルな手法であるLEVERを提案する。
具体的には、LLMからサンプリングされたプログラムが、自然言語入力、プログラム自体とその実行結果に基づいて正しいか否かを判定するために、検証者を訓練する。
LEVER はベースコード LLMs (4.6% から 10.9% まで) を継続的に改善し、それらすべてに対して新しい最先端の結果を得る。
論文 参考訳(メタデータ) (2023-02-16T18:23:22Z) - End-to-End Natural Language Understanding Pipeline for Bangla
Conversational Agents [0.43012765978447565]
本稿では,バングラ語とバングラ語でコミュニケーション可能なビジネスアシスタントを構築するための新しい手法を提案する。
Rasa Open Source Framework、fastText組み込み、Polyglot組み込み、Fraskなどのシステムをビルディングブロックとして使用しています。
本稿では,意図分類と実体抽出のためのパイプラインを提案する。
論文 参考訳(メタデータ) (2021-07-12T16:09:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。