論文の概要: Retriv at BLP-2025 Task 2: Test-Driven Feedback-Guided Framework for Bangla-to-Python Code Generation
- arxiv url: http://arxiv.org/abs/2511.07382v1
- Date: Mon, 10 Nov 2025 18:41:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.416775
- Title: Retriv at BLP-2025 Task 2: Test-Driven Feedback-Guided Framework for Bangla-to-Python Code Generation
- Title(参考訳): BLP-2025 Task 2: Bangla-to-Pythonコード生成のためのテスト駆動フィードバックガイドフレームワーク
- Authors: K M Nafi Asib, Sourav Saha, Mohammed Moshiul Hoque,
- Abstract要約: 提案手法は,インストラクションプロンプトと,テスト駆動のフィードバック誘導型反復精製プロセスを組み合わせた手法である。
モデルはBangla命令からコードを生成し、ユニットテストに対してテストし、3つの評価パスを通じて失敗するアウトプットを反復的に洗練する。
このアプローチはチームの"Retriv"がPass@1スコア0.934で共有タスクの2位を確保するのに役立ちました。
- 参考スコア(独自算出の注目度): 7.459430148112738
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have advanced the automated generation of code from natural language prompts. However, low-resource languages (LRLs) like Bangla remain underrepresented due to the limited availability of instruction-to-code datasets and evaluation benchmarks. To address this, the BLP Workshop at IJCNLP-AACL 2025 introduced a shared task on "Code Generation in Bangla". In this work, we propose a method that combines instruction prompting with a test-driven, feedback-guided iterative refinement process using a fine-tuned Qwen2.5-14B model. The model generates code from Bangla instructions, tests it against unit tests, and iteratively refines any failing outputs through three evaluation passes, using test feedback to guide each step. This approach helped our team "Retriv" to secure 2nd place in the shared task with a Pass@1 score of 0.934. The analysis highlights challenges in Bangla instruction understanding and Python code generation, emphasizing the need for targeted methods in LRLs. We made experimental scripts publicly available for the community.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語のプロンプトからコードの自動生成を進歩させた。
しかし、Banglaのような低リソース言語(LRL)は、命令からコードへのデータセットと評価ベンチマークが限られているため、まだ不足している。
これを解決するため、IJCNLP-AACL 2025のBLPワークショップでは、"Code Generation in Bangla"の共有タスクが導入された。
そこで本研究では、Qwen2.5-14Bモデルを用いて、命令プロンプトと、テスト駆動のフィードバック誘導による反復的改善処理を組み合わせる手法を提案する。
モデルはBangla命令からコードを生成し、ユニットテストに対してテストし、3つの評価パスを通じて失敗するアウトプットを反復的に洗練し、各ステップをガイドするためにテストフィードバックを使用する。
このアプローチはチームの"Retriv"がPass@1スコア0.934で共有タスクの2位を確保するのに役立ちました。
この分析は、Bangla命令理解とPythonコード生成の課題を強調し、LRLにおけるターゲットメソッドの必要性を強調している。
実験的なスクリプトをコミュニティで公開しました。
関連論文リスト
- TigerCoder: A Novel Suite of LLMs for Code Generation in Bangla [37.210208249613]
バングラ語は5番目に話される言語であるにもかかわらず、Large Language Models (LLMs) では表現されていない。
これは主に、高品質なデータの不足から、事前訓練や微調整といったモデルに起因している。
1)プログラムドメイン適応のための包括的なBanglaコード命令データセット,(2)Banglaコード生成の評価ベンチマークMBPP-Bangla,(3)Code LLMのTigerCoderファミリー,(3)Pass@1では,既存の多言語および汎用のBangla LLMに対して,11~18%のパフォーマンス向上を達成した。
論文 参考訳(メタデータ) (2025-09-11T02:25:49Z) - IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。
IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文 参考訳(メタデータ) (2025-07-30T08:08:48Z) - Performance Evaluation of Large Language Models in Bangla Consumer Health Query Summarization [1.2289361708127877]
本研究では,9大言語モデル(LLM)のゼロショット性能について検討する。
ROUGEメトリクスを用いてこれらのLCMを、細調整された最先端モデルであるBangla T5に対してベンチマークした。
その結果、ゼロショットLLMは微調整モデルと競合し、タスク固有の訓練を必要とせずに高品質なサマリーを達成できることを示した。
論文 参考訳(メタデータ) (2025-05-08T09:06:28Z) - LowResource at BLP-2023 Task 2: Leveraging BanglaBert for Low Resource
Sentiment Analysis of Bangla Language [0.5922488908114022]
本稿では,BLP-2023のタスク2におけるLowResource Teamのシステムについて述べる。
さまざまなソーシャルメディアプラットフォームからの公開投稿とコメントからなるデータセットで感情分析を行う。
我々の主な目的は、Bangla corpusで事前訓練されたBERTモデルであるBanglaBertを利用することです。
論文 参考訳(メタデータ) (2023-11-21T17:21:15Z) - LeTI: Learning to Generate from Textual Interactions [60.425769582343506]
本稿では,テキストインタラクション(LETI)から学習するLMの可能性を,バイナリラベルによる正当性をチェックするだけでなく,テキストフィードバックを通じて出力中のエラーをピンポイントし,説明する。
私たちの焦点はコード生成タスクであり、そこではモデルが自然言語命令に基づいてコードを生成する。
LETIは、目的のLMを用いて、自然言語命令、LM生成プログラム、テキストフィードバックの結合に基づいて、モデルを反復的に微調整する。
論文 参考訳(メタデータ) (2023-05-17T15:53:31Z) - Python Code Generation by Asking Clarification Questions [57.63906360576212]
本稿では,この課題に対して,より斬新で現実的なセットアップを導入する。
我々は、自然言語記述の過小評価は、明確化を問うことで解決できると仮定する。
我々は、生成した合成明確化質問と回答を含む自然言語記述とコードのペアを含む、CodeClarQAという新しいデータセットを収集し、導入する。
論文 参考訳(メタデータ) (2022-12-19T22:08:36Z) - Interactive Code Generation via Test-Driven User-Intent Formalization [60.90035204567797]
大きな言語モデル(LLM)は、非公式な自然言語(NL)の意図からコードを生成する。
自然言語は曖昧であり、形式的な意味論が欠けているため、正確性の概念を定義するのは難しい。
言語に依存しない抽象アルゴリズムと具体的な実装TiCoderについて述べる。
論文 参考訳(メタデータ) (2022-08-11T17:41:08Z) - A Review of Bangla Natural Language Processing Tasks and the Utility of
Transformer Models [2.5768647103950357]
研究コミュニティで利用可能なBangla NLPタスク、リソース、ツールについてレビューする。
我々は、現在最先端のアルゴリズムを用いて、9つのNLPタスクのために、さまざまなプラットフォームから収集されたデータセットをベンチマークした。
個人と統合されたデータセットを用いてその結果を報告し、今後の研究のためのデータを提供する。
論文 参考訳(メタデータ) (2021-07-08T13:49:46Z) - CoSQA: 20,000+ Web Queries for Code Search and Question Answering [63.92224685262063]
CoSQAデータセットには、自然言語クエリとコードのペア用の20,604ラベルが含まれている。
本稿では,クエリコードマッチングを強化するために,CoCLRと呼ばれる対照的な学習手法を提案する。
我々は,CodeXGLUEを同じCodeBERTモデルで評価し,CoSQAのトレーニングにより,コード質問応答の精度が5.1%向上したことを示す。
論文 参考訳(メタデータ) (2021-05-27T15:37:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。