論文の概要: NALA_MAINZ at BLP-2025 Task 2: A Multi-agent Approach for Bangla Instruction to Python Code Generation
- arxiv url: http://arxiv.org/abs/2511.16787v1
- Date: Thu, 20 Nov 2025 20:26:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:18.805784
- Title: NALA_MAINZ at BLP-2025 Task 2: A Multi-agent Approach for Bangla Instruction to Python Code Generation
- Title(参考訳): BLP-2025 Task 2におけるNALA_MAINZ:Pythonコード生成に対するBangla指導のためのマルチエージェントアプローチ
- Authors: Hossain Shaikh Saadi, Faria Alam, Mario Sanz-Guerrero, Minh Duc Bui, Manuel Mager, Katharina von der Wense,
- Abstract要約: 本稿では,JGU MainzによるBLP-2025共有タスクのバングラ教育における勝利システムについて述べる。
このアプローチを使って、提案は共有タスクにおいて95.4ドルのPass@1$スコアで1位を獲得しました。
- 参考スコア(独自算出の注目度): 15.686225944025578
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents JGU Mainz's winning system for the BLP-2025 Shared Task on Code Generation from Bangla Instructions. We propose a multi-agent-based pipeline. First, a code-generation agent produces an initial solution from the input instruction. The candidate program is then executed against the provided unit tests (pytest-style, assert-based). Only the failing cases are forwarded to a debugger agent, which reruns the tests, extracts error traces, and, conditioning on the error messages, the current program, and the relevant test cases, generates a revised solution. Using this approach, our submission achieved first place in the shared task with a $Pass@1$ score of 95.4. We also make our code public.
- Abstract(参考訳): 本稿では,JGU MainzによるBLP-2025共有タスクのバングラ教育における勝利システムについて述べる。
マルチエージェントベースのパイプラインを提案する。
まず、コード生成エージェントが入力命令から初期解を生成する。
候補プログラムは提供されるユニットテスト(pytest-style, assert-based)に対して実行される。
エラーメッセージ、現在のプログラム、および関連するテストケースを条件に、テストを再実行し、エラートレースを抽出するデバッガエージェントにのみ転送され、修正されたソリューションが生成される。
このアプローチを使って、提案は共有タスクにおいて95.4ドルのPass@1$スコアで1位を獲得しました。
コードも公開しています。
関連論文リスト
- Retriv at BLP-2025 Task 2: Test-Driven Feedback-Guided Framework for Bangla-to-Python Code Generation [7.459430148112738]
提案手法は,インストラクションプロンプトと,テスト駆動のフィードバック誘導型反復精製プロセスを組み合わせた手法である。
モデルはBangla命令からコードを生成し、ユニットテストに対してテストし、3つの評価パスを通じて失敗するアウトプットを反復的に洗練する。
このアプローチはチームの"Retriv"がPass@1スコア0.934で共有タスクの2位を確保するのに役立ちました。
論文 参考訳(メタデータ) (2025-11-10T18:41:44Z) - Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems [50.29939179830491]
LLMマルチエージェントシステムにおける障害帰属は、まだ調査が過小評価されており、労働集約的である。
本稿では,3つの自動故障帰属手法の開発と評価を行い,その欠点と欠点を要約する。
最良の方法は、障害に応答するエージェントを特定する際に53.5%の精度を達成するが、故障の特定には14.2%しか役に立たない。
論文 参考訳(メタデータ) (2025-04-30T23:09:44Z) - Mokav: Execution-driven Differential Testing with LLMs [13.476622148328367]
Mokavは、異なる露光テストを生成する実行駆動のツールである。
Makoveは、ベンチマークでプログラムペアの81.7%(1,255/1535)のDETを生成することができる。
論文 参考訳(メタデータ) (2024-06-14T19:07:03Z) - Chain of Targeted Verification Questions to Improve the Reliability of Code Generated by LLMs [10.510325069289324]
LLMが生成するコードの信頼性向上を目的とした自己補充手法を提案する。
当社のアプローチは,初期コード内の潜在的なバグを特定するために,対象とする検証質問(VQ)に基づいています。
本手法は,LLMをターゲットとするVQと初期コードで再プロンプトすることで,潜在的なバグの修復を試みる。
論文 参考訳(メタデータ) (2024-05-22T19:02:50Z) - AgentCoder: Multi-Agent-based Code Generation with Iterative Testing and Optimisation [11.155351560550853]
本稿では,マルチエージェント・アシスタント・コード生成(AgentCoder)を紹介する。
AgentCoderは,プログラマエージェント,テストデザイナエージェント,テストエグゼクタエージェントという,特殊なエージェントを備えたマルチエージェントフレームワークを備えた,斬新なソリューションだ。
9つのコード生成モデルと12つの拡張アプローチの実験では、既存のコード生成モデルよりもAgentCoderの方が優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2023-12-20T13:22:41Z) - Interactive Code Generation via Test-Driven User-Intent Formalization [60.90035204567797]
大きな言語モデル(LLM)は、非公式な自然言語(NL)の意図からコードを生成する。
自然言語は曖昧であり、形式的な意味論が欠けているため、正確性の概念を定義するのは難しい。
言語に依存しない抽象アルゴリズムと具体的な実装TiCoderについて述べる。
論文 参考訳(メタデータ) (2022-08-11T17:41:08Z) - CodeT: Code Generation with Generated Tests [49.622590050797236]
テストケースを自動的に生成するための事前学習言語モデルについて検討する。
CodeTは生成されたテストケースを使ってコードソリューションを実行し、次に最良のソリューションを選択します。
我々は,HumanEvalとMBPPのベンチマークを用いて,5種類の事前学習モデル上でCodeTを評価する。
論文 参考訳(メタデータ) (2022-07-21T10:18:37Z) - Fault-Aware Neural Code Rankers [64.41888054066861]
サンプルプログラムの正しさを予測できる故障認識型ニューラルネットワークローダを提案する。
我々のフォールト・アウェア・ローダは、様々なコード生成モデルのpass@1精度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2022-06-04T22:01:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。