論文の概要: A-ProS: Towards Reliable Autonomous Programming Through Multi-Model Feedback
- arxiv url: http://arxiv.org/abs/2605.18073v1
- Date: Mon, 18 May 2026 08:55:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:49.204723
- Title: A-ProS: Towards Reliable Autonomous Programming Through Multi-Model Feedback
- Title(参考訳): A-ProS: マルチモデルフィードバックによる信頼性の高い自律プログラミングを目指す
- Authors: Anika Tabassum, Md Sifat Hossain, Md. Fahim Arefin, Tariqul Islam, Tarannum Shaila Zaman,
- Abstract要約: A-ProSは、ハイブリッドマルチモデルフィードバックフレームワークを通じて競合するプログラミング問題を解決する自律AIエージェントである。
A-ProSはベースラインエージェントループに比べて2倍以上のゲインを達成する。
- 参考スコア(独自算出の注目度): 4.062253229926774
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) demonstrate strong potential for automated code generation, yet their ability to iteratively refine solutions using execution feedback remains underexplored. Competitive programming offers an ideal testbed for this investigation, as it demands end-to-end algorithmic reasoning, precise implementation under strict computational constraints, and complete functional correctness with rigorous evaluation. In this paper, we present A-ProS, an autonomous AI agent that solves competitive programming problems through a hybrid multi-model feedback framework separating solution generation from specialized debugging. A-ProS combines ChatGPT-based generators (GPT-4 and GPT-5) with three debugging critics: Codestral-2508, Llama-3.3-70B, and DeepSeek-R1, under a 2 x 3 factorial design. We evaluate six workflows on 367 problems from ICPC World Finals (2011-2024) and Codeforces (rated 1200-1800). The results show that GPT-5 workflows improve from 39 initial accepted solutions to 85-90 after three refinement rounds, while GPT-4 improves from 15 to 31-38. A controlled ablation on 47 problems shows that stateful refinement outperforms stateless approaches by 8.5-10.6 percentage points and reduces repeated failures by up to 3.5x. Compared to baseline agent loops, A-ProS achieves over 2x greater gains, highlighting the importance of persistent context and multi-model feedback for reliable autonomous program synthesis.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自動コード生成の強力な可能性を示しているが、実行フィードバックを使ったソリューションを反復的に洗練する能力は、まだ探索されていない。
競合プログラミングは、エンドツーエンドのアルゴリズム推論、厳密な計算制約の下での正確な実装、厳密な評価による完全な機能的正当性を要求するため、この調査に理想的なテストベッドを提供する。
本稿では,A-ProSを提案する。A-ProSは,特殊なデバッグからソリューション生成を分離したハイブリッドマルチモデルフィードバックフレームワークによって,競合するプログラミング問題を解決する自律型AIエージェントである。
A-ProSは、ChatGPTベースのジェネレータ(GPT-4とGPT-5)と、Codestral-2508、Llama-3.3-70B、DeepSeek-R1の3つのデバッギング評論家を組み合わせる。
ICPC World Finals (2011-2024) と Codeforces (1200-1800) の367問題に対する6つのワークフローを評価した。
その結果, GPT-5ワークフローは3回の改良ラウンドで39から85-90に改善し, GPT-4は15から31-38に改善した。
47の問題を制御したアブレーションは、ステートフルリファインメントがステートレスアプローチを8.5-10.6ポイント上回り、繰り返し失敗を3.5倍まで減少させることを示している。
ベースラインエージェントループと比較して、A-ProSは2倍以上のゲインを達成し、信頼性の高い自律的プログラム合成における永続的コンテキストとマルチモデルフィードバックの重要性を強調している。
関連論文リスト
- Once Upon an Input: Reasoning via Per-Instance Program Synthesis [19.86168542588911]
PIPS(Per-Instance Program Synthesis)は、構造的フィードバックを用いて、インスタンスレベルでプログラムを生成し、洗練する手法である。
パフォーマンスをさらに向上するため、PIPSは直接推論とプログラム合成を動的に選択する信頼度基準をインスタンス毎に組み込んでいる。
論文 参考訳(メタデータ) (2025-10-26T21:58:33Z) - SLEAN: Simple Lightweight Ensemble Analysis Network for Multi-Provider LLM Coordination: Design, Implementation, and Vibe Coding Bug Investigation Case Study [0.0]
SLEANは、.txtテンプレートを使用してLLM間の単純なプロンプトブリッジとして機能し、デプロイに深い技術知識を必要としない。
独立した分析、相互批判、仲裁によって形成される3フェーズプロトコルは、有害なAI生成コード提案をフィルタリングする。
ファイル駆動でプロバイダに依存しないアーキテクチャは、特別なコーディング専門知識のないデプロイメントを可能にします。
論文 参考訳(メタデータ) (2025-10-11T04:24:04Z) - Automated Repair of C Programs Using Large Language Models [0.0]
本研究では,Cプログラムの修復を自動化する上で,LLM(Large Language Models)の可能性について検討する。
本稿では,SBFL(Spectrum-based Fault Localization),ランタイムフィードバック,Chain-of-Thought-structured(Chain-of-Thought-structured)を自動修復ループに統合するフレームワークを提案する。
我々の手法は44.93%の修理精度を達成し、最先端のAPRベースラインに対する3.61%の絶対的な改善を示している。
論文 参考訳(メタデータ) (2025-09-02T04:34:11Z) - Goedel-Prover-V2: Scaling Formal Theorem Proving with Scaffolded Data Synthesis and Self-Correction [95.91743732150233]
一連のオープンソースの言語モデルであるGoedel-Prover-V2は、自動定理の新たな最先端を証明した。
我々は、より複雑な定理をマスターするためにモデルを訓練することの困難さを増す合成タスクを生成する。
Goedel-Prover-V2-32Bは、標準モードのpass@32でMiniF2Fの88.1%、自己補正モードの90.4%を達成する。
論文 参考訳(メタデータ) (2025-08-05T16:28:22Z) - START: Self-taught Reasoner with Tools [51.38785489790888]
ツール統合長チェーン・オブ・シークレット(CoT)推論LSMであるSTART(Self-Taught Reasoner with Tools)を紹介する。
STARTは複雑な計算、自己チェック、多様な方法の探索、そして自己老化を行うことができる。
基礎となるQwQ-32Bを著しく上回り、最先端のオープンウェイトモデルR1-Distill-Qwen-32Bに匹敵する性能を達成する。
論文 参考訳(メタデータ) (2025-03-06T17:11:51Z) - Preference Optimization for Reasoning with Pseudo Feedback [100.62603571434167]
提案手法では,解のラベル付けを関連するテストケースに対する評価として行うことで,推論タスクに対する疑似フィードバックを生成する手法を提案する。
本研究では,擬似フィードバックを優先最適化に用いる数学的推論と符号化の両タスクについて実験を行い,両タスク間の改善を観察する。
論文 参考訳(メタデータ) (2024-11-25T12:44:02Z) - OptiBench Meets ReSocratic: Measure and Improve LLMs for Optimization Modeling [62.19438812624467]
大規模言語モデル (LLM) は数学的推論における問題解決能力を示した。
本稿では,人間可読入力と出力を用いたエンドツーエンド最適化問題のベンチマークであるOptiBenchを提案する。
論文 参考訳(メタデータ) (2024-07-13T13:27:57Z) - Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。
Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文 参考訳(メタデータ) (2024-04-02T16:25:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。