論文の概要: ARIADNE: Agentic Reward-Informed Adaptive Decision Exploration via Blackboard-Driven MCTS for Competitive Program Generation
- arxiv url: http://arxiv.org/abs/2605.02431v1
- Date: Mon, 04 May 2026 10:30:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.236609
- Title: ARIADNE: Agentic Reward-Informed Adaptive Decision Exploration via Blackboard-Driven MCTS for Competitive Program Generation
- Title(参考訳): ARIADNE: 競合プログラム生成のためのブラックボード駆動MCTSによるエージェントリワードインフォームド適応決定探索
- Authors: Minnan Wei, Xiang Chen, Xiaoshuai Niu, Siyu Chen,
- Abstract要約: プログラム生成を逐次決定プロセスとしてモデル化するブラックボード駆動のモンテカルロ木探索(MCTS)フレームワークを提案する。
ツールが生成ワークフローを5つの調整段階(戦略選択、コード生成、テスト生成、品質評価、コード修復)に編成し、共有ブラックボードを維持している。
4つのベンチマーク(APPS、CodeContests、CodeContests+、LiveCodeBench)の実験は、ツールが常に最高のPass@1パフォーマンスを達成することを示している。
- 参考スコア(独自算出の注目度): 10.232812063343511
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Competitive program generation aims to automatically produce correct and efficient solutions for programming-contest problems under strict time and memory constraints. Existing LLM-based approaches often fail to perform explicit algorithmic planning and to handle edge cases robustly, leading to unreliable one-shot generation. Moreover, although execution feedback is essential for iterative debugging and refinement, incorporating such feedback effectively within limited computational budgets remains difficult. To overcome these limitations, we propose {\tool}, a blackboard-driven Monte Carlo Tree Search (MCTS) framework that models program generation as a sequential decision process. {\tool} organizes the generation workflow into five coordinated stages (i.e., strategy selection, code generation, test generation, quality evaluation, and code repair) while maintaining a shared blackboard that accumulates structured evidence to guide subsequent decisions. Experiments on four benchmarks (APPS, CodeContests, CodeContests+, and LiveCodeBench) show that {\tool} consistently achieves the best Pass@1 performance across multiple LLM backends. With GPT-4o, {\tool} attains Pass@1 scores of 41.30, 46.67, 27.27, and 20.91, surpassing the strongest baseline CodeSim by up to 26.06 points, while further improvements are observed with DeepSeek-V3.2. These results indicate that combining global search through MCTS with persistent evidence accumulation on a shared blackboard enables systematic exploration and effective feedback utilization, substantially enhancing the capability of LLMs in competitive program generation.
- Abstract(参考訳): 競合プログラム生成は、厳密な時間とメモリ制約の下で、プログラム競合問題に対する正確かつ効率的なソリューションを自動生成することを目的としている。
既存のLLMベースのアプローチは、明示的なアルゴリズム計画の実行に失敗し、エッジケースを堅牢に処理することが多く、信頼性の低いワンショット生成に繋がる。
さらに, 繰り返しデバッグや改良には実行フィードバックが不可欠であるが, 限られた計算予算にそのようなフィードバックを効果的に組み込むことは依然として困難である。
これらの制限を克服するために,プログラム生成を逐次決定プロセスとしてモデル化するブラックボード駆動のモンテカルロ木探索(MCTS)フレームワークである {\tool} を提案する。
生成ワークフローを5つの調整段階(戦略の選択、コード生成、テスト生成、品質評価、コード修復)にまとめながら、構造化された証拠を蓄積してその後の決定を導く共有ブラックボードを維持する。
4つのベンチマーク(APPS、CodeContests、CodeContests+、LiveCodeBench)の実験では、ttool}が複数のLLMバックエンドにまたがる最高のPass@1パフォーマンスを一貫して達成している。
GPT-4oでは、パス@1スコアは41.30、46.67、27.27、20.91となり、最強のベースラインであるCodeSimを26.06ポイントまで上回り、DeepSeek-V3.2ではさらなる改善が見られた。
これらの結果から,MCTSによるグローバル検索と共有黒板上に蓄積した持続的証拠を組み合わせることで,系統的な探索と効果的なフィードバック利用が可能となり,プログラム生成におけるLCMの能力を大幅に向上することが示唆された。
関連論文リスト
- Evaluating LLM-Based 0-to-1 Software Generation in End-to-End CLI Tool Scenarios [13.708123854369303]
CLI-Tool-Benchは、Command-Line Interfaceツールの基底生成を評価するための構造に依存しないベンチマークである。
ブラックボックスの差分テストフレームワークを通じて評価された100の現実世界のリポジトリが特徴だ。
エージェント生成ソフトウェアはサンドボックスで実行され、システムサイドエフェクトと端末出力を人書きのオークルと比較する。
論文 参考訳(メタデータ) (2026-04-08T07:09:10Z) - TestDecision: Sequential Test Suite Generation via Greedy Optimization and Reinforcement Learning [17.157244731153554]
MDPとしてテストスイートの生成を形式化し,その目的が単調な部分モジュラリティを示すことを示す。
本研究では,LSMを神経グリージーの専門家に変換するTestDecisionを提案する。
TestDecisionは既存の高度なメソッドよりも大幅に優れています。
論文 参考訳(メタデータ) (2026-04-02T09:13:52Z) - SolverLLM: Leveraging Test-Time Scaling for Optimization Problem via LLM-Guided Search [58.116954449750544]
多様な最適化問題を解決するために,テスト時間スケーリングを活用したトレーニング不要のフレームワークを導入する。
直接的に解くのではなく、数学的定式化を生成し、新しいモンテカルロ木探索戦略によって導かれる解法対応のコードに変換する。
論文 参考訳(メタデータ) (2025-10-19T16:21:19Z) - MM-HELIX: Boosting Multimodal Long-Chain Reflective Reasoning with Holistic Platform and Adaptive Hybrid Policy Optimization [103.74675519953898]
ロングチェーンのリフレクティブ推論は、複雑な現実世界の問題を解決するための前提条件である。
我々は42の難解な合成タスクの1,260のサンプルからなるベンチマークを構築した。
トレーニング後のデータを生成し、そのようなデータを活用するための学習パラダイムを探索する。
論文 参考訳(メタデータ) (2025-10-09T17:53:58Z) - Reasoning Through Execution: Unifying Process and Outcome Rewards for Code Generation [27.484259938667776]
大規模言語モデルはコード生成に優れていますが、推論を必要とする複雑なプログラミングタスクに苦労します。
本稿では,実行可能検証を活用することで,プロセスと結果の監視を統一するアウトカム・リフィニング・プロセス・スーパービジョンを紹介する。
5つのモデルと3つのベンチマークによる実験では、26.9%の精度でコード効率が42.2%向上した。
論文 参考訳(メタデータ) (2024-12-19T17:59:42Z) - LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning [56.273799410256075]
このフレームワークはMonte Carlo Tree Search (MCTS)と反復的なSelf-Refineを組み合わせて推論パスを最適化する。
このフレームワークは、一般的なベンチマークと高度なベンチマークでテストされており、探索効率と問題解決能力の点で優れた性能を示している。
論文 参考訳(メタデータ) (2024-10-03T18:12:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。