論文の概要: AdverMCTS: Combating Pseudo-Correctness in Code Generation via Adversarial Monte Carlo Tree Search
- arxiv url: http://arxiv.org/abs/2604.10449v1
- Date: Sun, 12 Apr 2026 04:15:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.022045
- Title: AdverMCTS: Combating Pseudo-Correctness in Code Generation via Adversarial Monte Carlo Tree Search
- Title(参考訳): AdverMCTS: モンテカルロ木探索によるコード生成における擬似補正
- Authors: Qingyao Li, Weiwen Liu, Weinan Zhang, Yong Yu, Bo An,
- Abstract要約: AdverMCTSはモンテカルロ木探索フレームワークで、コード検索とアクティブな脆弱性発見を結合することで擬似的正確性に対処する。
本稿では,AdverMCTSが最先端のベースラインを著しく上回ることを示す。
- 参考スコア(独自算出の注目度): 43.74932760107145
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in Large Language Models (LLMs) have successfully employed search-based strategies to enhance code generation. However, existing methods typically rely on static, sparse public test cases for verification, leading to pseudo-correctness -- where solutions overfit the visible public tests but fail to generalize to hidden test cases. We argue that optimizing against a fixed, weak environment inherently limits robustness. To address this, we propose AdverMCTS, a novel adversarial Monte Carlo Tree Search framework that combats pseudo-correctness by coupling code search with active vulnerability discovery. AdverMCTS formulates generation as a minimax-style game between a Solver agent, which synthesizes code candidates, and an Attacker agent, which evolves to generate targeted corner test cases that exploit logical divergences in the current code pool. These discovered tests form a dynamic, progressively hostile filter that penalizes fragile reasoning. Extensive experiments demonstrate that AdverMCTS significantly outperforms state-of-the-art baselines, effectively reducing false positive rates and forcing the model to generalize beyond the initial constraints. The resources of this work are available at https://anonymous.4open.science/r/AdverMCTS_open-A255.
- Abstract(参考訳): 近年のLarge Language Models (LLM) の進歩は、コード生成を強化するために検索ベースの戦略をうまく採用している。
しかし、既存のメソッドは通常、検証のために静的でスパースな公開テストケースに依存しており、擬似的正確性をもたらす。
固定された弱い環境に対する最適化は本質的にロバスト性を制限すると我々は主張する。
そこで本稿では,コード検索とアクティブな脆弱性発見を結合することで,疑似誤りに対処する,モンテカルロ木探索フレームワークAdverMCTSを提案する。
AdverMCTSは、コード候補を合成するSolverエージェントと、現在のコードプールにおける論理的分岐を利用したターゲットコーナーテストケースを生成するために進化するAttackerエージェントとの間に、ミニマックススタイルのゲームとして生成を定式化する。
これらの試験は、脆弱な推論を罰する動的で漸進的に敵対的なフィルタを形成する。
大規模な実験により、AdverMCTSは最先端のベースラインを著しく上回り、偽陽性率を効果的に低減し、初期制約を超えてモデルを一般化させることを示した。
この研究のリソースはhttps://anonymous.4open.science/r/AdverMCTS_open-A255にある。
関連論文リスト
- BACE: LLM-based Code Generation through Bayesian Anchored Co-Evolution of Code and Test Populations [0.9668407688201359]
我々は、ベイズ的共進化過程として合成を再構成するフレームワークであるBACEを紹介する。
BACEはプロプライエタリモデルとオープンウェイトな小言語モデルの両方で優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-03-30T16:40:11Z) - Code-A1: Adversarial Evolving of Code LLM and Test LLM via Reinforcement Learning [54.95476453942411]
コード生成のための強化学習は、単体テストのパスレートから検証可能な報酬に依存する。
最近のセルフプレイ手法は、1つのモデルでコードとテスト生成を統合する。
Code-A1は、人間のアノテーションによるテストでトレーニングされたコード生成のパフォーマンスマッチングまたはモデルを超えることを実現する。
論文 参考訳(メタデータ) (2026-03-16T17:58:13Z) - MIST-RL: Mutation-based Incremental Suite Testing via Reinforcement Learning [19.054149750597933]
MIST-RL (Mutation-based Incremental Suite Testing via Reinforcement Learning) は、"スケーリング・バイ・ユーティリティ(scaling-by-utility)"に重点を移すフレームワークである。
我々は,機能的に等価なアサーションを抑えながら,新たな欠陥を発見するモデルにインセンティブを与える,動的ペナルティと組み合わされた新たなインクリメンタル突然変異報酬を導入する。
HumanEval+とMBPP+の実験は、MIST-RLが最先端のベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2026-03-02T03:22:44Z) - ATGen: Adversarial Reinforcement Learning for Test Case Generation [78.48498301767079]
大きな言語モデル(LLM)はコード生成に優れていますが、その出力には微妙なバグが伴います。
既存のテスト生成方法は静的データセットに依存している。
我々は,対戦型強化学習を通じてテストケースジェネレータを訓練するフレームワークであるATGenを紹介する。
論文 参考訳(メタデータ) (2025-10-16T12:49:25Z) - Alignment with Fill-In-the-Middle for Enhancing Code Generation [56.791415642365415]
コードスニペットを小さな粒度のブロックに分割し,同じテストケースからより多様なDPOペアを生成する手法を提案する。
提案手法は,HumanEval (+), MBPP (+), APPS, LiveCodeBench, BigCodeBenchといったベンチマークデータセットの実験によって検証された,コード生成タスクの大幅な改善を示す。
論文 参考訳(メタデータ) (2025-08-27T03:15:53Z) - A Simple, Yet Effective Approach to Finding Biases in Code Generation [16.094062131137722]
この研究は、現在のコード生成システムが、彼らの大きな言語モデルバックボーンから受け継がれた望ましくないバイアスを示すことを示している。
コーディング課題のモジュラー分解と解析を可能にする「影響ブロック」の概念を提案する。
論文 参考訳(メタデータ) (2022-10-31T15:06:15Z) - A Large-scale Multiple-objective Method for Black-box Attack against
Object Detection [70.00150794625053]
我々は、真正の確率を最小化し、偽正の確率を最大化し、より多くの偽正の物体が新しい真正の有界箱を作らないようにする。
我々は、GARSDCと呼ばれるランダム・サブセット選択とディバイド・アンド・コンカーによる標準的な遺伝的アルゴリズムを拡張し、効率を大幅に改善する。
最先端攻撃法と比較して、GARSDCはmAPでは平均12.0、広範囲な実験ではクエリでは約1000倍減少する。
論文 参考訳(メタデータ) (2022-09-16T08:36:42Z) - Discriminator-Free Generative Adversarial Attack [87.71852388383242]
生成的ベースの敵攻撃は、この制限を取り除くことができる。
ASymmetric Saliency-based Auto-Encoder (SSAE) は摂動を生成する。
SSAEが生成した敵の例は、広く使われているモデルを崩壊させるだけでなく、優れた視覚的品質を実現する。
論文 参考訳(メタデータ) (2021-07-20T01:55:21Z) - On Provable Backdoor Defense in Collaborative Learning [35.22450536986004]
悪意のあるユーザは、モデルの収束を防ぐためにデータをアップロードしたり、隠れたバックドアを注入したりできる。
標準的なテストデータではモデルが正常に動作するため、バックドア攻撃は特に検出が難しいが、特定のバックドアキーによってトリガーされた場合、間違ったアウトプットが与えられる。
既存のサブセット集約メソッドを一般化する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-01-19T14:39:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。