論文の概要: CP-Agent: A Calibrated Risk-Controlled Agent for Feedback-Driven Competitive Programming
- arxiv url: http://arxiv.org/abs/2605.24693v1
- Date: Sat, 23 May 2026 18:13:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.331407
- Title: CP-Agent: A Calibrated Risk-Controlled Agent for Feedback-Driven Competitive Programming
- Title(参考訳): CP-Agent: フィードバック駆動型競合プログラミングのためのキャリブレーション型リスク制御エージェント
- Authors: Peisong Wang, Bowen Liu, Zehua Li, Yuyao Wang, Zhiwei Ma, Yuhan Li, Jia Li,
- Abstract要約: 我々は、フィードバック駆動型問題解決を停止プロセスとしてモデル化し、偽受け入れリスク、悪いプログラムに対するプログラムレベルの証拠、アクティブな状態の成功リスクの3つの量を特定する。
CP-Agentを生成するために、これらの量をターゲットにしたメカニズムを、デュアルグラニュラリティ検証、テスト拡張、経験駆動型自己進化としてインスタンス化する。
- 参考スコア(独自算出の注目度): 23.709197820809436
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models still struggle with contest-level programming, while many agentic remedies rely on massive inference-time sampling or expensive multi-stage post-training. We study when execution feedback reliably helps an LLM CP solver and which mechanisms govern the gains. We model feedback-driven solving as a calibrated stopped process and identify three quantities: false-admission risk, program-level evidence against bad programs, and the active-state success hazard. Under held-out trace calibration and selection from a pre-declared finite controller manifest, the resulting structural certificate lower-bounds the clean success probability before false admission. We instantiate mechanisms targeting these quantities as Dual-Granularity Verification, Test Augmentation, and Experience-Driven Self-Evolving, yielding CP-Agent. Without updating any parameters, CP-Agent raises Pass@1 from 25.8\% to 48.5\% on LiveCodeBench Pro and improves Refine@5 by 11.0\% on ICPC-Eval. Across three LLM backbones, CP-Agent lies on the cost--accuracy efficiency frontier, and ablations show that each component primarily affects its corresponding certificate quantity.
- Abstract(参考訳): 大規模な言語モデルはいまだにコンテストレベルのプログラミングに苦戦しているが、エージェントによる改善の多くは大規模な推論時間サンプリングや高価なマルチステージ後トレーニングに依存している。
実行フィードバックがLLM CPソルバを確実に支援し、どのメカニズムが利得を制御しているかを検討する。
我々は、フィードバック駆動型問題解決を調整済みの停止プロセスとしてモデル化し、3つの量、虚偽のアドミッションリスク、悪いプログラムに対するプログラムレベルのエビデンス、そしてアクティブな状態の成功のハザードを同定する。
事前宣言された有限コントローラーマニフェストからの保持されたトレースキャリブレーションと選択の下で、結果として得られた構造証明書は、偽の入場前にクリーンな成功確率を低くする。
CP-Agentを生成するために、これらの量をターゲットにしたメカニズムを、デュアルグラニュラリティ検証、テスト拡張、経験駆動型自己進化としてインスタンス化する。
パラメータを更新せずに、CP-Agentは、LiveCodeBench ProでPass@1を25.8\%から48.5\%に引き上げ、ICPC-EvalでRefine@5を11.0\%改善する。
CP-Agentは3つのLCMバックボーンにまたがって、コスト-精度効率のフロンティア上に置かれ、各コンポーネントが対応する証明書量に主に影響を与えることを示す。
関連論文リスト
- MASPrism: Lightweight Failure Attribution for Multi-Agent Systems Using Prefill-Stage Signals [5.326315684098781]
我々は,小言語モデル(SLM)のプリフィルステージ信号を用いて,障害帰属を行うフレームワークであるMASPrismを提案する。
MASPrismは各トレースを平均2.66秒で処理し、単一パスのプロンプトベースラインを6.69$times$スピードアップし、出力トークンをゼロにする。
論文 参考訳(メタデータ) (2026-05-08T09:40:53Z) - Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents [66.97968363332465]
エージェントベンチマークの3つのギャップに対処するエンドツーエンド評価スイートであるClaw-Evalを紹介した。
Claw-Evalは3つのグループにまたがる9つのカテゴリにまたがる300の人間検証タスクで構成されている。
すべてのエージェントアクションは、3つの独立したエビデンスチャネルを通じて記録される。
論文 参考訳(メタデータ) (2026-04-07T17:43:18Z) - LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems [0.0]
現在のプロトコルでは、モデルレベルのプロパティを第一級プリミティブとして公開していない。
5つのメカニズムを導入したAIネイティブ通信プロトコルであるLDM Delegate Protocol(LDP)を提案する。
アイデンティティを意識したルーティングは、デリゲートの特殊化によって、簡単なタスクの12倍のレイテンシを実現するが、小さなデリゲートプールの集約品質は向上しない。
論文 参考訳(メタデータ) (2026-03-09T19:13:17Z) - Verified Critical Step Optimization for LLM Agents [67.05296684575445]
クリティカルステップ最適化は、検証されたクリティカルステップに優先学習を集中する。
メソッドは、専門家のデモンストレーションではなく、失敗するポリシーの軌道から始まります。
GAIA-Text-103とXBench-DeepSearchの実験では、CSOはSFTベースラインよりも37%、相対的に26%改善している。
論文 参考訳(メタデータ) (2026-02-03T11:41:02Z) - DoVer: Intervention-Driven Auto Debugging for LLM Multi-Agent Systems [48.971606069204825]
DoVerは、大規模言語モデル(LLM)ベースのマルチエージェントシステムのための介入駆動デバッグフレームワークである。
ターゲットの介入を通じて、アクティブな検証によって仮説生成を増強する。
DoVerは失敗試験の18~28%を成功させ、最大16%のマイルストーンを達成し、失敗仮説の30~60%を検証または否定する。
論文 参考訳(メタデータ) (2025-12-07T09:23:48Z) - Alita-G: Self-Evolving Generative Agent for Agent Generation [54.49365835457433]
汎用エージェントをドメインエキスパートに変換するフレームワークであるALITA-Gを提案する。
このフレームワークでは、ジェネラリストエージェントが対象ドメインタスクのキュレートされたスイートを実行する。
計算コストを削減しながら、大きな利益を得ることができます。
論文 参考訳(メタデータ) (2025-10-27T17:59:14Z) - Robust Uncertainty Quantification for Self-Evolving Large Language Models via Continual Domain Pretraining [7.344577590113121]
Conformal Prediction (CP)は、大きな言語モデルに対して正確性を保証することを約束している。
適応的な拒絶と非交換可能なCPフレームワークを導入する。
本フレームワークは,CDPシナリオ下でのCPの有効性と信頼性を両立させる。
論文 参考訳(メタデータ) (2025-10-27T02:15:51Z) - Metacognitive Self-Correction for Multi-Agent System via Prototype-Guided Next-Execution Reconstruction [58.51530390018909]
大規模言語モデルに基づくマルチエージェントシステムは、協調的な問題解決において優れているが、エラーのカスケードには脆弱である。
我々は,MASにリアルタイム,教師なし,ステップレベルの誤り検出と自己補正を付与するメタ認知フレームワークMASCを提案する。
論文 参考訳(メタデータ) (2025-10-16T05:35:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。