論文の概要: CodeHacker: Automated Test Case Generation for Detecting Vulnerabilities in Competitive Programming Solutions
- arxiv url: http://arxiv.org/abs/2602.20213v1
- Date: Mon, 23 Feb 2026 05:59:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.471338
- Title: CodeHacker: Automated Test Case Generation for Detecting Vulnerabilities in Competitive Programming Solutions
- Title(参考訳): CodeHacker: 競合プログラミングソリューションにおける脆弱性検出のための自動テストケース生成
- Authors: Jingwei Shi, Xinxiang Yin, Jing Huang, Jinman Zhao, Shengyu Tao,
- Abstract要約: 既存のベンチマークは、しばしば微妙なコーナーケースのカバレッジを欠いているため、誤った解決策を通すことができる。
CodeHackerは、プログラムの提出中に潜伏する脆弱性を暴露する逆テストケースを生成する。
実験によると、CodeHackerは既存のデータセットのTrue Negative Rate(TNR)を大幅に改善している。
- 参考スコア(独自算出の注目度): 8.163435280190027
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The evaluation of Large Language Models (LLMs) for code generation relies heavily on the quality and robustness of test cases. However, existing benchmarks often lack coverage for subtle corner cases, allowing incorrect solutions to pass. To bridge this gap, we propose CodeHacker, an automated agent framework dedicated to generating targeted adversarial test cases that expose latent vulnerabilities in program submissions. Mimicking the hack mechanism in competitive programming, CodeHacker employs a multi-strategy approach, including stress testing, anti-hash attacks, and logic-specific targeting to break specific code submissions. To ensure the validity and reliability of these attacks, we introduce a Calibration Phase, where the agent iteratively refines its own Validator and Checker via self-generated adversarial probes before evaluating contestant code.Experiments demonstrate that CodeHacker significantly improves the True Negative Rate (TNR) of existing datasets, effectively filtering out incorrect solutions that were previously accepted. Furthermore, generated adversarial cases prove to be superior training data, boosting the performance of RL-trained models on benchmarks like LiveCodeBench.
- Abstract(参考訳): コード生成のための大規模言語モデル(LLM)の評価は、テストケースの品質と堅牢性に大きく依存している。
しかし、既存のベンチマークは、しばしば微妙なコーナーケースのカバレッジを欠いているため、誤った解決策を通すことができる。
このギャップを埋めるために、我々はCodeHackerという自動エージェントフレームワークを提案します。
CodeHackerは、競合プログラミングにおけるハックメカニズムを模倣し、ストレステスト、アンチハッシュ攻撃、特定のコード提出を壊すロジック固有のターゲティングなど、マルチストラテジーなアプローチを採用している。
これらの攻撃の有効性と信頼性を確保するために、エージェントが競合するコードを評価する前に、自己生成した敵プローブを介して、独自のバリケータとチェッカーを反復的に洗練するキャリブレーションフェーズを導入し、CodeHackerが既存のデータセットの真の負率(TNR)を大幅に改善し、これまで受け入れられていた不正なソリューションを効果的にフィルタリングすることを示した。
さらに、生成された逆行ケースは優れたトレーニングデータであることが証明され、LiveCodeBenchのようなベンチマーク上でのRLトレーニングモデルのパフォーマンスが向上した。
関連論文リスト
- Scaling Agentic Verifier for Competitive Coding [66.11758166379092]
大規模言語モデル(LLM)は強力なコーディング能力を示しているが、1回の試行で競合するプログラミング問題を正しく解くのに苦戦している。
実行ベースの再ランク付けは、有望なテスト時間スケーリング戦略を提供するが、既存のメソッドは、難しいテストケースの生成または非効率的なランダム入力サンプリングによって制約される。
本稿では,プログラムの動作を積極的に推論し,高い差別性のあるテスト入力を検索するエージェント検証手法を提案する。
論文 参考訳(メタデータ) (2026-02-04T06:30:40Z) - ReasAlign: Reasoning Enhanced Safety Alignment against Prompt Injection Attack [52.17935054046577]
本稿では、間接的インジェクション攻撃に対する安全性アライメントを改善するためのモデルレベルのソリューションであるReasAlignを提案する。
ReasAlignには、ユーザクエリの分析、競合する命令の検出、ユーザの意図したタスクの継続性を維持するための構造化された推論ステップが組み込まれている。
論文 参考訳(メタデータ) (2026-01-15T08:23:38Z) - Klear-CodeTest: Scalable Test Case Generation for Code Reinforcement Learning [43.30900834053253]
Klear-CodeTestは、厳密な検証機能を備えた総合的なテストケース合成フレームワークで、テストケースの品質と信頼性を保証する。
提案したG-Vフレームワークは,正規ケースとコーナーケースの両方を含む総合的なテストケースを生成し,テストカバレッジと解の正当性評価のための識別力を向上させる。
さらに,オンライン検証プラットフォームに最適化された多層セキュリティサンドボックスシステムを設計し,安全で信頼性の高いコード実行を保証する。
論文 参考訳(メタデータ) (2025-08-07T07:36:01Z) - Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。
実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:57:47Z) - CodeDPO: Aligning Code Models with Self Generated and Verified Source Code [52.70310361822519]
我々は、コード生成に好み学習を統合するフレームワークであるCodeDPOを提案し、コードの正確性と効率性という2つの重要なコード優先要因を改善した。
CodeDPOは、コードとテストケースを同時に生成、評価するセルフジェネレーション・アンド・バリデーションメカニズムを利用して、新しいデータセット構築方法を採用している。
論文 参考訳(メタデータ) (2024-10-08T01:36:15Z) - SWT-Bench: Testing and Validating Real-World Bug-Fixes with Code Agents [10.730852617039451]
ユーザ問題をテストケースに形式化するLLMベースのコードエージェントについて検討する。
我々は人気のあるGitHubリポジトリに基づいた新しいベンチマークを提案し、現実世界の問題、地味なバグフィックス、ゴールデンテストを含む。
コード修復用に設計されたコードエージェントは,テスト生成用に設計されたシステムの性能を上回っている。
論文 参考訳(メタデータ) (2024-06-18T14:54:37Z) - An LLM-Assisted Easy-to-Trigger Backdoor Attack on Code Completion Models: Injecting Disguised Vulnerabilities against Strong Detection [17.948513691133037]
我々は,コード補完モデルに基づくLLM支援バックドアアタックフレームワークであるCodeBreakerを紹介した。
悪意のあるペイロードを最小限の変換でソースコードに直接統合することで、CodeBreakerは現在のセキュリティ対策に挑戦する。
論文 参考訳(メタデータ) (2024-06-10T22:10:05Z) - CodeLMSec Benchmark: Systematically Evaluating and Finding Security
Vulnerabilities in Black-Box Code Language Models [58.27254444280376]
自動コード生成のための大規模言語モデル(LLM)は、いくつかのプログラミングタスクにおいてブレークスルーを達成した。
これらのモデルのトレーニングデータは、通常、インターネット(例えばオープンソースのリポジトリから)から収集され、障害やセキュリティ上の脆弱性を含む可能性がある。
この不衛生なトレーニングデータは、言語モデルにこれらの脆弱性を学習させ、コード生成手順中にそれを伝播させる可能性がある。
論文 参考訳(メタデータ) (2023-02-08T11:54:07Z) - Certified Robustness to Label-Flipping Attacks via Randomized Smoothing [105.91827623768724]
機械学習アルゴリズムは、データ中毒攻撃の影響を受けやすい。
任意の関数に対するランダム化スムージングの統一的なビューを示す。
本稿では,一般的なデータ中毒攻撃に対して,ポイントワイズで確実に堅牢な分類器を構築するための新しい戦略を提案する。
論文 参考訳(メタデータ) (2020-02-07T21:28:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。