論文の概要: Learn from Your Mistakes: Tree-like Self-Play for Secure Code LLMs
- arxiv url: http://arxiv.org/abs/2606.03489v1
- Date: Tue, 02 Jun 2026 11:07:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.955474
- Title: Learn from Your Mistakes: Tree-like Self-Play for Secure Code LLMs
- Title(参考訳): 誤解から学ぶ:セキュアなコードLLMのためのツリーライクなセルフプレイ
- Authors: Wenqi Chen, Ziyan Zhang, Bing Wang, Lin Liu, Hengheng Zhang, Zhengsu Chen,
- Abstract要約: セキュアなコード生成をきめ細かいシーケンシャルな決定プロセスとして再設計するフレームワークであるTree-like Self-Play (TSP)を紹介します。
コード生成をセルフプレイゲームとして扱うことで、モデルは自身の局所的なエラーに対して厳格に識別することを学ぶ。
- 参考スコア(独自算出の注目度): 12.164962289028113
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Large Language Models (LLMs) excel in code generation, they remain prone to replicating subtle yet critical vulnerabilities endemic to their training data. Current alignment techniques, such as Supervised Fine-Tuning (SFT) and Reinforcement Learning (RL), typically apply coarse-grained optimization at the sequence level. This approach often fails to address the localized nature of security flaws, where a single incorrect token choice can compromise an entire program. To bridge this gap, we introduce Tree-like Self-Play (TSP), a framework that reframes secure code generation as a fine-grained sequential decision process. Unlike standard methods that blindly maximize likelihood, TSP constructs a decision tree where the model explores branching trajectories--generating both secure "golden paths" and vulnerable variants. By treating code generation as a self-play game, the model learns to strictly discriminate against its own localized errors. This provides a dense, on-policy learning signal that forces self-correction precisely at the critical decision nodes where vulnerabilities typically emerge. Our experiments demonstrate that TSP fundamentally enhances model reliability. In Python security benchmarks, TSP boosts CodeLlama-7B's pass rate (SPR@1) to 75.8%, significantly outperforming SFT (57.0%) and unstructured self-play baselines. Crucially, TSP induces robust out-of-distribution generalization: the model not only reduces vulnerabilities in unseen categories (CWEs) by 24.5% but also successfully transfers security principles learned from C/C++ to diverse languages, including Python, Go, and JavaScript. This suggests that TSP does not merely memorize patches, but internalizes abstract, language-agnostic security logic.
- Abstract(参考訳): 大きな言語モデル(LLM)はコード生成に優れていますが、トレーニングデータに潜む微妙に重要な脆弱性を複製する傾向があります。
Supervised Fine-Tuning (SFT) や Reinforcement Learning (RL) のような現在のアライメント技術は、典型的にはシーケンスレベルで粗粒度最適化を適用する。
このアプローチは、単一の不正なトークン選択がプログラム全体を損なうという、セキュリティ欠陥の局所的な性質に対処することができないことが多い。
このギャップを埋めるために、セキュアなコード生成をきめ細かいシーケンシャルな決定プロセスとして再構成するフレームワークであるTree-like Self-Play (TSP)を紹介します。
可能性を盲目的に最大化する標準的な方法とは異なり、TSPはモデルが分岐軌跡を探索する決定木を構築し、セキュアな「金の道」と脆弱な変種の両方を生成する。
コード生成をセルフプレイゲームとして扱うことで、モデルは自身の局所的なエラーに対して厳格に識別することを学ぶ。
これは、脆弱性が通常出現するクリティカルな決定ノードに正確に自己補正を強制する、密集したオンライン学習信号を提供する。
実験により,TSPはモデル信頼性を根本的に向上することが示された。
Pythonのセキュリティベンチマークでは、TSPはCodeLlama-7Bのパスレート(SPR@1)を75.8%に引き上げ、SFT(57.0%)と非構造化のセルフプレイベースラインを大きく上回っている。
TSPは、非表示カテゴリ(CWE)の脆弱性を24.5%削減するだけでなく、C/C++から学んだセキュリティ原則をPython、Go、JavaScriptなどさまざまな言語に転送することに成功した。
これは、TSPが単にパッチを記憶するだけでなく、抽象的で言語に依存しないセキュリティロジックを内部化することを示している。
関連論文リスト
- SecPI: Secure Code Generation with Reasoning Models via Security Reasoning Internalization [50.71047638695205]
RLM(Reasoning Language Model)は、プログラミングにおいてますます使われている言語モデルである。
しかし、最先端のRLMでさえ、生成されたコードに重大なセキュリティ脆弱性を頻繁に導入する。
我々は、構造化されたセキュリティ推論を内部化するためのRTMを教える微調整パイプラインであるSecPIを提案する。
論文 参考訳(メタデータ) (2026-04-04T04:29:11Z) - Beyond Corner Patches: Semantics-Aware Backdoor Attack in Federated Learning [6.76324539337304]
フェデレートラーニング(FL)に対するバックドア攻撃は、多くの場合、合成コーナーパッチやアウト・オブ・ディストリビューションパターンで評価される。
フェデレートされた環境での学習を支援するセマンティックス対応バックドアであるSABLEを提案する。
我々のセマンティクス駆動トリガは、良識テスト精度を維持しながら高い目標攻撃成功率を達成する。
論文 参考訳(メタデータ) (2026-03-31T06:48:25Z) - Secure Code Generation via Online Reinforcement Learning with Vulnerability Reward Model [60.60587869092729]
大規模言語モデル(LLM)は、ソフトウェア開発でますます使われているが、安全でないコードを生成する傾向は、現実世界のデプロイメントにとって大きな障壁である。
機能保存型セキュアコード生成のためのオンライン強化学習フレームワークSecCoderXを提案する。
論文 参考訳(メタデータ) (2026-02-07T07:42:07Z) - CORE: Context-Robust Remasking for Diffusion Language Models [51.59514489363897]
我々は、推論時リビジョンのためのトレーニング不要フレームワークであるContext-Robust Remasking (CORE)を提案する。
静的トークンの確率を信頼するのではなく、COREは、ターゲットとなるマスク付きコンテキストの摂動に対する感受性を示すことによって、コンテキスト不安定なトークンを識別する。
LLaDA-8B-Baseでは、COREは推論とコードベンチマークの間で一貫した改善を行い、計算に適合したベースラインを上回り、MBPPを最大9.2%改善した。
論文 参考訳(メタデータ) (2026-02-04T00:12:30Z) - RealSec-bench: A Benchmark for Evaluating Secure Code Generation in Real-World Repositories [58.32028251925354]
LLM(Large Language Models)は、コード生成において顕著な能力を示しているが、セキュアなコードを生成する能力は依然として重要で、未調査の領域である。
我々はRealSec-benchを紹介します。RealSec-benchは、現実世界の高リスクなJavaリポジトリから慎重に構築されたセキュアなコード生成のための新しいベンチマークです。
論文 参考訳(メタデータ) (2026-01-30T08:29:01Z) - The Trojan Knowledge: Bypassing Commercial LLM Guardrails via Harmless Prompt Weaving and Adaptive Tree Search [58.8834056209347]
大規模言語モデル(LLM)は、有害な出力を誘導するために安全ガードレールをバイパスするジェイルブレイク攻撃に弱いままである。
CKA-Agent(Correlated Knowledge Attack Agent)は、ターゲットモデルの知識基盤の適応的木構造探索としてジェイルブレイクを再構成する動的フレームワークである。
論文 参考訳(メタデータ) (2025-12-01T07:05:23Z) - Every Step Counts: Decoding Trajectories as Authorship Fingerprints of dLLMs [63.82840470917859]
本稿では,dLLMの復号化機構をモデル属性の強力なツールとして利用できることを示す。
本稿では、デコードステップ間の構造的関係を捉え、モデル固有の振る舞いをよりよく明らかにする、DDM(Directed Decoding Map)と呼ばれる新しい情報抽出手法を提案する。
論文 参考訳(メタデータ) (2025-10-02T06:25:10Z) - Enhanced LLM-Based Framework for Predicting Null Pointer Dereference in Source Code [2.2020053359163305]
我々は「DeLLNeuN」と呼ばれる細調整大言語モデル(LLM)を用いた新しいアプローチを提案する。
Draper VDISCデータセットを用いて87%の精度と88%の精度を示した。
論文 参考訳(メタデータ) (2024-11-29T19:24:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。