論文の概要: SecureCodeRL: Security-Aware Reinforcement Learning for Code Generation with Partial-Credit Rewards
- arxiv url: http://arxiv.org/abs/2601.01184v1
- Date: Sat, 03 Jan 2026 13:36:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.068296
- Title: SecureCodeRL: Security-Aware Reinforcement Learning for Code Generation with Partial-Credit Rewards
- Title(参考訳): SecureCodeRL: 部分Credit Rewardsによるコード生成のためのセキュリティ対応強化学習
- Authors: Suryansh Singh Sijwali, Suman Saha,
- Abstract要約: 本稿ではセキュリティ対応コード生成のための強化学習パイプラインSecureCodeRLを提案する。
鍵となるアイデアは、中間スコアを妥当性、実行成功、出力の生成に割り当てる部分クレジット機能報酬である。
Banditは小さな評価では見つからなかったが、セキュリティ用語はトレーニングに統合され、それらが現れると安全でないショートカットを回避できる。
- 参考スコア(独自算出の注目度): 1.5377279217726239
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) can generate plausible code, but in settings that require exact stdin/stdout behavior they frequently produce programs that compile yet fail tests, and in some cases they introduce security-sensitive patterns. This paper presents SecureCodeRL, a reinforcement learning (RL) pipeline for security-aware code generation that optimizes a combined reward R = αRfunc + \b{eta}Rsec. The key idea is a partial-credit functional reward that assigns intermediate scores for syntactic validity, successful execution, and producing output, reducing reward sparsity that otherwise stalls learning on competitive programming style tasks. I evaluate supervised fine-tuning (SFT) and PPO variants on a small held-out prompt set from APPS+ and observe that PPO with partial credit (using a continued-training variant) improves syntax validity from 45% (SFT) to 60% and achieves the only non-zero test success signal in this pilot evaluation (5% at-least-one-test-pass), while remaining 100% clean under Bandit static analysis. Although Bandit findings were absent in this small evaluation, the security term is integrated into training to discourage insecure shortcuts when they appear.
- Abstract(参考訳): LLM(Large Language Models)は、プラウチブルなコードを生成することができるが、正確な静的/静的な振る舞いを必要とする設定では、テストが失敗してもコンパイルするプログラムを頻繁に生成し、場合によってはセキュリティに敏感なパターンを導入する。
本稿では、セキュリティ対応コード生成のための強化学習(RL)パイプラインであるSecureCodeRLについて、複合報酬R = αRfunc + \b{eta}Rsecを最適化する。
鍵となるアイデアは、中間スコアを構文的妥当性、実行成功、出力の生成に割り当てる部分クレジット機能報酬であり、それ以外の場合、競合するプログラミングスタイルのタスクで学習を中断する報酬の分散を減少させる。
教師付き微調整(SFT)とPPOの変種をAPPS+から設定した小さなホールトアウトプロンプト上で評価し、部分クレジット(継続トレーニングの変種を用いて)のPPOが構文妥当性を45%(SFT)から60%に改善し、このパイロット評価(5% at-least-one-test-pass)において唯一ゼロでないテスト成功信号(5% at-least-one-test-pass)を達成するのに対して、Bandit静的解析では100%クリーンなままであることを示した。
Banditは小さな評価では見つからなかったが、セキュリティ用語はトレーニングに統合され、それらが現れると安全でないショートカットを回避できる。
関連論文リスト
- LaSeR: Reinforcement Learning with Last-Token Self-Rewarding [54.72617309922891]
RLVR(Reinforcement Learning with Verifiable Rewards)は、Large Language Models(LLM)の推論能力を高めるためのコアパラダイムとして登場した。
従来、LLMは2つの異なるプロンプトテンプレートを使用してソリューションと自己検証をシーケンシャルに生成し、効率を大幅に低下させる必要があった。
本稿では,従来のRLVR損失をMSE損失で増大させるアルゴリズムであるLaSeR(Reinforcement Learning with Last-Token Self-Rewarding)を提案する。
論文 参考訳(メタデータ) (2025-10-16T17:55:11Z) - Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。
我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。
我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文 参考訳(メタデータ) (2025-09-23T16:15:42Z) - Impact of Code Context and Prompting Strategies on Automated Unit Test Generation with Modern General-Purpose Large Language Models [0.0]
ジェネレーティブAIは、ソフトウェアエンジニアリングにおいて注目を集めている。
単体テストはテストケースの大部分を占め、しばしばスキーマ的である。
本稿では,コードコンテキストが単体テストの品質と妥当性に与える影響について検討する。
論文 参考訳(メタデータ) (2025-07-18T11:23:17Z) - AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z) - Redistributing Rewards Across Time and Agents for Multi-Agent Reinforcement Learning [14.852334980733369]
共用型マルチエージェント強化学習において、各エージェントの共用報酬への貢献を阻害する信用割り当ては重要な課題である。
本稿では、この制約から信用モデリングを分離するアプローチであるTAR(Temporal-Agent Reward Redistribution)を導入する。
本手法は,モデル精度によらず最適ポリシーが維持されることを保証するPBRSと等価であることを示す。
論文 参考訳(メタデータ) (2025-02-07T12:07:57Z) - DeVAIC: A Tool for Security Assessment of AI-generated Code [5.383910843560784]
DeVAIC (Detection of Vulnerabilities in AI Generated Code)は、AI生成のPythonコードのセキュリティを評価するツールである。
論文 参考訳(メタデータ) (2024-04-11T08:27:23Z) - $\mathcal{B}$-Coder: Value-Based Deep Reinforcement Learning for Program Synthesis [39.742755916373284]
プログラム合成は、問題仕様から正確で実行可能なプログラムを作成することを目的としている。
最近の研究は、大規模言語モデル(LLM)とともに強化学習(RL)の力を活用している。
我々の研究は価値ベースのアプローチの実現可能性を探究し、$mathcalB$-Coderの開発につながります。
論文 参考訳(メタデータ) (2023-10-04T21:40:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。