論文の概要: SmartCoder-R1: Towards Secure and Explainable Smart Contract Generation with Security-Aware Group Relative Policy Optimization
- arxiv url: http://arxiv.org/abs/2509.09942v1
- Date: Fri, 12 Sep 2025 03:14:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:07.965899
- Title: SmartCoder-R1: Towards Secure and Explainable Smart Contract Generation with Security-Aware Group Relative Policy Optimization
- Title(参考訳): SmartCoder-R1:Security-Aware Group Relative Policy Optimizationによるセキュアで説明可能なスマートコントラクト生成を目指す
- Authors: Lei Yu, Jingyuan Zhang, Xin Wang, Jiajia Ma, Li Yang, Fengjun Zhang,
- Abstract要約: 本稿では,スマートコントラクト生成をセキュアかつ説明可能なフレームワークであるSmartCoder-R1を提案する。
我々は、人間のセキュリティ分析をエミュレートするためにモデルを訓練する。
SmartCoder-R1は、テクニックの新たな状態を確立し、5つの主要なメトリクスで最高のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 18.013438474903314
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Smart contracts automate the management of high-value assets, where vulnerabilities can lead to catastrophic financial losses. This challenge is amplified in Large Language Models (LLMs) by two interconnected failures: they operate as unauditable "black boxes" lacking a transparent reasoning process, and consequently, generate code riddled with critical security vulnerabilities. To address both issues, we propose SmartCoder-R1 (based on Qwen2.5-Coder-7B), a novel framework for secure and explainable smart contract generation. It begins with Continual Pre-training (CPT) to specialize the model. We then apply Long Chain-of-Thought Supervised Fine-Tuning (L-CoT SFT) on 7,998 expert-validated reasoning-and-code samples to train the model to emulate human security analysis. Finally, to directly mitigate vulnerabilities, we employ Security-Aware Group Relative Policy Optimization (S-GRPO), a reinforcement learning phase that refines the generation policy by optimizing a weighted reward signal for compilation success, security compliance, and format correctness. Evaluated against 17 baselines on a benchmark of 756 real-world functions, SmartCoder-R1 establishes a new state of the art, achieving top performance across five key metrics: a ComPass of 87.70%, a VulRate of 8.60%, a SafeAval of 80.16%, a FuncRate of 53.84%, and a FullRate of 50.53%. This FullRate marks a 45.79% relative improvement over the strongest baseline, DeepSeek-R1. Crucially, its generated reasoning also excels in human evaluations, achieving high-quality ratings for Functionality (82.7%), Security (85.3%), and Clarity (90.7%).
- Abstract(参考訳): スマートコントラクトは、脆弱性が破滅的な財政損失につながる可能性のある高価値資産の管理を自動化する。
この課題は,2つの相互接続障害によって,LLM(Large Language Models)で増幅されている。
両問題に対処するため,セキュアで説明可能なスマートコントラクト生成のための新しいフレームワークであるSmartCoder-R1(Qwen2.5-Coder-7Bに基づく)を提案する。
モデルを専門化するためにCPT(Continuous Pre-Training)から始まる。
次に,Long Chain-of-Thought Supervised Fine-Tuning (L-CoT SFT) を専門家が検証した7,998個の推論・コードサンプルに適用し,人間のセキュリティ分析をエミュレートするモデルをトレーニングする。
最後に、脆弱性を直接軽減するため、私たちは、コンパイル成功、セキュリティコンプライアンス、フォーマットの正確性のために重み付けされた報酬信号を最適化することにより、生成ポリシーを洗練する強化学習フェーズであるSecurity-Aware Group Relative Policy Optimization (S-GRPO)を採用している。
756の現実世界関数のベンチマークで17のベースラインに対して評価され、SmartCoder-R1は、新しい最先端技術を確立し、ComPassの87.70%、VulRateの8.60%、SafeAvalの80.16%、FuncRateの53.84%、FullRateの50.53%の5つの主要な指標でトップパフォーマンスを達成した。
このFullRateは、最強のベースラインであるDeepSeek-R1よりも45.79%改善している。
重要な点として、その生成した推論は人間の評価に優れ、機能性(82.7%)、セキュリティ(85.3%)、明確性(90.7%)の質の高い評価を達成している。
関連論文リスト
- PRISM: Robust VLM Alignment with Principled Reasoning for Integrated Safety in Multimodality [41.04710068888387]
PRISM (Principled Reasoning for Integrated Safety in Multimodality) は、視覚言語モデル(VLM)を協調するシステム2のようなフレームワークである。
我々のフレームワークは2つの重要なコンポーネントで構成されている。PRISM-CoTは安全を意識したチェーン・オブ・プリート推論を教えるデータセットであり、PRISM-DPOはモンテカルロ木探索(MCTS)によって生成される。
総合的な評価は、PRISMの有効性を示し、Qwen2-VLのJailbreakV-28Kの0.15%、LLaVA-1.5のVLBreakの以前のベストメソッドよりも90%改善した。
論文 参考訳(メタデータ) (2025-08-26T03:45:19Z) - MalCodeAI: Autonomous Vulnerability Detection and Remediation via Language Agnostic Code Reasoning [0.0]
MalCodeAIは、自律的なコードセキュリティ分析と修復のための言語に依存しないパイプラインである。
コード分解と意味推論をQwen2.5-Coder-3B-Instructモデルで組み合わせる。
MalCodeAIは、レッドハットスタイルのエクスプロイトトレース、CVSSベースのリスクスコアリング、ゼロショットの一般化をサポートし、複雑なゼロデイ脆弱性を検出する。
論文 参考訳(メタデータ) (2025-07-15T01:25:04Z) - Decompiling Smart Contracts with a Large Language Model [51.49197239479266]
Etherscanの78,047,845のスマートコントラクトがデプロイされているにも関わらず(2025年5月26日現在)、わずか767,520 (1%)がオープンソースである。
この不透明さは、オンチェーンスマートコントラクトバイトコードの自動意味解析を必要とする。
バイトコードを可読でセマンティックに忠実なSolidityコードに変換する,先駆的な逆コンパイルパイプラインを導入する。
論文 参考訳(メタデータ) (2025-06-24T13:42:59Z) - A Preference-Driven Methodology for High-Quality Solidity Code Generation [11.139579355590332]
textbfmytitleは、人間の好みを超えて標準DPOを拡張して、定量化されたブロックチェーン固有のメトリクスを組み込む新しいフレームワークである。
本稿では,Pass@k(機能的正当性),Compile@k(機能的正当性),Gas@k(ガス効率),Secure@k(セキュリティ評価)の4つの相補的指標を用いた総合的評価手法を紹介する。
私たちのフレームワークは、すべての臨界次元にわたって既存のアプローチを著しく上回り、66.7%のPass@5、58.9%のGas@5、62.5%のSecure@5を達成しています。
論文 参考訳(メタデータ) (2025-06-03T15:45:31Z) - CyberGym: Evaluating AI Agents' Cybersecurity Capabilities with Real-World Vulnerabilities at Scale [46.76144797837242]
大規模言語モデル(LLM)エージェントは、自律的なサイバーセキュリティタスクの処理において、ますます熟練している。
既存のベンチマークは不足していて、現実のシナリオをキャプチャできなかったり、スコープが限られていたりします。
我々はCyberGymを紹介した。CyberGymは1,507の現実世界の脆弱性を特徴とする大規模かつ高品質なサイバーセキュリティ評価フレームワークである。
論文 参考訳(メタデータ) (2025-06-03T07:35:14Z) - AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z) - Enhancing Smart Contract Vulnerability Detection in DApps Leveraging Fine-Tuned LLM [0.7018579932647147]
分散アプリケーション(DApps)は、スマートコントラクトの脆弱性のため、重大なセキュリティリスクに直面します。
本稿では,Large Language Models (LLM) を利用したスマートコントラクト脆弱性検出手法を提案する。
論文 参考訳(メタデータ) (2025-04-07T12:32:14Z) - SmartLLM: Smart Contract Auditing using Custom Generative AI [0.0]
本稿では,LLaMA 3.1モデルにレトリーバル拡張生成(RAG)を応用した新しいアプローチであるSmartLLMを紹介する。
ERC標準からドメイン固有の知識を統合することで、SmartLLMはMythrilやSlitherのような静的解析ツールよりも優れたパフォーマンスを実現している。
実験の結果、100%の完全なリコールと70%の精度スコアが示され、脆弱性の特定におけるモデルの堅牢性を強調した。
論文 参考訳(メタデータ) (2025-02-17T06:22:05Z) - Dual Risk Minimization: Towards Next-Level Robustness in Fine-tuning Zero-Shot Models [60.38983114420845]
本稿では、下流タスクのコア機能をよりよく保存するための二重リスク最小化(DRM)を提案する。
DRMは期待されるパフォーマンスと最悪のパフォーマンスのバランスをとり、さまざまな実世界のベンチマークで新たな最先端技術を確立します。
論文 参考訳(メタデータ) (2024-11-29T15:01:25Z) - G$^2$uardFL: Safeguarding Federated Learning Against Backdoor Attacks
through Attributed Client Graph Clustering [116.4277292854053]
Federated Learning (FL)は、データ共有なしで協調的なモデルトレーニングを提供する。
FLはバックドア攻撃に弱いため、有害なモデル重みがシステムの整合性を損なう。
本稿では、悪意のあるクライアントの識別を属性グラフクラスタリング問題として再解釈する保護フレームワークであるG$2$uardFLを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:15:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。