論文の概要: Semantics-Aligned, Curriculum-Driven, and Reasoning-Enhanced Vulnerability Repair Framework
- arxiv url: http://arxiv.org/abs/2510.01002v1
- Date: Wed, 01 Oct 2025 15:09:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.631894
- Title: Semantics-Aligned, Curriculum-Driven, and Reasoning-Enhanced Vulnerability Repair Framework
- Title(参考訳): セマンティックス対応・カリキュラム駆動・推論強化脆弱性修復フレームワーク
- Authors: Chengran Yang, Ting Zhang, Jinfeng Jiang, Xin Zhou, Haoye Tian, Jieke Shi, Junkai Chen, Yikun Li, Eng Lieh Ouh, Lwin Khin Shar, David Lo,
- Abstract要約: SeCuRepairは、セマンティクスに準拠し、カリキュラム駆動で、脆弱性修復のための推論強化フレームワークである。
コアとなるSeCuRepairは、理由と脆弱性の修正方法をモデルに明記する必要がある、合理的に編集されたパラダイムを採用している。
SeCuRepairはまた、従来の教師付き微調整を超えて、セマンティックス対応の強化学習を採用している。
- 参考スコア(独自算出の注目度): 15.17681731375364
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current learning-based Automated Vulnerability Repair (AVR) approaches, while promising, often fail to generalize effectively in real-world scenarios. Our diagnostic analysis reveals three fundamental weaknesses in state-of-the-art AVR approaches: (1) limited cross-repository generalization, with performance drops on unseen codebases; (2) inability to capture long-range dependencies, causing a performance degradation on complex, multi-hunk repairs; and (3) over-reliance on superficial lexical patterns, leading to significant performance drops on vulnerabilities with minor syntactic variations like variable renaming. To address these limitations, we propose SeCuRepair, a semantics-aligned, curriculum-driven, and reasoning-enhanced framework for vulnerability repair. At its core, SeCuRepair adopts a reason-then-edit paradigm, requiring the model to articulate why and how a vulnerability should be fixed before generating the patch. This explicit reasoning enforces a genuine understanding of repair logic rather than superficial memorization of lexical patterns. SeCuRepair also moves beyond traditional supervised fine-tuning and employs semantics-aware reinforcement learning, rewarding patches for their syntactic and semantic alignment with the oracle patch rather than mere token overlap. Complementing this, a difficulty-aware curriculum progressively trains the model, starting with simple fixes and advancing to complex, multi-hunk coordinated edits. We evaluate SeCuRepair on strict, repository-level splits of BigVul and newly crafted PrimeVul_AVR datasets. SeCuRepair significantly outperforms all baselines, surpassing the best-performing baselines by 34.52% on BigVul and 31.52% on PrimeVul\textsubscript{AVR} in terms of CodeBLEU, respectively. Comprehensive ablation studies further confirm that each component of our framework contributes to its final performance.
- Abstract(参考訳): 現在の学習ベースであるAutomated Vulnerability repair(AVR)アプローチは、現実のシナリオにおいて効果的に一般化できないことが多い。
現状のAVRアプローチでは,(1)非表示コードベースのパフォーマンス低下を伴うクロスリポジトリの一般化の制限,(2)長距離依存関係のキャプチャが不可能なこと,(3)複雑でマルチハンクな修復におけるパフォーマンス劣化,(3)表面的語彙パターンへの過度な依存,といった3つの基本的弱点が指摘され,変数リネーミングのような小規模な構文的変動を伴う脆弱性に対する大幅なパフォーマンス低下につながった。
これらの制限に対処するため,セマンティックス・アラインメント,カリキュラム駆動,および脆弱性修復のための推論強化フレームワークであるSeCuRepairを提案する。
コアとなるSeCuRepairは、理由とパッチを生成する前に脆弱性をどのように修正すべきかをモデルに明記する必要がある、合理的に編集されたパラダイムを採用している。
この明示的な推論は、語彙パターンの表層記憶よりも、真の修復論理の理解を強制する。
SeCuRepairはまた、従来の教師付き微調整を超えて、単にトークンの重複ではなく、オーラクルパッチとの構文的およびセマンティックアライメントに対するパッチの報酬として、セマンティックス対応の強化学習を採用している。
これの補完として、難易度の高いカリキュラムは、簡単な修正から始まり、複雑でマルチハンクなコーディネート編集へと、モデルを段階的に訓練する。
我々は、BigVulと新たに作成されたPrimeVul_AVRデータセットの厳密なリポジトリレベルの分割に基づいてSeCuRepairを評価する。
SeCuRepairはすべてのベースラインを大きく上回り、BigVulでは34.52%、CodeBLEUではPrimeVul\textsubscript{AVR}では31.52%で最高のパフォーマンスのベースラインを上回った。
包括的アブレーション研究により、我々のフレームワークの各コンポーネントがその最終的なパフォーマンスに寄与することを確認した。
関連論文リスト
- Scalable and Robust LLM Unlearning by Correcting Responses with Retrieved Exclusions [49.55618517046225]
Webスケールのコーパスリスクを記憶し、センシティブな情報を暴露する言語モデル。
本稿では,新しいアンラーニングフレームワークであるCorrective Unlearning with Retrieved Exclusions (CURE)を提案する。
CUREは、リークのモデル出力を確認し、安全な応答に修正する。
論文 参考訳(メタデータ) (2025-09-30T09:07:45Z) - $φ^{\infty}$: Clause Purification, Embedding Realignment, and the Total Suppression of the Em Dash in Autoregressive Language Models [0.0]
自動回帰変換言語モデルにおいて,エムダッシュトークンがセマンティックドリフトを引き起こす重大な脆弱性を同定する。
本稿では,フィインフィニティ演算子とターゲット埋め込み行列を併用した記号節の浄化法を提案する。
論文 参考訳(メタデータ) (2025-06-22T18:27:39Z) - Tady: A Neural Disassembler without Structural Constraint Violations [14.794789423601552]
改良されたモデルアーキテクチャと専用の後処理アルゴリズムを備えたニューラルディスアセンブラであるTadyを紹介する。
そこで,Tadyは命令レベルの精度を維持しつつ,構造的制約違反や関数を高い効率で効果的に除去することを示した。
論文 参考訳(メタデータ) (2025-06-16T10:11:43Z) - Towards Understanding Bugs in Distributed Training and Inference Frameworks for Large Language Models [7.486731499255164]
本稿では,DeepSpeed,Megatron-LM,Colossal-AIの3つの分散トレーニング/推論フレームワークを対象に,308の固定バグの大規模解析を行った。
本研究は, バグ症状, 根本原因, バグの特定と修正の取り組み, および, 一般的な低ストレス修正戦略について検討する。
論文 参考訳(メタデータ) (2025-06-12T07:24:59Z) - AlignRAG: Leveraging Critique Learning for Evidence-Sensitive Retrieval-Augmented Reasoning [61.28113271728859]
RAGは知識ベースで大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
標準的なRAGパイプラインは、モデル推論が取得した証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
本研究では,RAGをRetrieval-Augmented Reasoningと解釈し,中心的だが未探索な問題であるtextitReasoning Misalignmentを同定する。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - Beyond Degradation Redundancy: Contrastive Prompt Learning for All-in-One Image Restoration [109.38288333994407]
コントラスト・プロンプト・ラーニング(Contrastive Prompt Learning, CPL)は、プロンプト・タスクのアライメントを根本的に強化する新しいフレームワークである。
本フレームワークは,パラメータ効率を保ちながら,新たな最先端性能を確立し,統一画像復元のための原理的ソリューションを提供する。
論文 参考訳(メタデータ) (2025-04-14T08:24:57Z) - Framework for Progressive Knowledge Fusion in Large Language Models Through Structured Conceptual Redundancy Analysis [0.0]
大規模モデルにおける潜在知識の組織化は、重なり合う表現に対処し、文脈的精度を最適化する際、ユニークな課題を生じさせる。
高度なクラスタリング技術と動的しきい値設定により,これらの冗長性を再構築するフレームワークが提案された。
評価の結果、メモリ効率が向上し、推論時間が短縮され、解釈可能性を高める潜在知識クラスタのアライメントが向上した。
論文 参考訳(メタデータ) (2025-01-23T11:34:04Z) - SINDER: Repairing the Singular Defects of DINOv2 [61.98878352956125]
大規模なデータセットでトレーニングされたビジョントランスフォーマーモデルは、抽出したパッチトークンにアーティファクトを表示することが多い。
本稿では,小さなデータセットのみを用いて構造欠陥を補正するスムーズなスムーズな正規化を提案する。
論文 参考訳(メタデータ) (2024-07-23T20:34:23Z) - Scalable Federated Unlearning via Isolated and Coded Sharding [76.12847512410767]
フェデレートされたアンラーニングは、クライアントレベルのデータエフェクトを削除するための有望なパラダイムとして登場した。
本稿では,分散シャーディングと符号化コンピューティングに基づく,スケーラブルなフェデレーション・アンラーニング・フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-29T08:41:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。