論文の概要: PRM-Free Security Alignment of Large Models via Red Teaming and Adversarial Training
- arxiv url: http://arxiv.org/abs/2507.14202v1
- Date: Mon, 14 Jul 2025 17:41:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:31.761178
- Title: PRM-Free Security Alignment of Large Models via Red Teaming and Adversarial Training
- Title(参考訳): レッドチームと対抗訓練による大規模モデルのPRMフリーセキュリティアライメント
- Authors: Pengfei Du,
- Abstract要約: 大規模言語モデル(LLM)は、多様なアプリケーションにまたがる顕著な機能を示しているが、重要なドメインへの安全なデプロイを脅かす重大なセキュリティリスクを伴っている。
本稿では,計算効率を維持しつつ,堅牢なセキュリティ保証を実現するために,自動化されたレッドチームと敵のトレーニングを活用する新しいPRMフリーセキュリティアライメントフレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.5439020425819
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable capabilities across diverse applications, yet they pose significant security risks that threaten their safe deployment in critical domains. Current security alignment methodologies predominantly rely on Process Reward Models (PRMs) to evaluate intermediate reasoning steps, introducing substantial computational overhead and scalability constraints. This paper presents a novel PRM-free security alignment framework that leverages automated red teaming and adversarial training to achieve robust security guarantees while maintaining computational efficiency. Our approach systematically identifies vulnerabilities through sophisticated attack strategies including genetic algorithm optimization, multi-agent simulation, and advanced prompt mutation techniques. The framework enhances model robustness via targeted adversarial training with curriculum learning and adaptive regularization mechanisms. Comprehensive experimental evaluation across five state-of-the-art LLMs demonstrates that our method achieves superior security alignment performance compared to PRM-based approaches while reducing computational costs by 61\%. The framework incorporates transparent reporting and continuous audit mechanisms that enable iterative security improvement and regulatory compliance. Our contributions advance the field of efficient LLM security alignment by democratizing access to robust security measures for resource-constrained organizations and providing a scalable foundation for addressing evolving adversarial threats.
- Abstract(参考訳): 大規模言語モデル(LLM)は、多様なアプリケーションにまたがる顕著な機能を示しているが、重要なドメインへの安全なデプロイを脅かす重大なセキュリティリスクを伴っている。
現在のセキュリティアライメント手法は主にプロセス・リワード・モデル (Process Reward Models, PRM) に依存して中間的推論のステップを評価し、計算上のオーバーヘッドとスケーラビリティの制約をかなり導入している。
本稿では,計算効率を維持しつつ,堅牢なセキュリティ保証を実現するために,自動化されたレッドチームと敵のトレーニングを活用する新しいPRMフリーセキュリティアライメントフレームワークを提案する。
提案手法は,遺伝的アルゴリズム最適化,マルチエージェントシミュレーション,高速突然変異手法などの高度な攻撃戦略を通じて,脆弱性を系統的に同定する。
このフレームワークは、カリキュラム学習と適応正規化機構を用いて、ターゲットとなる対人訓練を通じてモデルロバスト性を高める。
提案手法は, 計算コストを61 %削減しつつ, PRM ベースの手法と比較して, セキュリティアライメント性能が優れていることを示す。
このフレームワークには透過的な報告と継続的監査機構が含まれており、反復的なセキュリティ改善と規制コンプライアンスを可能にする。
我々の貢献は、資源制約された組織に対する堅牢なセキュリティ対策へのアクセスを民主化し、進化する敵の脅威に対処するためのスケーラブルな基盤を提供することによって、効率的なLLMセキュリティアライメントの分野を前進させます。
関連論文リスト
- Secure Tug-of-War (SecTOW): Iterative Defense-Attack Training with Reinforcement Learning for Multimodal Model Security [63.41350337821108]
マルチモーダル大規模言語モデル(MLLM)のセキュリティを高めるために,Secure Tug-of-War(SecTOW)を提案する。
SecTOWは2つのモジュールで構成される:ディフェンダーと補助攻撃者。どちらも強化学習(GRPO)を使用して反復的に訓練される。
SecTOWは、一般的な性能を維持しながら、セキュリティを大幅に改善することを示す。
論文 参考訳(メタデータ) (2025-07-29T17:39:48Z) - Enhancing Robustness of LLM-Driven Multi-Agent Systems through Randomized Smoothing [13.997409139696556]
本稿では,大型言語モデル(LLM)の安全性向上のための枠組みとして,航空宇宙などの安全クリティカル領域におけるマルチエージェントシステム(MAS)について述べる。
統計的ロバスト性証明手法であるランダム化スムーシングをMASコンセンサス・コンテキストに適用し、敵の影響下でのエージェント決定に対する確率的保証を可能にする。
論文 参考訳(メタデータ) (2025-07-05T17:26:08Z) - Advancing Embodied Agent Security: From Safety Benchmarks to Input Moderation [52.83870601473094]
エンボディード・エージェントは、複数のドメインにまたがって大きな潜在能力を示す。
既存の研究は主に、一般的な大言語モデルのセキュリティに重点を置いている。
本稿では, エンボディエージェントの保護を目的とした新しい入力モデレーションフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-22T08:34:35Z) - Exposing the Ghost in the Transformer: Abnormal Detection for Large Language Models via Hidden State Forensics [5.384257830522198]
重要なアプリケーションにおける大規模言語モデル(LLM)は、重大な信頼性とセキュリティリスクを導入している。
これらの脆弱性は悪意あるアクターによって武器化され、不正アクセス、広範囲にわたる誤報、システムの完全性を侵害した。
本研究では,LLMの異常な挙動を隠蔽法で検出する手法を提案する。
論文 参考訳(メタデータ) (2025-04-01T05:58:14Z) - Efficient Safety Alignment of Large Language Models via Preference Re-ranking and Representation-based Reward Modeling [84.00480999255628]
大規模言語モデル(LLM)の安全性アライメントのための強化学習アルゴリズムは,分散シフトの課題に直面している。
現在のアプローチでは、ターゲットポリシーからのオンラインサンプリングを通じてこの問題に対処するのが一般的である。
モデル固有の安全判断能力を活用して報酬信号を抽出する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-13T06:40:34Z) - Global Challenge for Safe and Secure LLMs Track 1 [57.08717321907755]
LLM(Global Challenge for Safe and Secure Large Language Models)は、AI Singapore(AISG)とCyberSG R&D Programme Office(CRPO)が主催する先駆的イニシアチブである。
本稿では,AI Singapore(AISG)とCyberSG R&D Programme Office(CRPO)が組織した先駆的イニシアチブであるLLM(Global Challenge for Safe and Secure Large Language Models)を紹介する。
論文 参考訳(メタデータ) (2024-11-21T08:20:31Z) - PenHeal: A Two-Stage LLM Framework for Automated Pentesting and Optimal Remediation [18.432274815853116]
PenHealは2段階のLSMベースのフレームワークで、自律的に脆弱性を特定してセキュリティを確保する。
本稿では,LLMベースの2段階フレームワークであるPenHealについて紹介する。
論文 参考訳(メタデータ) (2024-07-25T05:42:14Z) - Securing Federated Learning with Control-Flow Attestation: A Novel Framework for Enhanced Integrity and Resilience against Adversarial Attacks [2.28438857884398]
分散機械学習パラダイムとしてのフェデレートラーニング(FL)は、新たなサイバーセキュリティ課題を導入した。
本研究では,従来サイバーセキュリティに用いられてきた制御フロー(CFA)機構にインスパイアされた,革新的なセキュリティフレームワークを提案する。
我々は、ネットワーク全体にわたるモデル更新の完全性を認証し、検証し、モデル中毒や敵対的干渉に関連するリスクを効果的に軽減する。
論文 参考訳(メタデータ) (2024-03-15T04:03:34Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Constraints Satisfiability Driven Reinforcement Learning for Autonomous
Cyber Defense [7.321728608775741]
強化学習(RL)の防御政策の最適化と検証を目的とした新しいハイブリッド自律エージェントアーキテクチャを紹介します。
我々は、安全かつ効果的な行動に向けてRL決定を操るために、制約検証(SMT(Satisfiability modulo theory))を用いる。
シミュレーションCPS環境における提案手法の評価は,エージェントが最適方針を迅速に学習し,99%のケースで多種多様な攻撃戦略を破ることを示す。
論文 参考訳(メタデータ) (2021-04-19T01:08:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。