論文の概要: Inverting the Shield: Systematically Generating Safety Tests from Policy Specifications
- arxiv url: http://arxiv.org/abs/2605.24883v1
- Date: Sun, 24 May 2026 05:51:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.492429
- Title: Inverting the Shield: Systematically Generating Safety Tests from Policy Specifications
- Title(参考訳): シールドの反転:政策仕様から安全試験を体系的に生成する
- Authors: Xiaoyue Lu, Xianglin Yang, Haijun Liu, Jiahao Liu, Kuntai Cai, Yan Xiao, Jin Song Dong,
- Abstract要約: 我々は、仕様ベースのソフトウェアテストの厳格さをAIの安全性にもたらす新しいフレームワークを紹介します。
POLARISは、構造化されていない自然言語ポリシーを第一次論理表現にコンパイルし、高レベルのルールと具体的なテストケースの間のトレース可能なリンクを確立する。
この形式化により、複雑なポリシー違反シナリオをトラバース可能なパスとしてエンコードするセマンティックポリシーグラフの構築が可能になる。
実験により、POLARISは確立されたベースラインよりも高いポリシーカバレッジとアタック成功数を達成することが示された。
- 参考スコア(独自算出の注目度): 34.429470292997145
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The widespread integration of Large Language Models (LLMs) necessitates rigorous and systematic safety evaluation. Existing paradigms either rely on constructed benchmarks to assess safety from predefined perspectives, or employ dynamic red-teaming to probe potential vulnerabilities. While effective, these approaches face challenges, as they depend heavily on expert domain knowledge, offer limited systematic guarantees, and are vulnerable to rapid obsolescence. To address these limitations, we introduce a novel framework POLARIS that brings the rigor of specification-based software testing to AI safety. POLARIS first compiles unstructured natural-language policies into First-Order Logic (FOL) representations, establishing a traceable link between high-level rules and concrete test cases. This formalization enables the construction of a Semantic Policy Graph, where complex policy violation scenarios are encoded as traversable paths. By systematically exploring this graph, POLARIS uncovers compositional violation patterns, which are then instantiated into executable natural-language test queries, enabling coverage-driven and reproducible safety testing. Experiments demonstrate that POLARIS achieves higher policy coverage and attack success counts compared to established baselines. Crucially, by bridging formal methods and AI safety, POLARIS provides a principled, automated approach to ensuring LLMs adhere to safety-critical policies with verifiable traceability. We release our code at https://github.com/huac-lxy/POLARIS.
- Abstract(参考訳): LLM(Large Language Models)の広範な統合は、厳密で体系的な安全性評価を必要とする。
既存のパラダイムは、事前に定義された視点から安全性を評価するために構築されたベンチマークに依存するか、潜在的な脆弱性を調査するために動的レッドチームを使用する。
これらのアプローチは効果的な一方で、専門家のドメイン知識に大きく依存しているため、体系的な保証が限られており、急激な陳腐化に弱いため、課題に直面します。
これらの制限に対処するために、仕様ベースのソフトウェアテストの厳格さをAIの安全性にもたらす新しいフレームワークPOLARISを紹介します。
POLARISは、構造化されていない自然言語ポリシーを第一次論理(FOL)表現にコンパイルし、高レベルのルールと具体的なテストケースの間のトレース可能なリンクを確立する。
この形式化により、複雑なポリシー違反シナリオをトラバース可能なパスとしてエンコードするセマンティックポリシーグラフの構築が可能になる。
このグラフを体系的に探索することで、POLARISは構成違反パターンを明らかにし、それが実行可能自然言語テストクエリにインスタンス化され、カバレッジ駆動で再現可能な安全性テストを可能にする。
実験により、POLARISは確立されたベースラインよりも高いポリシーカバレッジとアタック成功数を達成することが示された。
重要なことは、形式的なメソッドとAIの安全性をブリッジすることで、POLARISは、LLMが検証可能なトレーサビリティを備えた安全クリティカルなポリシーに準拠することを保証するための原則付き、自動化されたアプローチを提供する。
コードをhttps://github.com/huac-lxy/POLARISでリリースしています。
関連論文リスト
- TAIL-Safe: Task-Agnostic Safety Monitoring for Imitation Learning Policies [1.5469452301122175]
我々は、訓練されたILポリシーを識別するための原則化されたアプローチであるTAIL-Safeを、学習タスクの完了を実証的に成功させる安全なセットとして提示する。
フランカ・エミカロボットを用いた実験では、TAIL-Safeでガイドされた場合、実行時の摂動で失敗するフローマッチングポリシーが一貫したタスク成功を達成することを示した。
論文 参考訳(メタデータ) (2026-05-02T02:16:53Z) - Safe Reinforcement Learning via Recovery-based Shielding with Gaussian Process Dynamics Models [57.006252510102506]
強化学習(Reinforcement Learning, RL)は、最適な意思決定と制御のための強力なフレームワークである。
本稿では,未知および非線形連続力学系に対する安全性を低くした安全RLを実現するための新しい回復型遮蔽フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-12T22:03:35Z) - Beyond Static Alignment: Hierarchical Policy Control for LLM Safety via Risk-Aware Chain-of-Thought [5.251527748612469]
大きな言語モデル(LLM)は、静的で一大の安全ポリシーのため、基本的な安全性のトレードオフに直面します。
我々は、明示的でリスクを意識した推論による動的安全制御のためのフレームワーク、textbfPACT(Prompt-Thought Action via Chain-of-Thought)を提案する。
論文 参考訳(メタデータ) (2026-02-06T12:20:01Z) - Training-Free Policy Violation Detection via Activation-Space Whitening in LLMs [21.5603664964501]
本稿では,政策違反検出をアウト・オブ・ディストリビューション検出問題として扱う,トレーニングフリーで効率的な手法を提案する。
ホワイトニング技術にインスパイアされた線形変換を用いて、モデルの隠れたアクティベーションをデコレーションし、平均と単位の分散をゼロに標準化する。
挑戦的な政策ベンチマークでは、既存のガードレールと微調整された推論モデルの両方を超越して、最先端の結果が得られる。
論文 参考訳(メタデータ) (2025-12-03T17:23:39Z) - Towards Safety Reasoning in LLMs: AI-agentic Deliberation for Policy-embedded CoT Data Creation [70.62656296780074]
本稿では,新しいデータ生成法であるAIDSAFE(Agenic Iterative Deliberation for Safety Reasoning)を提案する。
AIDSAFEにおけるデータリファインダーの段階は、反復的、冗長的、詐欺的思考を排除し、高品質なアウトプットを保証する。
本評価は, AIDSAFEによるCoTsが, より優れた政策順守と推論品質を実現することを示すものである。
論文 参考訳(メタデータ) (2025-05-27T21:34:40Z) - SeCodePLT: A Unified Platform for Evaluating the Security of Code GenAI [58.29510889419971]
コード生成大型言語モデル(LLM)のセキュリティリスクと能力を評価するための既存のベンチマークは、いくつかの重要な制限に直面している。
手動で検証し、高品質なシード例から始める、汎用的でスケーラブルなベンチマーク構築フレームワークを導入し、ターゲット突然変異を通じて拡張する。
このフレームワークをPython、C/C++、Javaに適用すると、44のCWEベースのリスクカテゴリと3つのセキュリティ機能にまたがる5.9k以上のサンプルデータセットであるSeCodePLTが構築されます。
論文 参考訳(メタデータ) (2024-10-14T21:17:22Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。