論文の概要: Safety Compliance: Rethinking LLM Safety Reasoning through the Lens of Compliance
- arxiv url: http://arxiv.org/abs/2509.22250v1
- Date: Fri, 26 Sep 2025 12:11:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.409313
- Title: Safety Compliance: Rethinking LLM Safety Reasoning through the Lens of Compliance
- Title(参考訳): 安全コンプライアンス:コンプライアンスのレンズを通してLCMの安全推論を再考する
- Authors: Wenbin Hu, Huihao Jing, Haochen Shi, Haoran Li, Yangqiu Song,
- Abstract要約: 既存の安全手法はアドホックな分類に依存しており、厳格で体系的な保護を欠いている。
我々は,法規を組み込んだ現実的なLLM安全シナリオを生成することで,安全コンプライアンスのための新しいベンチマークを開発する。
本実験は,新しいベンチマークにおいて,コンプライアンス・リゾネータが優れた性能を発揮することを示す。
- 参考スコア(独自算出の注目度): 49.50518009960314
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The proliferation of Large Language Models (LLMs) has demonstrated remarkable capabilities, elevating the critical importance of LLM safety. However, existing safety methods rely on ad-hoc taxonomy and lack a rigorous, systematic protection, failing to ensure safety for the nuanced and complex behaviors of modern LLM systems. To address this problem, we solve LLM safety from legal compliance perspectives, named safety compliance. In this work, we posit relevant established legal frameworks as safety standards for defining and measuring safety compliance, including the EU AI Act and GDPR, which serve as core legal frameworks for AI safety and data security in Europe. To bridge the gap between LLM safety and legal compliance, we first develop a new benchmark for safety compliance by generating realistic LLM safety scenarios seeded with legal statutes. Subsequently, we align Qwen3-8B using Group Policy Optimization (GRPO) to construct a safety reasoner, Compliance Reasoner, which effectively aligns LLMs with legal standards to mitigate safety risks. Our comprehensive experiments demonstrate that the Compliance Reasoner achieves superior performance on the new benchmark, with average improvements of +10.45% for the EU AI Act and +11.85% for GDPR.
- Abstract(参考訳): LLM(Large Language Models)の拡散は、LLMの安全性の重要さを増している。
しかし、既存の安全法はアドホックな分類に依存しており、厳密で体系的な保護が欠如しており、現代のLLMシステムの曖昧で複雑な行動の安全性を確保できなかった。
この問題に対処するため、法的なコンプライアンスの観点からLLMの安全性を解決し、安全コンプライアンスと命名する。
本研究では、欧州におけるAIの安全性とデータセキュリティのための中核的な法的枠組みとして機能するEUのAI法やGDPRなど、安全コンプライアンスの定義と測定のための安全基準として、確立された法的枠組みを規定する。
LLMの安全性と法的コンプライアンスのギャップを埋めるために、我々はまず、法規でシードされた現実的なLLMの安全性シナリオを生成することによって、安全コンプライアンスのための新しいベンチマークを開発する。
その後、グループポリシー最適化(GRPO)を用いてQwen3-8Bを調整し、安全性のリスクを軽減するための法的基準とLLMを効果的に整合するコンプライアンス・推論器を構築する。
我々の包括的な実験は、コンプライアンス・リゾナーが、EU AI法では+10.45%、GDPRでは+11.85%、新しいベンチマークでは優れたパフォーマンスを達成していることを示している。
関連論文リスト
- Measuring What Matters: A Framework for Evaluating Safety Risks in Real-World LLM Applications [0.0]
本稿では,大規模言語モデル(LLM)におけるアプリケーションレベルの安全性を評価するための実践的フレームワークを提案する。
提案したフレームワークが社内パイロットにどのように適用されたのかを説明し、安全テストの取り組みのスケールアップを目指す組織に対して、基準ポイントを提供する。
論文 参考訳(メタデータ) (2025-07-13T22:34:20Z) - Context Reasoner: Incentivizing Reasoning Capability for Contextualized Privacy and Safety Compliance via Reinforcement Learning [53.92712851223158]
安全とプライバシの問題を文脈整合性(CI)理論に従って文脈整合性問題に定式化する。
CIフレームワークの下では、当社のモデルを3つの重要な規制基準 – EU AI ActとHIPAA – に整合させています。
我々は、安全・プライバシー基準の遵守を高めつつ、文脈推論能力を高めるためにルールベースの報酬を持つ強化学習(RL)を採用している。
論文 参考訳(メタデータ) (2025-05-20T16:40:09Z) - A Framework for Benchmarking and Aligning Task-Planning Safety in LLM-Based Embodied Agents [13.225168384790257]
大規模言語モデル(LLM)は、エンボディエージェント内のタスク計画能力を向上する上で大きな可能性を秘めている。
我々は, LLMをベースとしたエンボディエージェントの挙動を, セーフプランベンチとアライメントのための統合フレームワークであるSafe-BeAlを提案する。
我々の経験的分析によると、敵対的な入力や悪意がなくても、LSMベースのエージェントは安全でない行動を示すことができる。
論文 参考訳(メタデータ) (2025-04-20T15:12:14Z) - On Almost Surely Safe Alignment of Large Language Models at Inference-Time [20.5164976103514]
安全応答をほぼ確実に生成することを目的とした,LLMに対する新しい推論時間アライメント手法を提案する。
我々は、安全制約の進化を追跡し、安全でない世代を動的に罰する安全状態を強化する。
我々は,潜在空間におけるMDPを十分に大きな罰則で解く際に,与えられたコストモデルに対して公式な安全保証を示す。
論文 参考訳(メタデータ) (2025-02-03T09:59:32Z) - Global Challenge for Safe and Secure LLMs Track 1 [57.08717321907755]
LLM(Global Challenge for Safe and Secure Large Language Models)は、AI Singapore(AISG)とCyberSG R&D Programme Office(CRPO)が主催する先駆的イニシアチブである。
本稿では,AI Singapore(AISG)とCyberSG R&D Programme Office(CRPO)が組織した先駆的イニシアチブであるLLM(Global Challenge for Safe and Secure Large Language Models)を紹介する。
論文 参考訳(メタデータ) (2024-11-21T08:20:31Z) - Towards Assuring EU AI Act Compliance and Adversarial Robustness of LLMs [1.368472250332885]
大規模な言語モデルは誤用しがちで、セキュリティの脅威に弱い。
欧州連合の人工知能法は、特定の文脈においてAIの堅牢性を強制しようとするものである。
論文 参考訳(メタデータ) (2024-10-04T18:38:49Z) - S-Eval: Towards Automated and Comprehensive Safety Evaluation for Large Language Models [46.148439517272024]
生成型大規模言語モデル (LLMs) は、自然言語処理に革命をもたらした。
最近の証拠は、LLMが社会規範に反する有害なコンテンツを生成できることを示している。
S-Evalは,新たに定義された包括的リスク分類を持つ自動安全評価フレームワークである。
論文 参考訳(メタデータ) (2024-05-23T05:34:31Z) - Towards Comprehensive Post Safety Alignment of Large Language Models via Safety Patching [74.62818936088065]
textscSafePatchingは包括的なPSAのための新しいフレームワークである。
textscSafePatchingはベースラインメソッドよりも包括的なPSAを実現する。
textscSafePatchingは、連続的なPSAシナリオにおいて、その優位性を示している。
論文 参考訳(メタデータ) (2024-05-22T16:51:07Z) - SafetyBench: Evaluating the Safety of Large Language Models [54.878612385780805]
SafetyBenchは、大規模言語モデル(LLM)の安全性を評価するための包括的なベンチマークである。
11,435 の多様な選択質問が 7 つの異なるカテゴリーの安全問題にまたがっている。
ゼロショット設定と少数ショット設定の両方で、中国語と英語のLLMを25回以上テストしたところ、GPT-4よりも大幅にパフォーマンス上の優位性を示しました。
論文 参考訳(メタデータ) (2023-09-13T15:56:50Z) - Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。
安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文 参考訳(メタデータ) (2023-04-20T16:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。