論文の概要: Context Reasoner: Incentivizing Reasoning Capability for Contextualized Privacy and Safety Compliance via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.14585v2
- Date: Thu, 04 Sep 2025 11:31:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 16:09:03.369684
- Title: Context Reasoner: Incentivizing Reasoning Capability for Contextualized Privacy and Safety Compliance via Reinforcement Learning
- Title(参考訳): コンテキスト推論:強化学習によるコンテキスト化プライバシと安全コンプライアンスのための推論能力のインセンティブ化
- Authors: Wenbin Hu, Haoran Li, Huihao Jing, Qi Hu, Ziqian Zeng, Sirui Han, Heli Xu, Tianshu Chu, Peizhao Hu, Yangqiu Song,
- Abstract要約: 安全とプライバシの問題を文脈整合性(CI)理論に従って文脈整合性問題に定式化する。
CIフレームワークの下では、当社のモデルを3つの重要な規制基準 – EU AI ActとHIPAA – に整合させています。
我々は、安全・プライバシー基準の遵守を高めつつ、文脈推論能力を高めるためにルールベースの報酬を持つ強化学習(RL)を採用している。
- 参考スコア(独自算出の注目度): 53.92712851223158
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Large Language Models (LLMs) exhibit remarkable capabilities, they also introduce significant safety and privacy risks. Current mitigation strategies often fail to preserve contextual reasoning capabilities in risky scenarios. Instead, they rely heavily on sensitive pattern matching to protect LLMs, which limits the scope. Furthermore, they overlook established safety and privacy standards, leading to systemic risks for legal compliance. To address these gaps, we formulate safety and privacy issues into contextualized compliance problems following the Contextual Integrity (CI) theory. Under the CI framework, we align our model with three critical regulatory standards: GDPR, EU AI Act, and HIPAA. Specifically, we employ reinforcement learning (RL) with a rule-based reward to incentivize contextual reasoning capabilities while enhancing compliance with safety and privacy norms. Through extensive experiments, we demonstrate that our method not only significantly enhances legal compliance (achieving a +8.58% accuracy improvement in safety/privacy benchmarks) but also further improves general reasoning capability. For OpenThinker-7B, a strong reasoning model that significantly outperforms its base model Qwen2.5-7B-Instruct across diverse subjects, our method enhances its general reasoning capabilities, with +2.05% and +8.98% accuracy improvement on the MMLU and LegalBench benchmark, respectively.
- Abstract(参考訳): LLM(Large Language Models)は、優れた機能を示す一方で、重大な安全性とプライバシのリスクも導入している。
現在の緩和戦略は、しばしばリスクのあるシナリオでコンテキスト推論能力を維持するのに失敗する。
代わりに、LLMを保護するために機密パターンマッチングに大きく依存しているため、スコープが制限される。
さらに、彼らは安全とプライバシー基準の確立を見落とし、法的コンプライアンスの体系的なリスクにつながった。
これらのギャップに対処するため、我々は安全とプライバシーの問題をコンテキスト統合(CI)理論に従ってコンテキスト化されたコンプライアンス問題に定式化する。
CIフレームワークの下では、私たちのモデルをGDPR、EU AI Act、HIPAAという3つの重要な規制基準と整合させています。
具体的には、強化学習(RL)とルールベースの報酬を併用し、安全性とプライバシー基準の遵守性を高めつつ、文脈推論能力を高める。
広範な実験を通じて,本手法は法的コンプライアンスを著しく向上するだけでなく,安全性・プライバシベンチマークの精度を+8.58%向上させるとともに,一般的な推論能力も向上することを示した。
OpenThinker-7Bは、ベースモデルであるQwen2.5-7Bよりも大幅に優れている強力な推論モデルである。この手法は、MMLUとLegalBenchのベンチマークで、それぞれ+2.05%と+8.98%の精度で、一般的な推論能力を向上させる。
関連論文リスト
- Mitigating the Safety-utility Trade-off in LLM Alignment via Adaptive Safe Context Learning [35.52517435286337]
適切なコンテキストの推論を改善するために,適応型セーフコンテキスト学習(ASCL)フレームワークを提案する。
ASCLは、安全アライメントをマルチターンツール使用プロセスとして定式化し、安全ルールをいつ参照するか、進行中の推論をどのように生成するかを自律的に決定する権限をモデルに与える。
論文 参考訳(メタデータ) (2026-02-14T02:37:36Z) - Reasoning over Precedents Alongside Statutes: Case-Augmented Deliberative Alignment for LLM Safety [59.01189713115365]
本研究は, 広範囲な安全コードを明確に指定することによる影響を, 図示的事例を通して示すことよりも評価する。
明示的なコードを参照することで、無害性が向上し、系統的に有用性が低下することがわかった。
自己生成型安全推論チェーンの強化学習を利用したLLMのケース拡張型検討アライメント手法であるCADAを提案する。
論文 参考訳(メタデータ) (2026-01-12T21:08:46Z) - Is Your Prompt Poisoning Code? Defect Induction Rates and Security Mitigation Strategies [4.435429537888066]
大規模言語モデル(LLM)は自動コード生成には不可欠だが、出力の品質とセキュリティは依然として重要な問題である。
本稿では,目標の明確性,情報の完全性,論理的整合性という3つの重要な側面を含む,迅速な品質評価フレームワークを提案する。
ユーザプロンプトの品質向上は,AI生成コードのセキュリティを強化する上で,重要かつ効果的な戦略となっている。
論文 参考訳(メタデータ) (2025-10-27T02:59:17Z) - GSPR: Aligning LLM Safeguards as Generalizable Safety Policy Reasoners [60.49708196646694]
大規模言語モデル(LLM)は、様々な領域にわたる多くのアプリケーションに統合されつつある。
本稿では,安全でない入力プロンプトとLLMの出力を不正に検出する汎用安全推論器GSPRを提案する。
我々のGSPRは、安全とカテゴリー予測の両方のタスクにおいて、既存の安全ガードレールの推論能力を大幅に改善する。
論文 参考訳(メタデータ) (2025-09-29T08:07:45Z) - Towards Safe Reasoning in Large Reasoning Models via Corrective Intervention [53.25106308403173]
既存の手法は、安全推論の独特な重要性を軽視し、信頼性を損なうとともに、悪質なユーザに対して安全でない推論がアクセス可能で、悪質なユーザによって悪用された場合、アプリケーションに潜在的なリスクを生じさせることを示す。
我々は、安全トリガー付きコンプライアンスステップを代入し、強い信号による優先学習のためのペアを構築することで、安全推論を強制するアライメント手法であるIntervened Preference Optimization (IPO)を提案する。
論文 参考訳(メタデータ) (2025-09-29T07:41:09Z) - Safety Compliance: Rethinking LLM Safety Reasoning through the Lens of Compliance [49.50518009960314]
既存の安全手法はアドホックな分類に依存しており、厳格で体系的な保護を欠いている。
我々は,法規を組み込んだ現実的なLLM安全シナリオを生成することで,安全コンプライアンスのための新しいベンチマークを開発する。
本実験は,新しいベンチマークにおいて,コンプライアンス・リゾネータが優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2025-09-26T12:11:29Z) - ARMOR: Aligning Secure and Safe Large Language Models via Meticulous Reasoning [49.47193675702453]
大規模言語モデル(LLM)は、顕著な生成能力を示している。
LLMは、安全上の制約を回避できる悪意のある命令に弱いままである。
推論に基づく安全アライメントフレームワークARMORを提案する。
論文 参考訳(メタデータ) (2025-07-14T09:05:54Z) - Towards Trustworthy Federated Learning [26.25193909843069]
本稿では,フェデレートラーニング(FL)における3つの重要な課題に対処するための包括的枠組みを開発する。
ビザンチン攻撃に対するシステムの防御を改善するため,両面のノーム・ベース・スクリーニング機構を開発した。
また、ローカルクライアントの生データが好奇心をそそる関係者によって推測されるのを防ぐために、差分プライバシーベースのスキームも採用しています。
論文 参考訳(メタデータ) (2025-03-05T17:25:20Z) - PrivaCI-Bench: Evaluating Privacy with Contextual Integrity and Legal Compliance [44.287734754038254]
生成型大規模言語モデル(LLM)のコンテキストプライバシ評価ベンチマークであるPrivaCI-Benchを提案する。
本稿では,最近の推論モデルQwQ-32BとDeepseek R1を含む最新のLCMを評価した。
実験の結果、LLMは特定のコンテキスト内で重要なCIパラメータを効果的にキャプチャできるが、プライバシコンプライアンスのさらなる進歩が必要であることが示唆された。
論文 参考訳(メタデータ) (2025-02-24T10:49:34Z) - The Hidden Risks of Large Reasoning Models: A Safety Assessment of R1 [70.94607997570729]
本稿では,OpenAI-o3およびDeepSeek-R1推論モデルの総合的安全性評価を行う。
本研究では, 現実の応用における強靭性を評価するために, ジェイルブレイクやインジェクションなどの敵攻撃に対する感受性について検討する。
論文 参考訳(メタデータ) (2025-02-18T09:06:07Z) - Assessing confidence in frontier AI safety cases [37.839615078345886]
安全ケースは、システムの安全性に関する最上位のクレームを支持する構造化された議論を示す。
これにより、トップレベルのクレームとどのレベルの信頼が結びつくべきかという疑問が持ち上がる。
提案手法は,AI開発者が優先し,議論の敗者に対する調査をより効率的に行う方法である。
論文 参考訳(メタデータ) (2025-02-09T06:35:11Z) - OpenAI o1 System Card [274.83891368890977]
o1モデルシリーズは、思考の連鎖を用いて推論するために大規模な強化学習で訓練されている。
本報告では,OpenAI o1およびOpenAI o1-miniモデルに対して実施される安全作業の概要について述べる。
論文 参考訳(メタデータ) (2024-12-21T18:04:31Z) - Deliberative Alignment: Reasoning Enables Safer Language Models [64.60765108418062]
モデルセーフティ仕様を教える新しいパラダイムであるDeliberative Alignmentを紹介します。
このアプローチを使ってOpenAIのoシリーズモデルを整列させ、人書きのチェーンや回答を必要とせず、OpenAIの安全ポリシーに極めて正確な順守を実現しました。
論文 参考訳(メタデータ) (2024-12-20T21:00:11Z) - How Privacy-Savvy Are Large Language Models? A Case Study on Compliance and Privacy Technical Review [15.15468770348023]
プライバシ情報抽出(PIE)、法および規制キーポイント検出(KPD)、質問応答(QA)などのプライバシー関連タスクにおいて、大規模言語モデルの性能を評価する。
本稿では, BERT, GPT-3.5, GPT-4, カスタムモデルなど, プライバシコンプライアンスチェックや技術プライバシレビューの実行能力について検討する。
LLMは、プライバシーレビューの自動化と規制上の相違点の特定を約束する一方で、法律標準の進化に完全に準拠する能力において、大きなギャップが持続している。
論文 参考訳(メタデータ) (2024-09-04T01:51:37Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。