論文の概要: Context Reasoner: Incentivizing Reasoning Capability for Contextualized Privacy and Safety Compliance via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.14585v1
- Date: Tue, 20 May 2025 16:40:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.583674
- Title: Context Reasoner: Incentivizing Reasoning Capability for Contextualized Privacy and Safety Compliance via Reinforcement Learning
- Title(参考訳): コンテキスト推論:強化学習によるコンテキスト化プライバシと安全コンプライアンスのための推論能力のインセンティブ化
- Authors: Wenbin Hu, Haoran Li, Huihao Jing, Qi Hu, Ziqian Zeng, Sirui Han, Heli Xu, Tianshu Chu, Peizhao Hu, Yangqiu Song,
- Abstract要約: 安全とプライバシの問題を文脈整合性(CI)理論に従って文脈整合性問題に定式化する。
CIフレームワークの下では、当社のモデルを3つの重要な規制基準 – EU AI ActとHIPAA – に整合させています。
我々は、安全・プライバシー基準の遵守を高めつつ、文脈推論能力を高めるためにルールベースの報酬を持つ強化学習(RL)を採用している。
- 参考スコア(独自算出の注目度): 41.64346961394884
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Large Language Models (LLMs) exhibit remarkable capabilities, they also introduce significant safety and privacy risks. Current mitigation strategies often fail to preserve contextual reasoning capabilities in risky scenarios. Instead, they rely heavily on sensitive pattern matching to protect LLMs, which limits the scope. Furthermore, they overlook established safety and privacy standards, leading to systemic risks for legal compliance. To address these gaps, we formulate safety and privacy issues into contextualized compliance problems following the Contextual Integrity (CI) theory. Under the CI framework, we align our model with three critical regulatory standards: GDPR, EU AI Act, and HIPAA. Specifically, we employ reinforcement learning (RL) with a rule-based reward to incentivize contextual reasoning capabilities while enhancing compliance with safety and privacy norms. Through extensive experiments, we demonstrate that our method not only significantly enhances legal compliance (achieving a +17.64% accuracy improvement in safety/privacy benchmarks) but also further improves general reasoning capability. For OpenThinker-7B, a strong reasoning model that significantly outperforms its base model Qwen2.5-7B-Instruct across diverse subjects, our method enhances its general reasoning capabilities, with +2.05% and +8.98% accuracy improvement on the MMLU and LegalBench benchmark, respectively.
- Abstract(参考訳): LLM(Large Language Models)は、優れた機能を示す一方で、重大な安全性とプライバシのリスクも導入している。
現在の緩和戦略は、しばしばリスクのあるシナリオでコンテキスト推論能力を維持するのに失敗する。
代わりに、LLMを保護するために機密パターンマッチングに大きく依存しているため、スコープが制限される。
さらに、彼らは安全とプライバシー基準の確立を見落とし、法的コンプライアンスの体系的なリスクにつながった。
これらのギャップに対処するため、我々は安全とプライバシーの問題をコンテキスト統合(CI)理論に従ってコンテキスト化されたコンプライアンス問題に定式化する。
CIフレームワークの下では、私たちのモデルをGDPR、EU AI Act、HIPAAという3つの重要な規制基準と整合させています。
具体的には、強化学習(RL)とルールベースの報酬を併用し、安全性とプライバシー基準の遵守性を高めつつ、文脈推論能力を高める。
広範な実験により,本手法は法的なコンプライアンスを著しく向上するだけでなく,安全性・プライバシベンチマークの精度を+17.64%向上させるとともに,一般的な推論能力の向上も図っている。
OpenThinker-7Bは、ベースモデルであるQwen2.5-7Bよりも大幅に優れている強力な推論モデルである。この手法は、MMLUとLegalBenchのベンチマークで、それぞれ+2.05%と+8.98%の精度で、一般的な推論能力を向上させる。
関連論文リスト
- Towards Trustworthy Federated Learning [26.25193909843069]
本稿では,フェデレートラーニング(FL)における3つの重要な課題に対処するための包括的枠組みを開発する。
ビザンチン攻撃に対するシステムの防御を改善するため,両面のノーム・ベース・スクリーニング機構を開発した。
また、ローカルクライアントの生データが好奇心をそそる関係者によって推測されるのを防ぐために、差分プライバシーベースのスキームも採用しています。
論文 参考訳(メタデータ) (2025-03-05T17:25:20Z) - Deliberative Alignment: Reasoning Enables Safer Language Models [64.60765108418062]
モデルセーフティ仕様を教える新しいパラダイムであるDeliberative Alignmentを紹介します。
このアプローチを使ってOpenAIのoシリーズモデルを整列させ、人書きのチェーンや回答を必要とせず、OpenAIの安全ポリシーに極めて正確な順守を実現しました。
論文 参考訳(メタデータ) (2024-12-20T21:00:11Z) - How Privacy-Savvy Are Large Language Models? A Case Study on Compliance and Privacy Technical Review [15.15468770348023]
プライバシ情報抽出(PIE)、法および規制キーポイント検出(KPD)、質問応答(QA)などのプライバシー関連タスクにおいて、大規模言語モデルの性能を評価する。
本稿では, BERT, GPT-3.5, GPT-4, カスタムモデルなど, プライバシコンプライアンスチェックや技術プライバシレビューの実行能力について検討する。
LLMは、プライバシーレビューの自動化と規制上の相違点の特定を約束する一方で、法律標準の進化に完全に準拠する能力において、大きなギャップが持続している。
論文 参考訳(メタデータ) (2024-09-04T01:51:37Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。