論文の概要: CourtGuard: A Model-Agnostic Framework for Zero-Shot Policy Adaptation in LLM Safety
- arxiv url: http://arxiv.org/abs/2602.22557v1
- Date: Thu, 26 Feb 2026 02:52:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.497926
- Title: CourtGuard: A Model-Agnostic Framework for Zero-Shot Policy Adaptation in LLM Safety
- Title(参考訳): CourtGuard: LLM安全性におけるゼロショットポリシー適応のためのモデルに依存しないフレームワーク
- Authors: Umid Suleymanov, Rufiz Bayramov, Suad Gafarli, Seljan Musayeva, Taghi Mammadov, Aynur Akhundlu, Murat Kantarcioglu,
- Abstract要約: CourtGuardは,安全評価をEvidentiary Debateとして再定義する検索強化マルチエージェントフレームワークである。
CourtGuardは、外部ポリシー文書に根ざした敵の議論を組織することで、7つの安全ベンチマークで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 8.24714635902347
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current safety mechanisms for Large Language Models (LLMs) rely heavily on static, fine-tuned classifiers that suffer from adaptation rigidity, the inability to enforce new governance rules without expensive retraining. To address this, we introduce CourtGuard, a retrieval-augmented multi-agent framework that reimagines safety evaluation as Evidentiary Debate. By orchestrating an adversarial debate grounded in external policy documents, CourtGuard achieves state-of-the-art performance across 7 safety benchmarks, outperforming dedicated policy-following baselines without fine-tuning. Beyond standard metrics, we highlight two critical capabilities: (1) Zero-Shot Adaptability, where our framework successfully generalized to an out-of-domain Wikipedia Vandalism task (achieving 90\% accuracy) by swapping the reference policy; and (2) Automated Data Curation and Auditing, where we leveraged CourtGuard to curate and audit nine novel datasets of sophisticated adversarial attacks. Our results demonstrate that decoupling safety logic from model weights offers a robust, interpretable, and adaptable path for meeting current and future regulatory requirements in AI governance.
- Abstract(参考訳): 大規模言語モデル(LLM)の現在の安全性メカニズムは、適応剛性に苦しむ静的で微調整された分類器に大きく依存している。
これを解決するためにCourtGuardを紹介した。CourtGuardは、Evidentiary Debateとして安全性評価を再定義する検索強化マルチエージェントフレームワークである。
外部の政策文書に根ざした敵対的な議論を組織することにより、CourtGuardは7つの安全ベンチマークで最先端のパフォーマンスを達成し、微調整なしで独自の政策フォローベースラインを上回ります。
標準メトリクス以外の2つの重要な機能として,(1)ゼロショット適応性(Zero-Shot Adaptability) – ドメイン外ウィキペディアのバダリズムタスク(90%の精度を達成する)に参照ポリシを切り替えることで,フレームワークの一般化に成功したこと,(2) 自動データキュレーションと監査(Automated Data Curation and Auditing) – CourtGuardを活用して,高度な敵攻撃の9つの新しいデータセットをキュレートし,監査する。
我々の結果は、モデルウェイトから安全ロジックを分離することで、AIガバナンスにおける現在および将来の規制要件を満たす堅牢で解釈可能な、適応可能なパスが提供されることを実証している。
関連論文リスト
- Steering Externalities: Benign Activation Steering Unintentionally Increases Jailbreak Risk for Large Language Models [62.16655896700062]
活性化ステアリングは大規模言語モデル(LLM)の有用性を高める技術である
重要かつ過度に調査された安全リスクを無意識に導入することを示します。
実験によると、これらの介入は強制乗算器として機能し、ジェイルブレイクに新たな脆弱性を発生させ、標準ベンチマークで攻撃成功率を80%以上向上させる。
論文 参考訳(メタデータ) (2026-02-03T12:32:35Z) - ReasAlign: Reasoning Enhanced Safety Alignment against Prompt Injection Attack [52.17935054046577]
本稿では、間接的インジェクション攻撃に対する安全性アライメントを改善するためのモデルレベルのソリューションであるReasAlignを提案する。
ReasAlignには、ユーザクエリの分析、競合する命令の検出、ユーザの意図したタスクの継続性を維持するための構造化された推論ステップが組み込まれている。
論文 参考訳(メタデータ) (2026-01-15T08:23:38Z) - SecureCAI: Injection-Resilient LLM Assistants for Cybersecurity Operations [0.0]
本稿では,SecureCAIについて紹介する。SecureCAIは,セキュリティに配慮したガードレールによって,憲法上のAI原則を拡張した新しい防御フレームワークである。
SecureCAIはベースラインモデルと比較して攻撃成功率を94.7%削減する。
論文 参考訳(メタデータ) (2026-01-12T18:59:45Z) - SafeR-CLIP: Mitigating NSFW Content in Vision-Language Models While Preserving Pre-Trained Knowledge [51.634837361795434]
SaFeR-CLIPは安全性と性能を調整し、以前の方法に比べて最大8.0%のゼロショット精度を回復する。
NSFW-Capsは、分散シフト下での安全性をテストするために、1000の高度に整合したペアの新しいベンチマークである。
論文 参考訳(メタデータ) (2025-11-20T19:00:15Z) - CARE: Decoding Time Safety Alignment via Rollback and Introspection Intervention [68.95008546581339]
Contrastive Decodingのような既存のデコーディングタイムの介入は、安全と応答品質の間に深刻なトレードオフを強いることが多い。
本稿では,3つの重要なコンポーネントを統合した,復号時安全アライメントのための新しいフレームワークであるCAREを提案する。
このフレームワークは、安全性、品質、効率のバランスが良く、有害な応答率が低く、ユーザエクスペリエンスを最小限に破壊できる。
論文 参考訳(メタデータ) (2025-09-01T04:50:02Z) - IntentionReasoner: Facilitating Adaptive LLM Safeguards through Intent Reasoning and Selective Query Refinement [35.904652937034136]
IntentionReasonerは、専用ガードモデルを利用して意図的推論を行う新しいセーフガード機構である。
IntentionReasonerは、複数のセーフガードベンチマーク、生成品質評価、ジェイルブレイク攻撃シナリオに優れています。
論文 参考訳(メタデータ) (2025-08-27T16:47:31Z) - Provably Secure Retrieval-Augmented Generation [7.412110686946628]
本稿では,RAG(Retrieval-Augmented Generation)システムのための,信頼性の高い最初のフレームワークを提案する。
我々のフレームワークは、検索したコンテンツとベクトル埋め込みの両方の二重保護を保証するために、プレストレージのフル暗号化方式を採用している。
論文 参考訳(メタデータ) (2025-08-01T21:37:16Z) - FedStrategist: A Meta-Learning Framework for Adaptive and Robust Aggregation in Federated Learning [0.10241134756773229]
フェデレートラーニング(FL)は、プライバシ保護のための協調AIのパラダイムを提供するが、その分散された性質は、毒殺攻撃をモデル化するための重大な脆弱性を生み出している。
本稿では、ロバストアグリゲーションをリアルタイムでコストを意識した制御問題として再編成する新しいメタラーニングフレームワークであるFedStrategistを紹介する。
論文 参考訳(メタデータ) (2025-07-18T18:53:26Z) - Context Reasoner: Incentivizing Reasoning Capability for Contextualized Privacy and Safety Compliance via Reinforcement Learning [53.92712851223158]
安全とプライバシの問題を文脈整合性(CI)理論に従って文脈整合性問題に定式化する。
CIフレームワークの下では、当社のモデルを3つの重要な規制基準 – EU AI ActとHIPAA – に整合させています。
我々は、安全・プライバシー基準の遵守を高めつつ、文脈推論能力を高めるためにルールベースの報酬を持つ強化学習(RL)を採用している。
論文 参考訳(メタデータ) (2025-05-20T16:40:09Z) - Auction-Based Regulation for Artificial Intelligence [28.86995747151915]
規制当局は、AIの展開が壊れた後に残された安全、偏見、法的な破片をゆっくりと拾い上げている。
本稿では,デバイスに適合したモデルをデプロイする動機付けを確実に行う,オークションベースの規制機構を提案する。
規制入札は,基準規制機構と比較して,コンプライアンス率を20%,参加率を15%向上させることを示す。
論文 参考訳(メタデータ) (2024-10-02T17:57:02Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。