論文の概要: Training-Free Policy Violation Detection via Activation-Space Whitening in LLMs
- arxiv url: http://arxiv.org/abs/2512.03994v1
- Date: Wed, 03 Dec 2025 17:23:39 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:07:49.040329
- Title: Training-Free Policy Violation Detection via Activation-Space Whitening in LLMs
- Title(参考訳): LLMにおける活性化空間白化による無訓練政策違反検出
- Authors: Oren Rachmil, Roy Betser, Itay Gershon, Omer Hofman, Nitay Yakoby, Yuval Meron, Idan Yankelev, Asaf Shabtai, Yuval Elovici, Roman Vainshtein,
- Abstract要約: 本稿では,政策違反検出をアウト・オブ・ディストリビューション検出問題として扱う,トレーニングフリーで効率的な手法を提案する。
ホワイトニング技術にインスパイアされた線形変換を用いて、モデルの隠れたアクティベーションをデコレーションし、平均と単位の分散をゼロに標準化する。
挑戦的な政策ベンチマークでは、既存のガードレールと微調整された推論モデルの両方を超越して、最先端の結果が得られる。
- 参考スコア(独自算出の注目度): 21.5603664964501
- License:
- Abstract: Aligning proprietary large language models (LLMs) with internal organizational policies has become an urgent priority as organizations increasingly deploy LLMs in sensitive domains such as legal support, finance, and medical services. Beyond generic safety filters, enterprises require reliable mechanisms to detect policy violations within their regulatory and operational frameworks, where breaches can trigger legal and reputational risks. Existing content moderation frameworks, such as guardrails, remain largely confined to the safety domain and lack the robustness to capture nuanced organizational policies. LLM-as-a-judge and fine-tuning approaches, though flexible, introduce significant latency and lack interpretability. To address these limitations, we propose a training-free and efficient method that treats policy violation detection as an out-of-distribution (OOD) detection problem. Inspired by whitening techniques, we apply a linear transformation to decorrelate the model's hidden activations and standardize them to zero mean and unit variance, yielding near-identity covariance matrix. In this transformed space, we use the Euclidean norm as a compliance score to detect policy violations. The method requires only the policy text and a small number of illustrative samples, which makes it light-weight and easily deployable. On a challenging policy benchmark, our approach achieves state-of-the-art results, surpassing both existing guardrails and fine-tuned reasoning models. This work provides organizations with a practical and statistically grounded framework for policy-aware oversight of LLMs, advancing the broader goal of deployable AI governance. Code is available at: https://tinyurl.com/policy-violation-detection
- Abstract(参考訳): 法的支援や金融、医療サービスなど、機密性の高い分野にLLMをますます導入するにつれて、独自の大規模言語モデル(LLM)を内部の組織政策に適合させることが、緊急の優先事項となっている。
一般的な安全フィルタ以外にも、企業は規制および運用フレームワーク内でポリシー違反を検出するための信頼性の高いメカニズムを必要としている。
ガードレールのような既存のコンテンツモデレーションフレームワークは、安全領域に限られており、曖昧な組織方針を捉えるための堅牢さが欠如している。
LLM-as-a-judgeと微調整のアプローチはフレキシブルだが、遅延が大きく、解釈性に欠ける。
これらの制約に対処するため,政策違反検出をアウト・オブ・ディストリビューション(OOD)検出問題として扱う訓練自由かつ効率的な手法を提案する。
ホワイトニング手法にインスパイアされた線形変換を適用して、モデルの隠れたアクティベーションをデコレーションし、平均と単位の分散をゼロとし、ほぼ同一の共分散行列を生成する。
この変換された空間では、ポリシー違反を検出するために、コンプライアンススコアとしてユークリッドノルムを使用します。
この方法は、ポリシーテキストと少数のイラストレーションサンプルのみを必要とするため、軽量で容易にデプロイできる。
挑戦的な政策ベンチマークでは、既存のガードレールと微調整された推論モデルの両方を超越して、最先端の結果が得られる。
この作業は、LLMのポリシーを意識した監視のための実践的で統計的に基礎付けられたフレームワークを提供し、デプロイ可能なAIガバナンスというより広範な目標を推進します。
コードは、https://tinyurl.com/policy-violation-detectionで入手できる。
関連論文リスト
- MENTOR: A Metacognition-Driven Self-Evolution Framework for Uncovering and Mitigating Implicit Risks in LLMs on Domain Tasks [17.598413159363393]
現在のアライメントの取り組みは、主に偏見、ヘイトスピーチ、暴力のような明確なリスクをターゲットにしている。
本稿では,大規模言語モデルにおける暗黙的リスクの解消と軽減を目的とした,メタ認知駆動型セルフエボリューティオンフレームワークMENTORを提案する。
我々は、ドメイン固有のリスク識別を強化するために、教育、財務、管理にまたがる9000のリスククエリをサポートするデータセットをリリースする。
論文 参考訳(メタデータ) (2025-11-10T13:51:51Z) - Safe and Compliant Cross-Market Trade Execution via Constrained RL and Zero-Knowledge Audits [0.5586191108738564]
本稿では、厳格なコンプライアンスの実施と実行品質のバランスをとるクロスマーケットアルゴリズムトレーディングシステムを提案する。
アーキテクチャは、高レベルプランナー、強化学習実行エージェント、独立コンプライアンスエージェントを含む。
対t検定による95%信頼度レベルへの影響を報告し,CVaRによる尾部リスクの検討を行った。
論文 参考訳(メタデータ) (2025-10-06T15:52:12Z) - Towards Policy-Compliant Agents: Learning Efficient Guardrails For Policy Violation Detection [25.53228630260007]
PolicyGuardBenchは、エージェントのトラジェクトリにおけるポリシー違反を検出するための約60kのサンプルのベンチマークである。
PolicyGuard-4Bは軽量のガードレールモデルであり、すべてのタスクに対して強力な検出精度を提供する。
PolicyGuardBench と PolicyGuard-4B は、Webエージェントのトラジェクトリにおけるポリシーコンプライアンスを研究するための、最初の包括的なフレームワークを提供する。
論文 参考訳(メタデータ) (2025-10-03T20:03:19Z) - Policy-as-Prompt: Turning AI Governance Rules into Guardrails for AI Agents [0.19336815376402716]
我々は、構造化されていない設計成果物(RD、TDD、コードなど)を検証可能なランタイムガードレールに変換する規制機械学習フレームワークを導入します。
Promptメソッドとしての私たちのポリシーは、これらのドキュメントを読み、ソースリンクされたポリシーツリーを構築するためのリスクコントロールです。
システムは最小限の特権とデータ最小化を強制するために構築される。
論文 参考訳(メタデータ) (2025-09-28T17:36:52Z) - On the Design of KL-Regularized Policy Gradient Algorithms for LLM Reasoning [59.11784194183928]
政策勾配アルゴリズムは大規模言語モデル(LLM)の推論能力の向上に成功している。
規則化されたポリシーグラディエント(RPG)ビューは、広く使われている$k_3$ペナルティが、正確には非正規化されたKLであることを示している。
RPG-REINFORCE with RPG-Style Clipは、DAPOよりも最大6ドル以上の絶対パーセンテージポイントの精度を向上させる。
論文 参考訳(メタデータ) (2025-05-23T06:01:21Z) - Conformal Policy Learning for Sensorimotor Control Under Distribution
Shifts [61.929388479847525]
本稿では,センサコントローラの観測値の分布変化を検知・応答する問題に焦点をあてる。
鍵となる考え方は、整合量子を入力として取ることができるスイッチングポリシーの設計である。
本稿では, 基本方針を異なる特性で切り替えるために, 共形量子関数を用いてこのようなポリシーを設計する方法を示す。
論文 参考訳(メタデータ) (2023-11-02T17:59:30Z) - Robust Multi-Agent Reinforcement Learning via Adversarial
Regularization: Theoretical Foundation and Stable Algorithms [79.61176746380718]
MARL(Multi-Agent Reinforcement Learning)はいくつかの領域で有望な結果を示している。
MARLポリシーは、しばしば堅牢性を欠き、環境の小さな変化に敏感である。
政策のリプシッツ定数を制御することにより、ロバスト性を得ることができることを示す。
政策のリプシッツ連続性を促進する新しい堅牢なMARLフレームワークであるERNIEを提案する。
論文 参考訳(メタデータ) (2023-10-16T20:14:06Z) - Trust-Region-Free Policy Optimization for Stochastic Policies [60.52463923712565]
本研究では,政策に対する信頼領域の制約が,基礎となるモノトニック改善の保証を損なうことなく,信頼領域のない制約によって安全に置き換えられることを示す。
我々は,TREFree(Trust-Region-Free Policy Optimization)と呼ばれるアルゴリズムを,信頼領域の制約が不要であるとして明示する。
論文 参考訳(メタデータ) (2023-02-15T23:10:06Z) - Privacy-Constrained Policies via Mutual Information Regularized Policy Gradients [54.98496284653234]
報酬を最大化しつつ、行動を通じて特定の機密状態変数の開示を最小限に抑えながら、報酬を最大化する政策を訓練する課題を考察する。
本稿では, 感性状態と行動の相互情報に基づく正則化器を導入することで, この問題を解決する。
プライバシ制約のあるポリシーを最適化するためのモデルベース推定器を開発した。
論文 参考訳(メタデータ) (2020-12-30T03:22:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。