論文の概要: LPG: Balancing Efficiency and Policy Reasoning in Latent Policy Guardrails
- arxiv url: http://arxiv.org/abs/2605.17329v1
- Date: Sun, 17 May 2026 08:35:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:47.904207
- Title: LPG: Balancing Efficiency and Policy Reasoning in Latent Policy Guardrails
- Title(参考訳): LPG:潜在政策ガードレールの効率性と政策推論のバランスをとる
- Authors: Nanxi Li, Zhengyue Zhao, Chaowei Xiao,
- Abstract要約: 我々は,動的政策に関する世俗的な潜在政策検討を学習するガードレールフレームワークである潜在政策ガードレール(LPG)を紹介した。
政策ガードレールのベンチマークでは、LPG-4Bの平均安全性は84.5%、F1は77.9%に達した。
- 参考スコア(独自算出の注目度): 41.04710068888387
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Guardrails are a critical safety layer for modern AI systems, but their operating regime is changing. As LLMs are deployed as customized assistants, safety policies are increasingly specified at inference time by users, organizations, or regulatory contexts. This makes safety enforcement fundamentally dynamic: the guardrail should adapt to changing safety policies without retraining. Yet this requirement creates a fundamental tension: faithfully judging complex policy contexts demands reasoning capability, while practical deployment requires low-latency responses. We introduce Latent Policy Guardrail (LPG), a guardrail framework that learnssemantic latent deliberation over dynamic policies. LPG compresses the internal deliberation needed for intent interpretation and policy grounding into continuous states supervised by decision-relevant semantics. At inference time, it generates only a compact verdict anchored to the violated policy clauses, preserving auditability while avoiding the latency of explicit reasoning. Across policy guardrail benchmarks, LPG-4B reaches 84.5% average safety accuracy and 77.9% F1 by compressing deliberation into just 10 latent tokens, outperforming the strongest dynamic baseline while running roughly 11 times faster than Qwen3-4B-Thinking under the single-sample evaluation setup. Code and data are available at https://github.com/SaFo-Lab/Latent_Policy_Guard.
- Abstract(参考訳): ガードレールは現代のAIシステムにとって重要な安全レイヤだが、その運用体制は変化しつつある。
LLMがカスタマイズされたアシスタントとしてデプロイされるにつれて、ユーザや組織、あるいは規制のコンテキストによって、推論時に安全ポリシが指定されるようになった。
ガードレールは、再訓練することなく、安全ポリシーの変更に適応すべきである。
複雑なポリシーコンテキストを忠実に判断するには推論能力が必要です。
我々は,動的政策に関する世俗的な潜在政策検討を学習するガードレールフレームワークである潜在政策ガードレール(LPG)を紹介した。
LPGは、意思決定関連セマンティクスによって監督される連続状態に根ざした意図解釈と政策に必要とされる内部の熟考を圧縮する。
推論時には、違反したポリシー条項に固定されたコンパクトな判定のみを生成し、明示的な推論のレイテンシを回避しながら監査性を維持する。
政策ガードレールのベンチマーク全体では、LPG-4Bは平均安全精度84.5%、F1は77.9%に達し、単一のサンプル評価設定でQwen3-4B-Thinkingの約11倍の速さで最強のダイナミックベースラインを上回った。
コードとデータはhttps://github.com/SaFo-Lab/Latent_Policy_Guard.orgで公開されている。
関連論文リスト
- Selective Safety Steering via Value-Filtered Decoding [54.87935112120107]
大型言語モデル(LLM)は人間の価値観に合わせるように訓練されているが、その世代は安全上の制約に反する可能性がある。
既存のデコード時のステアリング手法は、しばしば不要に介入し、ベースモデルの下で安全であった世代を変更する。
安全でない応答の安全性を向上しつつ、そのような不要な介入を減らすための新しいテストタイムステアリング手法を提案する。
論文 参考訳(メタデータ) (2026-05-14T12:13:08Z) - PolicyBank: Evolving Policy Understanding for LLM Agents [51.86716874651299]
PolicyBankは構造化されたツールレベルの政策洞察を維持し、それらを反復的に洗練する。
PolicyBankは、人間の神託に対するギャップの最大82%を閉じている。
論文 参考訳(メタデータ) (2026-04-16T20:29:30Z) - Steering Frozen LLMs: Adaptive Social Alignment via Online Prompt Routing [37.86964394689924]
本稿では,システムプロンプトルーティングによる適応型社会アライメントのための統合フレームワークであるConsensus Clustering LinUCB Bandit(CCLUB)を紹介する。
CCLUBは保守的なコンセンサスクラスタリング機構を採用しており、セマンティックに近づいたがリスク分散したコンテキストにおける安全でない一般化を効果的に防いでいる。
理論的解析により,CCLUBのほぼ最適性能を示すサブ線形後悔保証が得られる。
論文 参考訳(メタデータ) (2026-03-04T08:00:16Z) - Conformal Policy Control [50.46542384484142]
我々は、安全な参照ポリシーを、最適化されているが未試験のポリシーの確率的規制として使う方法を示す。
保守的な最適化方法とは異なり、ユーザーが正しいモデルクラスを識別したとは仮定しない。
自然言語質問応答から生体分子工学まで,本研究の応用実験は,デプロイ開始当初から安全な探索が可能であることを示唆している。
論文 参考訳(メタデータ) (2026-03-02T18:54:36Z) - Training-Free Policy Violation Detection via Activation-Space Whitening in LLMs [21.5603664964501]
本稿では,政策違反検出をアウト・オブ・ディストリビューション検出問題として扱う,トレーニングフリーで効率的な手法を提案する。
ホワイトニング技術にインスパイアされた線形変換を用いて、モデルの隠れたアクティベーションをデコレーションし、平均と単位の分散をゼロに標準化する。
挑戦的な政策ベンチマークでは、既存のガードレールと微調整された推論モデルの両方を超越して、最先端の結果が得られる。
論文 参考訳(メタデータ) (2025-12-03T17:23:39Z) - Bounded Robustness in Reinforcement Learning via Lexicographic
Objectives [54.00072722686121]
強化学習における政策の堅牢性は、いかなるコストでも望ましいものではないかもしれない。
本研究では,任意の観測ノイズに対して,政策が最大限に頑健になる方法について検討する。
本稿では,どのような政策アルゴリズムにも適用可能なロバストネス誘導方式を提案する。
論文 参考訳(メタデータ) (2022-09-30T08:53:18Z) - Minimizing Safety Interference for Safe and Comfortable Automated
Driving with Distributional Reinforcement Learning [3.923354711049903]
そこで本稿では,望ましい快適さと実用性に基づいて,実行時の保守性レベルを調整可能な適応ポリシーを学習するための分散強化学習フレームワークを提案する。
提案アルゴリズムは,認識ノイズが2倍高い場合にも信頼性を向上できるポリシを学習し,非閉塞交差点における自動マージと踏切の訓練構成を示す。
論文 参考訳(メタデータ) (2021-07-15T13:36:55Z) - Lyapunov Barrier Policy Optimization [15.364174084072872]
本稿では,lyapunovベースのバリア関数を用いて,トレーニングイテレーション毎にポリシ更新をセーフセットに制限する手法であるlbpoを提案する。
また,本手法により,環境の制約に対して,エージェントの保守性を制御できる。
論文 参考訳(メタデータ) (2021-03-16T17:58:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。