論文の概要: Scaling Policy Compliance Assessment in Language Models with Policy Reasoning Traces
- arxiv url: http://arxiv.org/abs/2509.23291v1
- Date: Sat, 27 Sep 2025 13:10:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.143353
- Title: Scaling Policy Compliance Assessment in Language Models with Policy Reasoning Traces
- Title(参考訳): 政策推論トレースを用いた言語モデルにおけるポリシーコンプライアンスのスケーリング評価
- Authors: Joseph Marvin Imperial, Harish Tayyar Madabushi,
- Abstract要約: ポリシー推論トレース(英: Policy Reasoning Traces、PRT)は、LLMのポリシーコンプライアンスアセスメント能力を改善するための推論ブリッジとして機能する、特殊化された推論チェーンの一形態である。
実験により, PRTを推論時間とトレーニング時間の両方のシナリオに使用することにより, オープンウェイトモデルと商用モデルの性能が著しく向上することが示された。
- 参考スコア(独自算出の注目度): 12.671657542087624
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Policy compliance assessment is a fundamental task of evaluating whether an input case strictly complies with a set of human-defined rules, more generally known as policies. In practice, human experts follow a systematic, step-by-step process to identify violations with respect to specific stipulations outlined in the policy. However, such documentation of gold-standard, expert-level reasoning processes is costly to acquire. In this paper, we introduce Policy Reasoning Traces (PRT), a form of specialized generated reasoning chains that serve as a reasoning bridge to improve an LLM's policy compliance assessment capabilities. Our empirical evaluations demonstrate that the use of PRTs for both inference-time and training-time scenarios significantly enhances the performance of open-weight and commercial models, setting a new state-of-the-art for HIPAA and GDPR policies. Beyond accuracy gains, we also highlight how PRTs can improve an LLM's ability to accurately cite policy clauses, as well as influence compliance decisions through their high utilization from the raw chains of thought.
- Abstract(参考訳): ポリシーコンプライアンスアセスメント(英: Policy compliance Assessment)は、入力ケースが人間定義ルールのセットに厳密に準拠するかどうかを評価するための基本的なタスクである。
実際には、人間の専門家は、ポリシーで概説されている特定の規定に関して、違反を特定するための、体系的な、ステップバイステップのプロセスに従う。
しかし、金本位、専門家レベルの推論プロセスに関するこのような文書は、入手するのにコストがかかる。
本稿では, LLMのポリシーコンプライアンス評価機能を改善するための推論ブリッジとして機能する, 特殊な推論チェーンの形式であるPRT(Policy Reasoning Traces)を紹介する。
実験により,予測時間とトレーニング時間の両方のシナリオにPRTを用いることで,オープンウェイトモデルと商用モデルの性能が著しく向上し,HIPAAおよびGDPR政策の新たな最先端が確立された。
また, PRT が LLM の政策条項を正確に引用する能力を向上させるだけでなく, 考え方の生の連鎖から高い利用率でコンプライアンス決定に影響を及ぼす可能性も強調する。
関連論文リスト
- Pragmatic Policy Development via Interpretable Behavior Cloning [6.177449809243359]
本稿では,患者の行動方針の解釈可能なモデルを用いて,各患者の状態において最も頻繁に選択される行動から治療方針を導出する。
このフレームワークによって導かれるポリシーは,オフラインのRLで得られるものに対して,解釈可能な代替手段を提供することで,現在の実践を上回り得ることを実証する。
論文 参考訳(メタデータ) (2025-07-22T22:34:35Z) - Learning Deterministic Policies with Policy Gradients in Constrained Markov Decision Processes [59.27926064817273]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し,支配的仮定の下でのグローバルな最終点収束保証を享受する。
制約制御タスクにおいて,アクションベース(C-PGAE)とパラメータベース(C-PGPE)の両方を実証的に検証する。
論文 参考訳(メタデータ) (2025-06-06T10:29:05Z) - SPoRt -- Safe Policy Ratio: Certified Training and Deployment of Task Policies in Model-Free RL [54.022106606140774]
本研究では,モデルフリーでエピソードな環境において,新しいタスク固有ポリシーの安全性特性に違反する確率に制約を課す理論的結果を示す。
この境界は、時間的に拡張された性質(安全性の他に)や堅牢な制御問題にも適用できる。
本研究は,このトレードオフを実証し,経験的違反率から得られる理論的境界と後続境界とを比較した実験結果である。
論文 参考訳(メタデータ) (2025-04-08T19:09:07Z) - Rule-Guided Reinforcement Learning Policy Evaluation and Improvement [9.077163856137505]
LEGIBLEは、深層強化学習ポリシーを改善するための新しいアプローチである。
それは、部分的に象徴的な表現を構成する深いRLポリシーからルールをマイニングすることから始まる。
第2のステップでは、メタモルフィック関係として表現されたドメイン知識を用いて、マイニングされたルールを一般化する。
第3のステップは、一般化されたルールを評価し、実行時にどの一般化がパフォーマンスを改善するかを決定することである。
論文 参考訳(メタデータ) (2025-03-12T11:13:08Z) - Understanding Reference Policies in Direct Preference Optimization [50.67309013764383]
DPO(Direct Preference Optimization)は、大規模言語モデル(LLM)の微調整のための訓練手法として広く使われている。
この研究は、参照モデルやポリシーに依存しているDPOの未検討の側面を探求する。
論文 参考訳(メタデータ) (2024-07-18T17:08:10Z) - Policy Learning Using Weak Supervision [18.540550726629995]
我々は、利用可能な安価な弱監督機構を活用して、政策学習を効率的に行う統一的なフレームワークを目指しています。
我々のアプローチは、弱い監督者に過度に適合する政策を明示的に罰する。
理論的な保証に加えて、雑音の多い報酬を持つRL、弱い実演を持つBC、標準ポリシーコトレーニングなどのタスクに対する広範な評価は、我々の手法が大幅な性能改善につながることを示している。
論文 参考訳(メタデータ) (2020-10-05T02:26:08Z) - Expert-Supervised Reinforcement Learning for Offline Policy Learning and
Evaluation [21.703965401500913]
本稿では,オフライン政策学習のための不確実性定量化手法であるExpert-Supervised RL (ESRL) フレームワークを提案する。
具体的には,1)仮説テストによる安全かつ最適なポリシの学習,2)ESRLはアプリケーションコンテキストに合わせて異なるレベルのリスク逆実装を可能にし,3)後続分布を通してESRLのポリシーを解釈する方法を提案する。
論文 参考訳(メタデータ) (2020-06-23T17:43:44Z) - Efficient Evaluation of Natural Stochastic Policies in Offline
Reinforcement Learning [80.42316902296832]
行動政策から逸脱した観点から定義される自然政策の効果的な非政治的評価について検討する。
これは、ほとんどの著作が明示された政策の評価を考慮に入れている、政治外の評価に関する文献から逸脱している。
論文 参考訳(メタデータ) (2020-06-06T15:08:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。