論文の概要: Diagnosing Live Within-Policy Instruction Conflicts in LLM Agents with Witnessed Resolution Profiles
- arxiv url: http://arxiv.org/abs/2605.27784v1
- Date: Wed, 27 May 2026 00:09:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.614779
- Title: Diagnosing Live Within-Policy Instruction Conflicts in LLM Agents with Witnessed Resolution Profiles
- Title(参考訳): 身近な解像プロファイルを有するLLMエージェントにおける生体内命令競合の診断
- Authors: Lu Yan, Xuan Chen, Xiangyu Zhang,
- Abstract要約: LLMエージェントは、長期にわたる自然着色促進ポリシーによって管理されるが、個々に合理的なスタンディングルールは、無視できない方法で相互作用することができる。
実生活におけるルール・コンフリクトの診断について検討し、現実的な状態を共同統治できる単一のプロンプトポリシーの中でルール・ペアを見つける。
我々は、Witnessed intra-policy Rule Evaluation PipelineであるWIREを紹介する。
- 参考スコア(独自算出の注目度): 15.65681557926802
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: LLM agents are governed by long-lived natural-language prompt policies, but individually reasonable standing rules can interact in uninspected ways. We study live intra-policy rule-conflict diagnosis: finding rule pairs inside a single prompt policy that can co-govern a realistic state, and measuring how models resolve that pressure in responses or tool actions. We introduce WIRE, a Witnessed Intra-policy Rule Evaluation pipeline. WIRE extracts source-grounded rules, encodes them as PyRule clauses, uses satisfiability checks to retain same-surface hard-collision candidates, realizes those candidates as concrete co-governance witnesses, and judges model outputs against the original source-rule text. Across six public prompt policies, WIRE extracts 276 source rules and 560 atomic clauses, classifies 30,944 within-policy clause-pair comparisons, retains 170 encoded hard-collision candidate source-rule pairs, and realizes them as 1,402 concrete witnesses. In policy-only evaluation, these witnesses yield 13,335 post- generation trials where both source rules govern and both compliance labels are judgeable. Only 35.4% fall in joint compliance; 64.6% violate at least one governed source rule. These profiles are conditional diagnostics for WIRE-selected candidates, not deployment-frequency or causal excess failure estimates, but they reveal distinct policy, model, and tool-action resolution patterns.
- Abstract(参考訳): LLMエージェントは長寿命の自然言語プロンプトポリシーによって管理されるが、個々に合理的なスタンディングルールは無視できない方法で相互作用することができる。
現実的な状態を共存できる単一のプロンプトポリシー内でルールペアを見つけ、モデルが応答やツールアクションでその圧力をどのように解決するかを測定する。
我々は、Witnessed intra-policy Rule Evaluation PipelineであるWIREを紹介する。
WIREは、ソースグラウンドのルールを抽出し、PyRule節をエンコードし、同じ表面のハードコリジョン候補を保持するために満足度チェックを使用し、それらの候補を具体的な共同統治の証人として認識し、元のソースルールのテキストに対してモデル出力を判断する。
6つの公開プロンプトポリシーの中で、WIREは276のソースルールと560のアトミック節を抽出し、30,944の内的条項ペア比較を分類し、170のエンコードされたハードコリジョン候補ソースルールペアを保持し、1,402の具体的な証人として実現している。
政策のみの評価では、これらの証人は13,335回のポストジェネレーションで、ソースルールとコンプライアンスラベルの両方が判定可能である。
共同コンプライアンスは35.4%に過ぎず、64.6%は少なくとも1つのソースルールに違反している。
これらのプロファイルは、WIRE選択候補の条件付き診断であり、デプロイメント頻度や因果的過剰障害推定ではないが、異なるポリシー、モデル、ツールアクション解決パターンを明らかにしている。
関連論文リスト
- Who judges the judges? Governance from metrics: a runtime framework for continuous LLM compliance monitoring [0.0]
AIコンプライアンスに対する現在のアプローチは、適合性をバイナリな監査時間判定として扱う。
このコンプライアンス・フィクションは、EUのAI法の要件に構造的に不適合である、と我々は主張する。
規制の遵守は、行動の可観測性から連続的なシグナルとして導き出される原則であるメトリクスからのガバナンスを導入します。
論文 参考訳(メタデータ) (2026-05-23T21:21:33Z) - RuleSafe-VL: Evaluating Rule-Conditioned Decision Reasoning in Vision-Language Content Moderation [4.531887731522564]
RuleSafe-VLは、コンテンツモデレーションにおけるルール条件決定推論のベンチマークである。
93の原子規則と92の型付き規則関係を定式化し、2,166の文脈依存の画像テキストケースを生成する。
アクティベートされたルールを特定し、ルールのインタラクションを回復し、意思決定の十分性を判断し、不足したコンテキストが供給されると結果を解決する。
論文 参考訳(メタデータ) (2026-05-08T14:05:00Z) - Escaping the Agreement Trap: Defensibility Signals for Evaluating Rule-Governed AI [0.6138671548064355]
我々は、政策的正当性として評価を定式化し、Defensibility Index(DI)とAmbiguity Index(AI)を導入する。
フレームワークを複数のコミュニティで193,000以上のRedditモデレーション決定と評価コホートで検証する。
論文 参考訳(メタデータ) (2026-04-22T18:05:29Z) - Do LLMs Follow Their Own Rules? A Reflexive Audit of Self-Stated Safety Policies [0.0]
LLMは、RLHFを通じて安全ポリシーを内部化するが、これらのポリシーは公式には指定されず、検査も困難である。
既存のベンチマークは、モデルを外部標準に対して評価するが、モデルが自身のバウンダリを理解し、強制するかどうかを測定することはない。
本稿では,構造化されたプロンプトを介して,モデルが自己決定する安全ルールを抽出するフレームワークであるSNCAを紹介する。
論文 参考訳(メタデータ) (2026-04-10T10:18:45Z) - Executable Governance for AI: Translating Policies into Rules Using LLMs [1.388831902854619]
Policy-to-Tests(P2T)は、自然ポリシー文書を正規化された機械可読ルールに変換するフレームワークである。
フレームワークを単一のポリシーを超えてテストするために、一般的なフレームワーク、セクターガイダンス、エンタープライズ標準に適用します。
これらのAI生成ルールは、スパンレベルとルールレベルのメトリクスに関する強力な人間のベースラインと密接に一致し、ゴールドセットに関するロバストなアノテータ間の合意がある。
論文 参考訳(メタデータ) (2025-12-04T03:11:54Z) - Few-shot Policy (de)composition in Conversational Question Answering [54.259440408606515]
本稿では,大規模言語モデル(LLM)を用いて数ショット設定でポリシーコンプライアンスを検出するニューラルシンボリックフレームワークを提案する。
提案手法は,回答すべきサブクエストを抽出し,文脈情報から真理値を割り当て,与えられたポリシーから論理文の集合を明示的に生成することで,政策コンプライアンスに関する会話に対して健全な理由を示す。
本手法は,PCDおよび会話機械読解ベンチマークであるShARCに適用し,タスク固有の微調整を伴わずに競合性能を示す。
論文 参考訳(メタデータ) (2025-01-20T08:40:15Z) - Statistical Analysis of Policy Space Compression Problem [54.1754937830779]
政策探索手法は強化学習において重要であり、継続的な状態反応と部分的に観察可能な問題に対処するための枠組みを提供する。
政策圧縮による政策空間の削減は、学習プロセスを加速するための強力で報酬のないアプローチとして現れます。
この手法は方針空間をより小さく代表的な集合に凝縮し、元の効果のほとんどを維持している。
論文 参考訳(メタデータ) (2024-11-15T02:46:55Z) - Conformal Policy Learning for Sensorimotor Control Under Distribution
Shifts [61.929388479847525]
本稿では,センサコントローラの観測値の分布変化を検知・応答する問題に焦点をあてる。
鍵となる考え方は、整合量子を入力として取ることができるスイッチングポリシーの設計である。
本稿では, 基本方針を異なる特性で切り替えるために, 共形量子関数を用いてこのようなポリシーを設計する方法を示す。
論文 参考訳(メタデータ) (2023-11-02T17:59:30Z) - Conformal Off-Policy Evaluation in Markov Decision Processes [53.786439742572995]
強化学習は、データから効率的な制御ポリシーを特定し評価することを目的としている。
この学習タスクのほとんどの方法は、Off-Policy Evaluation (OPE)と呼ばれ、正確さと確実性を保証するものではない。
本稿では,目標方針の真報を含む区間を所定の確信度で出力するコンフォーマル予測に基づく新しいOPE手法を提案する。
論文 参考訳(メタデータ) (2023-04-05T16:45:11Z) - Policy Dispersion in Non-Markovian Environment [53.05904889617441]
本稿では,非マルコフ環境下での国家行動ペアの歴史から,多様な政策の学習を試みる。
まず、ポリシー埋め込みを学習するために、トランスフォーマーベースの手法を採用する。
次に,政策埋め込みを積み重ねて分散行列を構築し,多様な政策の集合を誘導する。
論文 参考訳(メタデータ) (2023-02-28T11:58:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。