論文の概要: COMPASS: A Framework for Evaluating Organization-Specific Policy Alignment in LLMs
- arxiv url: http://arxiv.org/abs/2601.01836v1
- Date: Mon, 05 Jan 2026 06:57:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.830188
- Title: COMPASS: A Framework for Evaluating Organization-Specific Policy Alignment in LLMs
- Title(参考訳): CompASS: LLMにおける組織特異的ポリシーアライメント評価フレームワーク
- Authors: Dasol Choi, DongGeon Lee, Brigitta Jesica Kartono, Helena Berndt, Taeyoun Kwon, Joonwon Jang, Haon Park, Hwanjo Yu, Minsuk Kahng,
- Abstract要約: 本稿では,大規模言語モデルが組織的な許容範囲と否定範囲のポリシーに準拠しているかどうかを評価するための最初の体系的枠組みを提案する。
モデルは正当な要求を確実に処理するが、破滅的に禁止を強制することに失敗し、敵の否定主義違反の13-40%しか否定しないことを示す。
- 参考スコア(独自算出の注目度): 19.742967013586927
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: As large language models are deployed in high-stakes enterprise applications, from healthcare to finance, ensuring adherence to organization-specific policies has become essential. Yet existing safety evaluations focus exclusively on universal harms. We present COMPASS (Company/Organization Policy Alignment Assessment), the first systematic framework for evaluating whether LLMs comply with organizational allowlist and denylist policies. We apply COMPASS to eight diverse industry scenarios, generating and validating 5,920 queries that test both routine compliance and adversarial robustness through strategically designed edge cases. Evaluating seven state-of-the-art models, we uncover a fundamental asymmetry: models reliably handle legitimate requests (>95% accuracy) but catastrophically fail at enforcing prohibitions, refusing only 13-40% of adversarial denylist violations. These results demonstrate that current LLMs lack the robustness required for policy-critical deployments, establishing COMPASS as an essential evaluation framework for organizational AI safety.
- Abstract(参考訳): 医療から金融まで、大規模言語モデルが高度なエンタープライズアプリケーションにデプロイされるにつれ、組織固有のポリシーへの順守が不可欠になっている。
しかし、既存の安全評価は普遍的な害にのみ焦点が当てられている。
我々は、LCMが組織的な許容基準や拒否基準に適合するかどうかを評価するための最初の体系的枠組みであるCompASS(Company/Organization Policy Alignment Assessment)を提示する。
我々はCompASSを8つの多様な業界シナリオに適用し、戦略的に設計されたエッジケースを通じて、日常的なコンプライアンスと敵の堅牢性の両方をテストする5,920のクエリを生成し、検証する。
モデルは正当性要求(>95%の精度)を確実に処理するが、破滅的に禁止の実施に失敗し、敵の否定主義違反の13-40%しか否定しない。
これらの結果は、現在のLLMにはポリシークリティカルなデプロイメントに必要なロバスト性が欠如していることを示し、CompASSを組織AIの安全性に不可欠な評価フレームワークとして確立している。
関連論文リスト
- Training-Free Policy Violation Detection via Activation-Space Whitening in LLMs [21.5603664964501]
本稿では,政策違反検出をアウト・オブ・ディストリビューション検出問題として扱う,トレーニングフリーで効率的な手法を提案する。
ホワイトニング技術にインスパイアされた線形変換を用いて、モデルの隠れたアクティベーションをデコレーションし、平均と単位の分散をゼロに標準化する。
挑戦的な政策ベンチマークでは、既存のガードレールと微調整された推論モデルの両方を超越して、最先端の結果が得られる。
論文 参考訳(メタデータ) (2025-12-03T17:23:39Z) - Pluralistic Behavior Suite: Stress-Testing Multi-Turn Adherence to Custom Behavioral Policies [18.428149174461264]
PBSUITEは,多元的アライメント仕様に従うために,大規模言語モデルの能力を評価するために設計された動的評価スイートである。
オープンおよびクローズドソースのLLMは、単一ターン設定における行動ポリシーに頑健に固執するが、そのコンプライアンスはマルチターンの対角的相互作用において著しく弱まる。
論文 参考訳(メタデータ) (2025-11-07T06:43:01Z) - HALF: Harm-Aware LLM Fairness Evaluation Aligned with Deployment [52.374772443536045]
HALF(Harm-Aware LLM Fairness)は、現実的なアプリケーションにおけるモデルバイアスを評価し、有害度によって結果を評価するフレームワークである。
HALFは、以前のベンチマークの成功とデプロイメントの準備の整合性の間に明らかなギャップがあることを示します。
論文 参考訳(メタデータ) (2025-10-14T07:13:26Z) - Safety Compliance: Rethinking LLM Safety Reasoning through the Lens of Compliance [49.50518009960314]
既存の安全手法はアドホックな分類に依存しており、厳格で体系的な保護を欠いている。
我々は,法規を組み込んだ現実的なLLM安全シナリオを生成することで,安全コンプライアンスのための新しいベンチマークを開発する。
本実験は,新しいベンチマークにおいて,コンプライアンス・リゾネータが優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2025-09-26T12:11:29Z) - Context Reasoner: Incentivizing Reasoning Capability for Contextualized Privacy and Safety Compliance via Reinforcement Learning [53.92712851223158]
安全とプライバシの問題を文脈整合性(CI)理論に従って文脈整合性問題に定式化する。
CIフレームワークの下では、当社のモデルを3つの重要な規制基準 – EU AI ActとHIPAA – に整合させています。
我々は、安全・プライバシー基準の遵守を高めつつ、文脈推論能力を高めるためにルールベースの報酬を持つ強化学習(RL)を採用している。
論文 参考訳(メタデータ) (2025-05-20T16:40:09Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - Trustworthy LLMs: a Survey and Guideline for Evaluating Large Language Models' Alignment [35.42539816648068]
本稿では,大規模言語モデル(LLM)の評価において考慮すべき重要な要素について,包括的に調査する。
この調査は、信頼性、安全性、公正性、誤用に対する抵抗性、説明可能性と推論、社会的規範への固執、堅牢性の7つの主要なカテゴリーをカバーしている。
結果は、一般に、より整合したモデルは、全体的な信頼性の観点から、より良いパフォーマンスを示す傾向があることを示している。
論文 参考訳(メタデータ) (2023-08-10T06:43:44Z) - Towards a multi-stakeholder value-based assessment framework for
algorithmic systems [76.79703106646967]
我々は、価値間の近さと緊張を可視化する価値に基づくアセスメントフレームワークを開発する。
我々は、幅広い利害関係者に評価と検討のプロセスを開放しつつ、それらの運用方法に関するガイドラインを提示する。
論文 参考訳(メタデータ) (2022-05-09T19:28:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。