論文の概要: CompliBench: Benchmarking LLM Judges for Compliance Violation Detection in Dialogue Systems
- arxiv url: http://arxiv.org/abs/2604.12312v1
- Date: Tue, 14 Apr 2026 05:42:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.263849
- Title: CompliBench: Benchmarking LLM Judges for Compliance Violation Detection in Dialogue Systems
- Title(参考訳): CompliBench: 対話システムにおけるコンプライアンス違反検出のためのLCM判定のベンチマーク
- Authors: Jingbo Yang, Guanyu Yao, Bairu Hou, Xinghan Yang, Nikolai Glushnev, Iwona Bialynicka-Birula, Duo Ding, Shiyu Chang,
- Abstract要約: CompliBenchは、マルチターン対話におけるガイドライン違反の検出とローカライズを行うLLM審査員の能力を評価するために設計された新しいベンチマークである。
ユーザとエージェントのインタラクションをシミュレートするスケーラブルで自動化されたデータ生成パイプラインを開発した。
我々の制御可能な欠陥注入プロセスは、自動的に、違反したガイドラインと正確な会話ターンの正確な接地木ラベルを出力する。
- 参考スコア(独自算出の注目度): 19.083967725767387
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Large Language Models (LLMs) are increasingly deployed as task-oriented agents in enterprise environments, ensuring their strict adherence to complex, domain-specific operational guidelines is critical. While utilizing an LLM-as-a-Judge is a promising solution for scalable evaluation, the reliability of these judges in detecting specific policy violations remains largely unexplored. This gap is primarily due to the lack of a systematic data generation method, which has been hindered by the extensive cost of fine-grained human annotation and the difficulty of synthesizing realistic agent violations. In this paper, we introduce CompliBench, a novel benchmark designed to evaluate the ability of LLM judges to detect and localize guideline violations in multi-turn dialogues. To overcome data scarcity, we develop a scalable, automated data generation pipeline that simulates user-agent interactions. Our controllable flaw injection process automatically yields precise ground-truth labels for the violated guideline and the exact conversation turn, while an adversarial search method ensures these introduced perturbations are highly challenging. Our comprehensive evaluation reveals that current state-of-the-art proprietary LLMs struggle significantly with this task. In addition, we demonstrate that a small-scale judge model fine-tuned on our synthesized data outperforms leading LLMs and generalizes well to unseen business domains, highlighting our pipeline as an effective foundation for training robust generative reward models.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ますますエンタープライズ環境でタスク指向のエージェントとしてデプロイされているため、複雑なドメイン固有の運用ガイドラインへの厳格な遵守が不可欠である。
LLM-as-a-Judgeの利用は、スケーラブルな評価のための有望なソリューションであるが、特定のポリシー違反を検出する上で、これらの審査員の信頼性は明らかにされていない。
このギャップは主に、人間の微粒なアノテーションの膨大なコストと、現実的なエージェント違反の合成が困難であるために、体系的なデータ生成方法が欠如しているためである。
本稿では,マルチターン対話におけるガイドライン違反の検出とローカライズを行うLLM審査員の能力を評価するための新しいベンチマークであるCompliBenchを紹介する。
データ不足を克服するため、ユーザとエージェントのインタラクションをシミュレートするスケーラブルで自動化されたデータ生成パイプラインを開発しました。
我々の制御可能な欠陥注入プロセスは、違反したガイドラインと正確な会話のターンの正確な接地木ラベルを自動生成する。
我々の総合的な評価は、現在の最先端のLLMは、この課題にかなり苦労していることを示している。
さらに,LLMを先導する合成データに微調整を施した小型の審査モデルが,未確認のビジネスドメインによく適応し,ロバストな生成的報酬モデルをトレーニングするための効果的な基盤としてパイプラインを強調した。
関連論文リスト
- RPA-Check: A Multi-Stage Automated Framework for Evaluating Dynamic LLM-based Role-Playing Agents [4.07447364754644]
本稿では,LLM ベースの RPA の性能を客観的に評価する多段階自動評価フレームワーク RPA-Check を紹介する。
我々は,この枠組みを,いくつかの定量化ローカルモデルを含む法医学的な訓練のための真剣なゲームであるLLM Courtに適用することで検証する。
論文 参考訳(メタデータ) (2026-04-13T16:08:03Z) - Steering LLMs via Scalable Interactive Oversight [74.12746881843044]
大規模な言語モデルは、エンフェーブコーディングのような複雑で長期にわたるタスクをますます自動化し、監督のギャップが生まれています。
スケーラブルな監視において重要な課題は、人間が責任を持ってAIシステムを、特定または検証する能力を超えたタスクで操ることができることだ。
論文 参考訳(メタデータ) (2026-02-04T04:52:00Z) - The Shadow Self: Intrinsic Value Misalignment in Large Language Model Agents [37.75212140218036]
コントロの損失リスクを定式化し、これまで過小評価されていた内因性価値の相違(内因性VM)を識別する。
次に、このリスクを体系的に評価するシナリオ駆動フレームワークであるIMPRESSを紹介します。
我々は,21種類のLLMエージェント上での固有のVMの評価を行い,モデル間での安全性のリスクが広く見られることを発見した。
論文 参考訳(メタデータ) (2026-01-24T07:09:50Z) - Gaming the Judge: Unfaithful Chain-of-Thought Can Undermine Agent Evaluation [76.5533899503582]
大規模言語モデル(LLM)は、エージェントのパフォーマンスを評価するために、ますます裁判官として使われている。
このパラダイムは、エージェントのチェーン・オブ・シークレット(CoT)推論が内部の推論と環境状態の両方を忠実に反映していることを暗黙的に仮定している。
我々は、操作された推論だけで、様々なWebタスクにまたがる800の軌跡に対して、最先端のVLM審査員の偽陽性率を最大90%向上させることができることを実証した。
論文 参考訳(メタデータ) (2026-01-21T06:07:43Z) - Towards Comprehensive Stage-wise Benchmarking of Large Language Models in Fact-Checking [64.97768177044355]
大規模言語モデル(LLM)は、現実のファクトチェックシステムにますます多くデプロイされている。
FactArenaは、完全に自動化されたアリーナスタイルの評価フレームワークである。
本研究では,静的クレーム検証精度とエンドツーエンドのファクトチェック能力の相違点を明らかにした。
論文 参考訳(メタデータ) (2026-01-06T02:51:56Z) - Efficient Out-of-Scope Detection in Dialogue Systems via Uncertainty-Driven LLM Routing [6.579756339673344]
OOS(Out-of-scope)インテント検出は、タスク指向対話システム(TODS)において重要な課題である。
我々は,不確実性モデリングと細調整された大言語モデル(LLM)を組み合わせて,効率よく正確なOOS検出を行う,新しい単純なモジュラーフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-02T09:51:41Z) - Evaluating LLM-Contaminated Crowdsourcing Data Without Ground Truth [18.069595635842557]
クラウドソーシングワーカーによる大規模言語モデル(LLM)は、人間の入力を反映するデータセットに挑戦する。
LLMの共謀を考慮に入れたクラウドソーシングモデルの下で,理論的保証付き学習自由スコアリング機構を提案する。
論文 参考訳(メタデータ) (2025-06-08T04:38:39Z) - Can LLMs Hack Enterprise Networks? Autonomous Assumed Breach Penetration-Testing Active Directory Networks [1.3124479769761592]
本稿では,Large Language Model (LLM) 駆動自律システムを用いた新しいプロトタイプを提案する。
我々のシステムは、完全に自律的でLLM駆動のフレームワークがアカウントを妥協できる最初の実演である。
関連するコストは、プロフェッショナルな人間のペンテスト担当者によって引き起こされるコストと競合し、しばしばかなり低いことが分かりました。
論文 参考訳(メタデータ) (2025-02-06T17:12:43Z) - Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。