Fugu-MT 論文翻訳(概要): Who judges the judges? Governance from metrics: a runtime framework for continuous LLM compliance monitoring

論文の概要: Who judges the judges? Governance from metrics: a runtime framework for continuous LLM compliance monitoring

arxiv url: http://arxiv.org/abs/2605.24737v1
Date: Sat, 23 May 2026 21:21:33 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-26 19:50:18.355461
Title: Who judges the judges? Governance from metrics: a runtime framework for continuous LLM compliance monitoring
Title（参考訳）: 審査員は誰か? メトリクスからのガバナンス - 継続的LLMコンプライアンス監視のためのランタイムフレームワーク
Authors: Jehanne Dussert,
Abstract要約: AIコンプライアンスに対する現在のアプローチは、適合性をバイナリな監査時間判定として扱う。このコンプライアンス・フィクションは、EUのAI法の要件に構造的に不適合である、と我々は主張する。規制の遵守は、行動の可観測性から連続的なシグナルとして導き出される原則であるメトリクスからのガバナンスを導入します。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Current approaches to AI compliance treat conformity as a binary, audit-time verdict rather than a continuous, measurable property of production systems. We argue that this compliance fiction is structurally ill-suited to the requirements of the EU AI Act, which demands ongoing human oversight and the detection of emergent behavioural drift in deployed systems. We introduce governance from metrics, a principle whereby regulatory compliance is derived as a continuous signal from runtime observability rather than from static assessments. Building on this principle, we present govllm, an open-source framework implementing a governance-driven routing architecture in which model selection is determined by accumulated compliance scores rather than by latency or cost alone. Central to our approach is a panel of regulatory judges - LLM evaluators specialised per criterion (EU AI Act, GDPR, ANSSI, accessibility) - whose inter-judge disagreement we reframe not as noise but as a regulatory uncertainty signal warranting human arbitration. We validate this approach through a ground truth corpus of 49 annotated prompt/response pairs across five regulatory criteria, evaluated by four small language models (SLMs, 1.7B-7B parameters) running fully on-premise. Agreement rates range from 51.5% (mistral:7b) to 69.1% (phi4-mini), with no single model dominating across all criteria - empirically motivating the Profile-as-jury design. We further document three structural failure modes in small regulatory judges and a judge-specific position bias that degrades agreement by up to 25 percentage points across three question-order conditions (original, reversed, permuted). govllm is released as open-source software to support reproducible AI governance research.
Abstract（参考訳）: AIコンプライアンスに対する現在のアプローチでは、適合性は生産システムの継続的な測定可能な特性ではなく、バイナリで監査時間の検証として扱う。我々は、このコンプライアンス・フィクションは、現在進行中の人間の監視と、デプロイされたシステムにおける突発的な行動漂流の検出を要求するEUのAI法(英語版)の要件に構造的に不適合であると主張している。静的アセスメントではなく、実行時の可観測性から、規制コンプライアンスを連続的なシグナルとして導出する原則である、メトリクスからのガバナンスを導入します。この原則に基づいて構築されたgovllmは、ガバナンス駆動のルーティングアーキテクチャを実装したオープンソースのフレームワークで、モデルの選択は、レイテンシやコストではなく、累積したコンプライアンススコアによって決定される。われわれのアプローチの中心は、規制審査員(EUAI法、GDPR、ANSSI、アクセシビリティ)のパネルであり、この委員会間の意見の相違はノイズではなく、人間の仲裁を保証している規制の不確実性信号である。提案手法は,4つの小言語モデル(SLM, 1.7B-7Bパラメータ)を前提条件として,49の注釈付きプロンプト/レスポンスペアを5つの規制基準で検証した。合意率は51.5% (mistral:7b) から69.1% (phi4-mini) まで様々で、全ての基準で支配的なモデルはない。さらに、3つの構造的障害モードを、小さな規制判事に記録し、3つの質問順序条件(元来、逆転、置換)で合意を最大25ポイント下方修正する、裁判官固有の位置バイアスを記述した。 govllmは、再現可能なAIガバナンス研究をサポートするオープンソースソフトウェアとしてリリースされた。

関連論文リスト

Time to REFLECT: Can We Trust LLM Judges for Evidence-based Research Agents? [61.49434544687523]
本稿では,エージェント環境におけるきめ細かい故障検出を目的としたメタ評価ベンチマークREFLECTを紹介する。 REFLECTはプロセスレベルの障害モードと結果レベルの障害モードの詳細な分類を定義し、制御および局所的な介入を実行することでインスタンス化する。私たちの実験では、最高のパフォーマンスモデルでさえ、推論、ツール使用、レポート品質の失敗に対して、全体的なアキュラシーを55%以下に達成しています。
論文参考訳（メタデータ） (2026-05-18T23:55:08Z)
Designing escalation criteria for international AI incident response: criteria, triggers, and thresholds [0.0]
検出されたAIインシデントが、国際協調に対する国家の扱い以上のエスカレーションをいつ保証するかを決定するための運用基準は存在しない。本稿では,このギャップに対処するエスカレーションフレームワークを提案する。
論文参考訳（メタデータ） (2026-04-25T07:31:58Z)
Governed Reasoning for Institutional AI [0.0]
認知コア(Cognitive Core)は、9種類の認知プリミティブから構築された決定基盤である。ヒューマンレビューは、ポストホックチェックではなく実行条件である。我々は、11ケースの事前承認控訴評価セットで3つのシステムをベンチマークした。
論文参考訳（メタデータ） (2026-04-12T14:09:18Z)
Automated Self-Testing as a Quality Gate: Evidence-Driven Release Management for LLM Applications [51.56484100374058]
我々は,エビデンスに基づくリリース決定を伴う品質ゲートを導入する自動自己テストフレームワークを提案する。内部展開型多エージェント対話型AIシステムの縦型ケーススタディにより,本フレームワークの評価を行った。
論文参考訳（メタデータ） (2026-03-13T20:44:15Z)
Mirror: A Multi-Agent System for AI-Assisted Ethics Review [104.3684024153469]
MirrorはAIによる倫理的レビューのためのエージェントフレームワークである。倫理的推論、構造化された規則解釈、統合されたアーキテクチャ内でのマルチエージェントの議論を統合する。
論文参考訳（メタデータ） (2026-02-09T03:38:55Z)
Compliance as a Trust Metric [1.0264137858888513]
本稿では,規制コンプライアンスを定量的かつダイナミックな信頼度として運用することで,この研究ギャップを埋める。私たちのコントリビューションは、各違反の深刻度を、そのボリューム、時間、ブレッドス、臨界度など、複数の次元に沿って評価する定量的モデルです。人工病院のデータセット上でACEを評価し,複雑なHIPAAおよびHIPAA違反を正確に検出できることを実証した。
論文参考訳（メタデータ） (2026-01-03T21:14:40Z)
Judging by the Rules: Compliance-Aligned Framework for Modern Slavery Statement Monitoring [24.13989765643719]
現代の奴隷制度は世界中で何百万人もの人々に影響を与えており、現代の奴隷制度法のような規制の枠組みでは、企業が詳細な開示を公表する必要がある。これらのステートメントは曖昧で矛盾することが多く、手作業によるレビューの時間とスケールが難しくなる。専門家の監視を維持しつつルールレベルのコンプライアンス検証にAIを活用する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-11-11T03:41:44Z)
Making LLMs Reliable When It Matters Most: A Five-Layer Architecture for High-Stakes Decisions [51.56484100374058]
現在の大規模言語モデル(LLM)は、実行前にアウトプットをチェックできるが、不確実な結果を伴う高い戦略決定には信頼性が低い検証可能な領域で優れている。このギャップは、人間と人工知能(AI)システムの相互認知バイアスによって引き起こされ、そのセクターにおける評価と投資の持続可能性の保証を脅かす。本報告では、7つのフロンティアグレードLDMと3つの市場向けベンチャーヴィグネットの時間的圧力下での系統的質的評価から生まれた枠組みについて述べる。
論文参考訳（メタデータ） (2025-11-10T22:24:21Z)
Zero-shot reasoning for simulating scholarly peer-review [0.0]
本稿では、AI生成ピアレビューレポートを評価するための、最初の安定的でエビデンスに基づく標準を提供する決定論的シミュレーションフレームワークについて検討する。第一に、このシステムは校正された編集判断をシミュレートすることができ、「改訂」決定が一貫して多数決結果を形成する。第二に、手続きの整合性を揺るぎないまま維持し、安定した29%の証明の遵守率を強制する。
論文参考訳（メタデータ） (2025-10-02T13:59:14Z)
J4R: Learning to Judge with Equivalent Initial State Group Relative Policy Optimization [69.23273504123941]
私たちは、より複雑な評価設定で生じる位置バイアスに対して堅牢であるように、裁判官を訓練します。我々はReasoningJudgeBenchというベンチマークを紹介します。 EIS-GRPOで訓練を受けた7B判事であるReasoning判事(J4R)は、GPT-4oを6.7%、そして9%で上回ります。
論文参考訳（メタデータ） (2025-05-19T16:50:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。