論文の概要: Gaming the Metric, Not the Harm: Certifying Safety Audits against Strategic Platform Manipulation
- arxiv url: http://arxiv.org/abs/2605.06324v1
- Date: Thu, 07 May 2026 14:22:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.889538
- Title: Gaming the Metric, Not the Harm: Certifying Safety Audits against Strategic Platform Manipulation
- Title(参考訳): 戦略的プラットフォーム操作に対する安全監査の認定
- Authors: Florian A. D. Burnat, Brittany I. Davidson,
- Abstract要約: 監査基準が真の害の減少を証明できるかどうかを問う。
このプロトコルは、接続されたコンポーネントがセマンティッククラスを形成する公開変換グラフとしてモデル化されている。
混合戦略の有限状態グリッド上での徹底的な列挙、cvc5でクロスリプレイされたZ3のSMTエンコーディング、PRISMゲームでエンコードされた単一プレイヤーMDPである。
- 参考スコア(独自算出の注目度): 1.253312107729806
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Online-safety regulation under the UK Online Safety Act and the EU Digital Services Act increasingly treats scalar metrics as compliance evidence. Once announced, such a metric also becomes an optimization target: a strategic platform can improve its score by routing recommendations through semantically equivalent content variants, without reducing true harm. We ask when such an audit metric can still certify a genuine reduction in harm. The protocol is modeled as a published transformation graph whose connected components form semantic classes, and the metric itself is treated as a security object. Three results follow. First, any metric that scores variants directly is manipulable as soon as two equivalent variants in a harmful class disagree in score. Second, the semantic-envelope lift, which assigns each variant the maximum score in its class, is the unique pointwise minimum among conservative classwise-constant repairs. Third, a class-stratified certificate, $H^\star(x) \le (1/\hatα) M_{\mathrm{Env}(m)}(x) + \barη$, holds for every platform strategy, with $\barη$ absorbing annotation and protocol error. We check the claims at three levels: exhaustive enumeration on a finite-state grid of mixed strategies, an SMT encoding in Z3 cross-replayed in cvc5, and a bounded single-player MDP encoded in PRISM-games. The fragile metric fails manipulation invariance and cannot support the same useful predeclared class-coverage certificate; under the envelope-level certificate, it produces large violations at every tested instance, with a large mean gaming gap across random catalogs at a fixed audit budget. The semantic-envelope metric exhibits no such violation in the tested instances.
- Abstract(参考訳): イギリスオンライン安全法とEUデジタルサービス法に基づくオンライン安全規制は、スカラーメトリクスをコンプライアンスの証拠として扱いつつある。
戦略的プラットフォームは、真の害を軽減することなく、意味的に等価なコンテンツバリアントを通じてレコメンデーションをルーティングすることで、スコアを改善することができる。
このような監査基準が真の害の減少を証明できるかどうかを問う。
プロトコルは、接続されたコンポーネントがセマンティッククラスを形成する公開変換グラフとしてモデル化され、メトリック自体がセキュリティオブジェクトとして扱われる。
3つの結果が続く。
第一に、変量を直接得点する任意の計量は、有害なクラスにおける2つの等価な変量がスコアに不一致するとすぐに操作可能である。
第二に、各変種をそのクラスで最大スコアに割り当てるセマンティック・エンベロープ・リフトは、保守的なクラスワイズ・コンスタント修復の中では唯一のポイントワイドの最小値である。
第3に、クラス階層化された証明書である$H^\star(x) \le (1/\hatα) M_{\mathrm{Env}(m)}(x) + \barη$は、アノテーションとプロトコルエラーを吸収する$\barη$を含むすべてのプラットフォーム戦略を保持できる。
混合戦略の有限状態グリッド上での徹底的な列挙、cvc5でクロスリプレイされたZ3のSMTエンコーディング、PRISMゲームでエンコードされた単一プレイヤーMDPである。
封筒レベルの証明書では、テスト対象のインスタンス毎に大きな違反を発生させ、固定された監査予算でランダムカタログ間の平均的なゲームギャップを大きくする。
セマンティックエンベロープ計量は、テストインスタンスにそのような違反は示さない。
関連論文リスト
- MEMSAD: Gradient-Coupled Anomaly Detection for Memory Poisoning in Retrieval-Augmented Agents [0.0]
検索強化エージェントに対するメモリ中毒攻撃を,統合評価フレームワークを用いたStackelbergゲームとして定式化する。
ASR-R: 0.25〜1.00$) による攻撃成功度を4倍に向上させる。
私たちの主な貢献は、勾配結合に接地したキャリブレーションに基づく防御であるMEMSADである。
論文 参考訳(メタデータ) (2026-05-05T08:15:41Z) - Measurement Risk in Supervised Financial NLP: Rubric and Metric Sensitivity on JF-ICR [1.7107991816118835]
我が国の金融インシシデント・コミット認識における測定リスクについて検討する。
ルーブリックな単語は、モデル指定ラベルを根本的に変えることが判明した。
すべての計量は、JF-ICRクラス分布の下では情報的ではない。
論文 参考訳(メタデータ) (2026-04-30T03:39:14Z) - Late-Stage Generalization Collapse in Grokking: Detecting anti-grokking with Weightwatcher [1.6615337656760856]
ニューラルネットワークにおけるemphMemorizationは、正確な運用定義が欠如しており、しばしばグラッキングレジームから推測される。
我々は、このトレーニング体制において、未報告の第3段階である、エンファンティ・グロッキング(emphanti-grokking)、すなわち、一般化の後期崩壊を識別する。
論文 参考訳(メタデータ) (2026-02-02T22:09:14Z) - Reinforcement Learning with Verifiable yet Noisy Rewards under Imperfect Verifiers [90.50039419576807]
RLVR(Reinforcement Learning with Verifiable Rewards)は、人為的なラベル付けを避けるために、自動検証に対するポリシーを訓練する。
認証ハッキングの脆弱性を軽減するため、多くのRLVRシステムはトレーニング中にバイナリ$0,1$の報酬を破棄する。
この選択にはコストがかかる:textitfalse negatives(正しい回答、FNを拒絶)とtextitfalse positives(間違った回答、FPを受け入れる)を導入する。
論文 参考訳(メタデータ) (2025-10-01T13:56:44Z) - Exact Certification of (Graph) Neural Networks Against Label Poisoning [50.87615167799367]
グラフニューラルネットワーク(GNN)におけるラベルフリップの正確な認証手法を提案する。
本稿では,ノード分類タスクにおける広範囲なGNNアーキテクチャの認証に本手法を適用した。
私たちの研究は、ニューラルネットワークによって引き起こされた毒殺攻撃に対する最初の正確な認証を提示します。
論文 参考訳(メタデータ) (2024-11-30T17:05:12Z) - Adaptive Hierarchical Certification for Segmentation using Randomized Smoothing [87.48628403354351]
機械学習の認証は、特定の条件下では、敵対的なサンプルが特定の範囲内でモデルを回避できないことを証明している。
セグメンテーションの一般的な認証方法は、平らな粒度のクラスを使い、モデルの不確実性による高い断続率をもたらす。
本稿では,複数レベルの階層内で画素を認証し,不安定なコンポーネントに対して粗いレベルに適応的に認証を緩和する,新しい,より実用的な設定を提案する。
論文 参考訳(メタデータ) (2024-02-13T11:59:43Z) - Certifying LLM Safety against Adversarial Prompting [70.96868018621167]
大規模言語モデル(LLM)は、入力プロンプトに悪意のあるトークンを追加する敵攻撃に対して脆弱である。
我々は,認証された安全保証とともに,敵のプロンプトを防御する最初の枠組みである消去・チェックを導入する。
論文 参考訳(メタデータ) (2023-09-06T04:37:20Z) - SMATCH++: Standardized and Extended Evaluation of Semantic Graphs [4.987581730476023]
Smatchメトリックはグラフ距離を評価する一般的な方法である。
構造的に逸脱するが有効なグラフを許容するアノテーションガイドラインに完全に準拠する方法を示す。
スコアリングの改善のために,細粒度部分グラフの意味の計算を標準化し,拡張する手法を提案する。
論文 参考訳(メタデータ) (2023-05-11T17:29:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。