論文の概要: Unpredictable Safety: Domain-Dependent Compliance and the Transparency Gap in Open-Weight LLMs
- arxiv url: http://arxiv.org/abs/2606.04035v1
- Date: Mon, 01 Jun 2026 22:41:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.254356
- Title: Unpredictable Safety: Domain-Dependent Compliance and the Transparency Gap in Open-Weight LLMs
- Title(参考訳): 予測不能安全性:オープンウェイトLDMにおけるドメイン依存コンプライアンスと透明性ギャップ
- Authors: Zacharie Bugaud,
- Abstract要約: オープンウェイトLLMにおけるドメイン依存型安全挙動について検討する。
コンプライアンス率は14.7%(人身売買)から85.7%(監視設計)に変化している。
その結果、現在の安全メカニズムには、信頼できるAIデプロイメントに必要な透明性と一貫性が欠如していることが示されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a systematic study of domain-dependent safety behavior in open-weight LLMs: 7 standardized experiments across 7 ethical domains, testing 5 models (12B--70B) in 4,200 interactions with dual-judge validation. Using a dual-condition methodology, each scenario tested in both an analytical framing (identify the harm) and an operational framing (help commit the harm), we find compliance rates vary from 14.7% (human trafficking) to 85.7% (surveillance design), a 71-percentage-point span with non-overlapping cluster-bootstrapped 95% CIs. Trustworthy deployment requires predictable safety behavior, yet we find compliance is highly context-dependent: the same model (Mistral Nemo 12B) provides surveillance designs in 100% of requests but assists with trafficking in only 26.7%. This unpredictability is opaque to deployers: the technical framing bypass, where harmful requests reframed as engineering problems override safety training without any external signal that refusal thresholds have shifted. Within-domain heterogeneity reaches 84.4pp, meaning safety behavior cannot be predicted even at the domain level. A replication on five frontier closed models (GPT-4.1/5.2, Claude Haiku/Sonnet/Opus 4.x; n=4,163 responses) accessed via the GitHub Copilot CLI deployed-product surface reproduces the same domain stratification, attenuated in absolute level but identical in shape, with the two low-codification domains (science fraud, surveillance) again the most permissive. These results show that current safety mechanisms lack the transparency and consistency required for trustworthy AI deployment.
- Abstract(参考訳): オープンウェイトLLMにおけるドメイン依存型安全行動の系統的研究として,7つの倫理的領域にわたる7つの標準実験,2重ジャッジ検証と4,200の相互作用で5つのモデル(12B-70B)をテストする。
二重条件法を用いて、分析的フレーミング(害を識別)と運用的フレーミング(害を犯す)の両方でテストされた各シナリオにおいて、コンプライアンス率は14.7%(人身売買)から85.7%(監視設計)に変化し、71パーセントが重複しないクラスタブートストラップの95%CIを持つ。
同じモデル(ミストラル・ネモ12B)は、100%の要求で監視設計を提供するが、26.7%でトラフィックを補助する。
技術的フレーミングバイパスでは、エンジニアリング上の問題として有害な要求が、しきい値を拒否する外部信号なしで安全トレーニングをオーバーライドする。
ドメイン内の不均一性は84.4ppに達するため、ドメインレベルでも安全行動は予測できない。
5つのフロンティアクローズドモデル(GPT-4.1/5.2, Claude Haiku/Sonnet/Opus 4.x; n=4,163)上の複製は、GitHub Copilot CLIによってアクセスされ、デプロイされた製品表面は同じドメイン層を再現する。
これらの結果は、現在の安全メカニズムは、信頼できるAIデプロイメントに必要な透明性と一貫性を欠いていることを示している。
関連論文リスト
- Explainable Wastewater Digital Twins: Adaptive Context-Conditioned Structured Simulators with Self-Falsifying Decision Support [2.3895981099137535]
CCSS-IXは、コンテキスト認識ゲーティングネットワークによって適応的に混合された、解釈可能な局所線形状態空間"専門家"のバンクである。
実行時決定層は、統計的に認証できないオペレータが提案するアクションに対して、不当な時間的証人を排除、再開、または返却するために共形リスク制御を適用する。
論文 参考訳(メタデータ) (2026-05-19T13:19:27Z) - Beyond Single-Agent Alignment: Preventing Context-Fragmented Violations in Multi-Agent Systems [10.660248467840821]
新たなセキュリティリスクの特定と形式化:CFV(Context-Fragmented Violations)
CFVは、個々のエージェントの行動が局所的に安全かつ合理的に見えるが、全体として組織的方針に反する政策違反の類である。
分散ゼロトラスト適用アーキテクチャである分散センチネルを提案する。
論文 参考訳(メタデータ) (2026-04-24T03:08:52Z) - OccuBench: Evaluating AI Agents on Real-World Professional Tasks via Language Environment Simulation [57.505743202759646]
OccuBenchは10の業界カテゴリと65の専門ドメインにわたる100の現実のプロフェッショナルタスクシナリオをカバーするベンチマークである。
我々のマルチエージェント合成パイプラインは, 可溶性, 校正困難, 文書基底の多様性を保証した評価インスタンスを自動生成する。
論文 参考訳(メタデータ) (2026-04-13T00:27:32Z) - Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents [66.97968363332465]
エージェントベンチマークの3つのギャップに対処するエンドツーエンド評価スイートであるClaw-Evalを紹介した。
Claw-Evalは3つのグループにまたがる9つのカテゴリにまたがる300の人間検証タスクで構成されている。
すべてのエージェントアクションは、3つの独立したエビデンスチャネルを通じて記録される。
論文 参考訳(メタデータ) (2026-04-07T17:43:18Z) - Governing Dynamic Capabilities: Cryptographic Binding and Reproducibility Verification for AI Agent Tool Use [0.0]
既存のセキュリティレイヤでは、AIエージェントに何ができるか、それが主張するものを実行したのか、マルチエージェントインタラクションで何が起きたのかを検証できない。
既存のフレームワークはこれら2つを詳述し、サイレントな能力のエスカレーションを可能にし、検証済みの証明なしに相互作用を残す。
我々は3つのエージェントガバナンス要件を導出する:能力の完全性(G1)、行動の妥当性(G2)、相互作用監査性(G3)。
基本(Ed25519, SHA-256; 97 us verify)と拡張(BBS+選択開示、Groth16 DV-SNARK; 13.8 ms)の2つの暗号に依存しないインスタンス化で検証する。
論文 参考訳(メタデータ) (2026-03-15T11:46:57Z) - AgentDrift: Unsafe Recommendation Drift Under Tool Corruption Hidden by Ranking Metrics in LLM Agents [2.995458991057093]
クリーンで汚染されたツール出力条件下で、実際の財務対話を再生するペアトラジェクトリプロトコルを導入する。
評価盲点パターンを観察し, 推奨品質は汚染下で保存される。
物語のみの腐敗(バイアス付き見出し、数値操作なし)でさえ、一貫性モニタを完全に回避しながら大きなドリフトを引き起こします。
論文 参考訳(メタデータ) (2026-03-13T01:54:00Z) - VisualLeakBench: Auditing the Fragility of Large Vision-Language Models against PII Leakage and Social Engineering [14.756677328512907]
VisualLeakBenchは、OCRインジェクションとContextual PII Leakageに対してLVLMを監査するための評価スイートである。
8種類のPII型を持つ合成逆画像1,000枚を用いて,実世界の実画像50枚に検証を行った。
我々は、再現可能な堅牢性と、デプロイメント関連視覚言語システムの安全性評価のためのデータセットとコードをリリースする。
論文 参考訳(メタデータ) (2026-03-11T05:47:24Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - DUAL-Bench: Measuring Over-Refusal and Robustness in Vision-Language Models [59.45605332033458]
安全メカニズムはバックファイアし、過剰な拒絶を引き起こし、モデルが過度に注意を払って良質な要求を減らします。
既存のベンチマークは、視覚的モダリティの過剰な拒絶に体系的に対処していない。
この設定は、命令が無害であるが付随する画像には有害な内容が含まれているというような、ユニークな課題をもたらす。
論文 参考訳(メタデータ) (2025-10-12T23:21:34Z) - VulAgent: Hypothesis-Validation based Multi-Agent Vulnerability Detection [55.957275374847484]
VulAgentは仮説検証に基づくマルチエージェント脆弱性検出フレームワークである。
セマンティクスに敏感なマルチビュー検出パイプラインを実装しており、それぞれが特定の分析の観点から一致している。
平均して、VulAgentは全体的な精度を6.6%改善し、脆弱性のある固定されたコードペアの正確な識別率を最大450%向上させ、偽陽性率を約36%削減する。
論文 参考訳(メタデータ) (2025-09-15T02:25:38Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。