論文の概要: AERIC: Anticipatory Hidden-State Monitoring for Implicit Harmful Dialogue
- arxiv url: http://arxiv.org/abs/2605.23974v1
- Date: Wed, 13 May 2026 14:18:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-01 02:55:42.991345
- Title: AERIC: Anticipatory Hidden-State Monitoring for Implicit Harmful Dialogue
- Title(参考訳): AERIC:無害対話のための予測隠れ状態モニタリング
- Authors: Jihyung Park, Saleh Afroogh, Junfeng Jiao,
- Abstract要約: 現在の言語モデルでは、有害な継続を避けるためにリスクを早期に検出しなければなりません。
安全モニタが通常の復号時に発生する隠蔽状態を読み取ることができるが、ベースモデルへの追加のフォワードパスを起動しない予測的同パス監視について検討する。
AERICは, 短水平ハザード予測, サポート感度抑制, 即時条件付残留スコアを同一パスの指数的移動平均決定規則の下で組み合わせた, 暗黙的有害対話のための移動指向型隠れ状態アプローチである。
- 参考スコア(独自算出の注目度): 0.4779196219827507
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current language models create two safety challenges: risk must be detected early enough to avoid exposing harmful continuation, and the harmfulness itself may be implicit rather than signaled by overtly toxic text. Existing response-level guards are strong at judging completed text, and native streaming guards move closer to token time, but both settings leave open whether a lightweight monitor can anticipate implicit harmful drift from the generator's own internal trajectory. We study anticipatory same-pass monitoring, where a safety monitor may read hidden states produced during ordinary decoding but may not invoke an additional forward pass through the base model. We introduce AERIC, a transfer-oriented hidden-state approach for implicit harmful dialogue that combines short-horizon hazard forecasting, support-sensitive suppression, and prompt-conditioned residual scoring under a same-pass exponential moving average decision rule. The default linear monitor contains only 387 trainable head parameters. Against Qwen3GuardStream-4B on balanced benchmarks, AERIC improves AUROC from 0.6830 to 0.7143 on DiaSafety and from 0.8219 to 0.8582 on Harmful Advice. For promptlevel trigger benchmarks, we calibrate the AERIC threshold by a source-side safe-budget rule that maximizes trigger coverage while constraining the safe-trigger rate to at most 10%. Under that rule, trigger@64 reaches 0.6438 and 0.4656 on HarmBench DirectRequest and 0.6849 and 0.7363 on SocialHarmBench for Qwen and Gemma, respectively, withholding between 23.53 and 41.86 answer tokens on average. Same-pass deployment is also efficient: on a 63-prompt harmfulprompt fixed-generation benchmark aggregated over HarmBench DirectRequest and SocialHarmBench under Qwen3-8B, the monitor increases mean latency by only 2.34%, whereas Qwen3Guard-Stream-4B increases it by 79.40%.
- Abstract(参考訳): 現在の言語モデルでは、有害な継続を避けるためにリスクを早期に検出しなければなりません。
既存の応答レベルガードは、完了したテキストを判断する能力が強く、ネイティブストリーミングガードはトークンタイムに近づくが、どちらの設定も、軽量モニタが発電機の内部軌道から暗黙の有害なドリフトを予測できるかどうかを未然に保つ。
安全モニタが通常の復号時に発生する隠蔽状態を読み取ることができるが、ベースモデルへの追加のフォワードパスを起動しない予測的同パス監視について検討する。
AERICは, 短水平ハザード予測, サポート感度抑制, 即時条件付残留スコアを同一パスの指数的移動平均決定規則の下で組み合わせた, 暗黙的有害対話のための移動指向型隠れ状態アプローチである。
デフォルトのリニアモニターは387個のトレーニング可能なヘッドパラメータのみを含む。
Qwen3GuardStream-4Bをベンチマークで比較すると、AERICはAUROCをDiaSafetyで0.6830から0.7143に改善し、Harmful Adviceで0.8219から0.8582に改善した。
即時トリガーベンチマークでは、安全トリガー率を10%以上に制限しながら、トリガーカバレッジを最大化するソースサイドのセーフ予算ルールにより、AERIC閾値を調整します。
このルールの下で、 trigger@64 は HarmBench DirectRequest で 0.6438 と 0.4656、SocialHarmBench for Qwen と Gemma で 0.6849 と 0.7363 に達し、平均 23.53 と 41.86 の応答トークンが保持されている。
Qwen3-8Bの下でHarmBench DirectRequestとSocialHarmBenchに集約された63プロンプトの有害プロンプト固定世代ベンチマークでは、モニターは平均遅延をわずか2.34%増加させ、Qwen3Guard-Stream-4Bは79.40%増加させた。
関連論文リスト
- Boiling the Frog: A Multi-Turn Benchmark for Agentic Safety [2.661610409070365]
ツール使用のAIモデルがインクリメンタルアタックの影響を受けやすいかどうかを評価するベンチマークであるBoiling the Frogを紹介した。
シナリオは3段階の運用リスク分類によって編成される。
9モデルパネル全体では、総攻撃成功率(ASR)は44.4%である。
論文 参考訳(メタデータ) (2026-05-21T15:50:18Z) - Measuring Safety Alignment Effects in Autonomous Security Agents [3.93181912653522]
セキュリティエージェントは、レポジトリを検査し、ツールを呼び出し、認証されたサンドボックス内で脆弱性証拠を生成する必要がある。
固定ツール、決定論的成功予測、リアクションルール、グラウンドチェックを備えた30のローカル脆弱性分析タスクのトレースベースのベンチマークを示す。
自律型セキュリティエージェントの安全性アライメント効果をシステムレベルで測定し, 拒絶, 不安全行動, ツール信頼性, 根拠を分離する。
論文 参考訳(メタデータ) (2026-05-19T11:55:54Z) - Chain of Risk: Safety Failures in Large Reasoning Models and Mitigation via Adaptive Multi-Principle Steering [18.59581013500335]
大きな推論モデルは、透明性、検証、意図的な問題解決のためのチェーンオブ思考のような推論を公開する。
有害またはポリシー違反のコンテンツは、最終回答が安全に見える場合でも、トレースを推論して現れる可能性がある。
両段階を統一された20基の安全ルーリックの下で評価することにより, 最終回答の安全性が完全な推論・回答軌道の十分なプロキシであるかどうかを検証した。
論文 参考訳(メタデータ) (2026-05-07T05:12:56Z) - MOSAIC-Bench: Measuring Compositional Vulnerability Induction in Coding Agents [2.1942030377331245]
コーディングエージェントは、しばしばプロンプト毎の安全性レビューをパスするが、それらのタスクが通常のエンジニアリングチケットに分解されると、悪用可能なコードを出荷する。
199個の3段階攻撃チェーンのベンチマークであるMOSAIC-Benchを紹介する。
9つのプロダクションコーディングエージェントが53~86%の終末ASRで無害なチケットを構成しており、全ステージで2回しか拒否しないことを示す。
論文 参考訳(メタデータ) (2026-05-05T16:38:23Z) - CORA: Conformal Risk-Controlled Agents for Safeguarded Mobile GUI Automation [68.53387633351484]
有害な行為に対する統計的保証を提供するポスト・ポリティクス・プレアクション保護フレームワークであるCORA(Conformal Risk-control GUI Agent)を提案する。
CORAは、安全を選択的行動実行として再定義する:我々は、提案されたステップごとに行動条件リスクを推定するためにガーディアンモデルを訓練する。
このパラダイムを厳格に評価するために、ステップレベルのハーモラベルを持つモバイル安全違反の新しいベンチマークであるPhone-Harmを紹介する。
論文 参考訳(メタデータ) (2026-04-10T09:41:21Z) - ATBench: A Diverse and Realistic Agent Trajectory Benchmark for Safety Evaluation and Diagnosis [96.92417622318267]
ATBenchは、エージェント安全性の構造化、多様性、現実的な評価のための軌道レベルのベンチマークである。
リスクソース、障害モード、現実世界の危害の3つの側面に沿ってエージェント的リスクを編成する。
1000個の軌道(安全503個、安全497個)があり、平均9.01ターンと3.95kトークンがあり、2,084個のツールにまたがるプールから1,954個のツールが呼び出されている。
論文 参考訳(メタデータ) (2026-04-02T13:26:20Z) - SafetyDrift: Predicting When AI Agents Cross the Line Before They Actually Do [0.0]
SafetyDriftモデルでは、安全軌道をマルコフ連鎖の吸収として扱う。
コミュニケーションタスクでは、軽度のリスク状態にまで達するエージェントは、5段階以内に安全を侵害する確率が85%である。
これらのモデル上に構築されたモニターは94.7%の違反を検知し、3.7ステップの事前警告を無視可能な計算コストで行う。
論文 参考訳(メタデータ) (2026-03-28T05:52:04Z) - Health-ORSC-Bench: A Benchmark for Measuring Over-Refusal and Safety Completion in Health Context [82.32380418146656]
Health-ORSC-Benchは、医療におけるtextbfOver-Refusalと textbfSafe Completionの品質を測定するために設計された最初の大規模ベンチマークである。
私たちのフレームワークは、人間の検証を備えた自動パイプラインを使用して、さまざまなレベルの意図の曖昧さでモデルをテストします。
Health-ORSC-Benchは、次世代の医療AIアシスタントを調整するための厳格な標準を提供する。
論文 参考訳(メタデータ) (2026-01-25T01:28:52Z) - Beyond Linear Probes: Dynamic Safety Monitoring for Language Models [67.15793594651609]
従来の安全モニタは、クエリ毎に同じ量の計算を必要とする。
動的アクティベーションモニタリングのための線形プローブの自然な拡張であるTrncated Polynomials (TPCs)を紹介する。
我々の重要な洞察は、TPCを段階的に、短期的に訓練し、評価できるということです。
論文 参考訳(メタデータ) (2025-09-30T13:32:59Z) - Safety Pretraining: Toward the Next Generation of Safe AI [68.99129474671282]
モデルの安全性を最初から構築する,データ中心の事前トレーニングフレームワークを提案する。
我々のフレームワークは、セーフティフィルタリング、セーフティリフレージング、Native Refusal、Harmfulness-Tag Annotated Pretrainingの4つの重要なステップで構成されています。
我々の安全事前訓練モデルでは、一般的な劣化タスクのパフォーマンスを伴わない標準LLM安全性ベンチマークにおいて、攻撃成功率を38.8%から8.4%に下げている。
論文 参考訳(メタデータ) (2025-04-23T17:58:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。