論文の概要: SafetyDrift: Predicting When AI Agents Cross the Line Before They Actually Do
- arxiv url: http://arxiv.org/abs/2603.27148v1
- Date: Sat, 28 Mar 2026 05:52:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.812916
- Title: SafetyDrift: Predicting When AI Agents Cross the Line Before They Actually Do
- Title(参考訳): SafetyDrift:AIエージェントが実際にやる前に線を横切るときの予測
- Authors: Aditya Dhodapkar, Farhaan Pishori,
- Abstract要約: SafetyDriftモデルでは、安全軌道をマルコフ連鎖の吸収として扱う。
コミュニケーションタスクでは、軽度のリスク状態にまで達するエージェントは、5段階以内に安全を侵害する確率が85%である。
これらのモデル上に構築されたモニターは94.7%の違反を検知し、3.7ステップの事前警告を無視可能な計算コストで行う。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When an LLM agent reads a confidential file, then writes a summary, then emails it externally, no single step is unsafe, but the sequence is a data leak. We call this safety drift: individually safe actions compounding into violations. Prior work has measured this problem; we predict it. SafetyDrift models agent safety trajectories as absorbing Markov chains, computing the probability that a trajectory will reach a violation within a given number of steps via closed form absorption analysis. A consequence of the monotonic state design is that every agent will eventually violate safety if left unsupervised (absorption probability 1.0 from all states), making the practical question not if but when, and motivating our focus on finite horizon prediction. Across 357 traces spanning 40 realistic tasks in four categories, we discover that "points of no return" are sharply task dependent: in communication tasks, agents that reach even a mild risk state have an 85% chance of violating safety within five steps, while in technical tasks the probability stays below 5% from any state. A lightweight monitor built on these models detects 94.7% of violations with 3.7 steps of advance warning at negligible computational cost, outperforming both keyword matching (44.7% detection, 55.9% false positive rate) and per step LLM judges (52.6% detection, 38.2% false positive rate) while running over 60,000x faster.
- Abstract(参考訳): LLMエージェントが機密ファイルを読み込み、サマリを書き、それを外部にメールすると、単一のステップは安全ではないが、シーケンスはデータ漏洩である。
私たちはこの安全ドリフトを、個々に安全な行動が違反に混じりあう、と呼んでいる。
これまでの作業はこの問題を計測し、予測しました。
SafetyDriftモデルでは、安全軌道をマルコフ連鎖を吸収するものとして扱い、閉形式吸収分析により、軌道が所定のステップ内で違反する確率を計算する。
単調な状態設計の結果、すべてのエージェントが監督されていない(全ての状態からの吸収確率1.0)場合、最終的に安全に反するようになり、実際的な疑問はいつなのかではなく、有限地平線予測に焦点をあてることである。
コミュニケーションタスクでは、軽度リスク状態にまで達するエージェントは5ステップ以内に安全を侵害する確率が85%、技術的タスクでは確率はどの状態からでも5%以下である。
これらのモデル上に構築された軽量モニターは、94.7%の違反を検知し、3.7ステップの事前警告を無視可能な計算コストで検出し、キーワードマッチング(44.7%の検出、55.9%の偽陽性率)とステップごとのLCM判定(52.6%の検出、38.2%の偽陽性率)の両方を上回った。
関連論文リスト
- Safety Recovery in Reasoning Models Is Only a Few Early Steering Steps Away [97.11976870616273]
本稿では,安全回復を目的ではなく満足度の高い制約として扱う軽量な推論時防衛法を提案する。
6つのオープンソースMLRMと4つのjailbreakベンチマークで評価した結果、SafeThinkは攻撃成功率を30~60%削減しました。
論文 参考訳(メタデータ) (2026-02-11T18:09:17Z) - StepShield: When, Not Whether to Intervene on Rogue Agents [1.472404880217315]
既存のエージェント安全ベンチマークはバイナリの精度を報告し、死後分析の早期介入を混同している。
違反を検出する最初のベンチマークであるStepShieldを紹介します。
StepShieldは、評価の焦点をいつから移行することによって、より安全で経済的に実行可能なAIエージェントを構築するための、新たな基盤を提供する。
論文 参考訳(メタデータ) (2026-01-29T18:55:46Z) - Pro2Guard: Proactive Runtime Enforcement of LLM Agent Safety via Probabilistic Model Checking [8.970702398918924]
大規模言語モデル(LLM)エージェントは、ロボット工学、仮想アシスタント、Webオートメーションといった分野にまたがる強力な自律能力を示す。
AgentSpecのような既存のルールベースの執行システムは、リアクティブな安全ルールの開発に重点を置いている。
本稿では,確率的到達可能性解析に基づくプロアクティブ実行時実行フレームワークPro2Guardを提案する。
論文 参考訳(メタデータ) (2025-08-01T10:24:47Z) - Towards Evaluating Proactive Risk Awareness of Multimodal Language Models [39.44421152112219]
プロアクティブな安全人工知能(AI)システムは、リアクティブシステムよりもうまく機能する。
PaSBenchは416のマルチモーダルシナリオを通じてこの機能を評価する。
Gemini-2.5-proのようなトップパフォーマーは、71%のイメージと64%のテキスト精度を達成したが、繰り返しトライアルで45-55%のリスクを逃した。
論文 参考訳(メタデータ) (2025-05-23T04:28:47Z) - When Uncertainty Leads to Unsafety: Empirical Insights into the Role of Uncertainty in Unmanned Aerial Vehicle Safety [9.432686404777584]
本研究は、UAVの行動の不確実性と飛行の不安全との関係について検討する。
不確実性を定量化することにより、飛行スーパーバイザーとして機能する安全でない予測器を開発することができる。
スーパーリアリストは、96%の精度と93%のリコールで不確実な振る舞いを検出することで高いパフォーマンスを達成した。
論文 参考訳(メタデータ) (2025-01-15T16:18:13Z) - Criticality and Safety Margins for Reinforcement Learning [53.10194953873209]
我々は,定量化基盤真理とユーザにとっての明確な意義の両面から,批判的枠組みを定めようとしている。
エージェントがn連続的ランダム動作に対するポリシーから逸脱した場合の報酬の減少として真臨界を導入する。
我々はまた、真の臨界と統計的に単調な関係を持つ低オーバーヘッド計量であるプロキシ臨界の概念も導入する。
論文 参考訳(メタデータ) (2024-09-26T21:00:45Z) - Safeguarded Progress in Reinforcement Learning: Safe Bayesian
Exploration for Control Policy Synthesis [63.532413807686524]
本稿では、強化学習(RL)におけるトレーニング中の安全維持の問題に対処する。
探索中の効率的な進捗と安全性のトレードオフを扱う新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-12-18T16:09:43Z) - Safety Margins for Reinforcement Learning [53.10194953873209]
安全マージンを生成するためにプロキシ臨界度メトリクスをどのように活用するかを示す。
Atari 環境での APE-X と A3C からの学習方針に対するアプローチを評価する。
論文 参考訳(メタデータ) (2023-07-25T16:49:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。