論文の概要: SafePred: A Predictive Guardrail for Computer-Using Agents via World Models
- arxiv url: http://arxiv.org/abs/2602.01725v1
- Date: Mon, 02 Feb 2026 07:04:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.967462
- Title: SafePred: A Predictive Guardrail for Computer-Using Agents via World Models
- Title(参考訳): SafePred:世界モデルによるコンピュータ利用エージェントの予測ガードレール
- Authors: Yurun Chen, Zeyi Liao, Ping Yin, Taotao Xie, Keting Yin, Shengyu Zhang,
- Abstract要約: 本稿では,複雑な実環境におけるコンピュータ利用エージェント(CUA)の予測ガードレールフレームワークであるSafePredを紹介する。
このアプローチに基づいて,安全なエージェント動作を確保するためのリスク・ツー・意思決定ループを確立するSafePredを提案する。
大規模な実験の結果、SafePredはリスクの高い振る舞いを著しく減らし、97.6%以上の安全性能を達成し、リアクティブベースラインと比較してタスクユーティリティを最大21.4%改善した。
- 参考スコア(独自算出の注目度): 12.569157125705052
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the widespread deployment of Computer-using Agents (CUAs) in complex real-world environments, prevalent long-term risks often lead to severe and irreversible consequences. Most existing guardrails for CUAs adopt a reactive approach, constraining agent behavior only within the current observation space. While these guardrails can prevent immediate short-term risks (e.g., clicking on a phishing link), they cannot proactively avoid long-term risks: seemingly reasonable actions can lead to high-risk consequences that emerge with a delay (e.g., cleaning logs leads to future audits being untraceable), which reactive guardrails cannot identify within the current observation space. To address these limitations, we propose a predictive guardrail approach, with the core idea of aligning predicted future risks with current decisions. Based on this approach, we present SafePred, a predictive guardrail framework for CUAs that establishes a risk-to-decision loop to ensure safe agent behavior. SafePred supports two key abilities: (1) Short- and long-term risk prediction: by using safety policies as the basis for risk prediction, SafePred leverages the prediction capability of the world model to generate semantic representations of both short-term and long-term risks, thereby identifying and pruning actions that lead to high-risk states; (2) Decision optimization: translating predicted risks into actionable safe decision guidances through step-level interventions and task-level re-planning. Extensive experiments show that SafePred significantly reduces high-risk behaviors, achieving over 97.6% safety performance and improving task utility by up to 21.4% compared with reactive baselines.
- Abstract(参考訳): 複雑な現実世界環境にコンピュータ・ユース・エージェント(CUA)が広く配備されているため、長期的リスクは重大かつ不可逆的な結果をもたらすことが多い。
CUAの既存のガードレールはリアクティブアプローチを採用しており、現在の観測空間内でのみエージェントの動作を制限している。
これらのガードレールはすぐに短期的なリスク(例えばフィッシングリンクをクリックするなど)を防ぐことができるが、長期的なリスクを積極的に回避することはできない。
これらの制約に対処するために,予測される将来のリスクを現在の決定と整合させる,予測的ガードレールアプローチを提案する。
このアプローチに基づいて,安全なエージェント動作を確保するためのリスク・ツー・意思決定ループを確立する,CUAの予測ガードレールフレームワークであるSafePredを提案する。
SafePredは,(1)短期リスク予測と長期リスク予測:リスク予測の基盤として安全ポリシーを用いることで,世界モデルの予測能力を活用し,短期リスクと長期リスクの両方のセマンティック表現を生成することにより,リスクの高い状態につながる行動の特定と解析,(2)意思決定最適化:ステップレベルの介入とタスクレベルの再計画を通じて,予測されたリスクを実行可能な安全な意思決定ガイダンスに変換する。
大規模な実験の結果、SafePredはリスクの高い振る舞いを著しく減らし、97.6%以上の安全性能を達成し、リアクティブベースラインと比較してタスクユーティリティを最大21.4%改善した。
関連論文リスト
- Constrained Language Model Policy Optimization via Risk-aware Stepwise Alignment [49.2305683068875]
本稿では,リスク認識を政策最適化プロセスに組み込んだ新しいアライメント手法であるリスク対応ステップワイドアライメント(RSA)を提案する。
RSAは、過剰なモデルシフトによって引き起こされるリスクを基準方針から緩和し、低確率で高影響の有害な振る舞いを明示的に抑制する。
実験により, 本手法は高い安全性を確保しつつ, 高い安全性を達成できることが確認された。
論文 参考訳(メタデータ) (2025-12-30T14:38:02Z) - RoboSafe: Safeguarding Embodied Agents via Executable Safety Logic [56.38397499463889]
視覚言語モデル(VLM)を利用するエージェントは、複雑な現実世界のタスクを実行する能力がますます高まっている。
しかし、安全でない行動を引き起こす可能性のある危険な指示に弱いままである。
提案するRoboSafeは,実行可能述語ベースの安全ロジックを通じて,エージェントを具体化するためのランタイムセーフガードである。
論文 参考訳(メタデータ) (2025-12-24T15:01:26Z) - Accident Anticipation via Temporal Occurrence Prediction [15.813749445439292]
事故予測は、潜在的な衝突をオンラインで予測することを目的としており、タイムリーな警報によって道路の安全性を高めることができる。
既存の手法では、リスクの指標としてフレームレベルのリスクスコアを予測するのが一般的である。
本稿では,予測対象を現在のフレームリスクスコアから,将来の複数段階における事故スコアを直接推定するパラダイムを提案する。
論文 参考訳(メタデータ) (2025-10-25T11:57:22Z) - Building a Foundational Guardrail for General Agentic Systems via Synthetic Data [76.18834864749606]
LLMエージェントは、計画段階で介入するマルチステップタスクを計画できる。
既存のガードレールは主にポスト・エグゼクティブ(英語版)を運用しており、スケーリングが困難であり、計画レベルで制御可能な監督を行う余地がほとんどない。
我々は、良性軌道を合成し、カテゴリーラベル付きリスクを困難に注入し、自動報酬モデルを介して出力をフィルタリングする制御可能なエンジンであるAuraGenを紹介する。
論文 参考訳(メタデータ) (2025-10-10T18:42:32Z) - Pro2Guard: Proactive Runtime Enforcement of LLM Agent Safety via Probabilistic Model Checking [8.970702398918924]
大規模言語モデル(LLM)エージェントは、ロボット工学、仮想アシスタント、Webオートメーションといった分野にまたがる強力な自律能力を示す。
AgentSpecのような既存のルールベースの執行システムは、リアクティブな安全ルールの開発に重点を置いている。
本稿では,確率的到達可能性解析に基づくプロアクティブ実行時実行フレームワークPro2Guardを提案する。
論文 参考訳(メタデータ) (2025-08-01T10:24:47Z) - A new machine learning framework for occupational accidents forecasting with safety inspections integration [0.9562145896371785]
本稿では,安全検査および事故発生をバイナリ時系列としてモデル化した,短期的事故予測のための総合的枠組みを提案する。
提案手法は,日常的な安全検査データを明確な週間リスクスコアに変換し,事故の可能性が最も高い時期を検出する。
論文 参考訳(メタデータ) (2025-06-30T09:28:11Z) - Safety Margins for Reinforcement Learning [53.10194953873209]
安全マージンを生成するためにプロキシ臨界度メトリクスをどのように活用するかを示す。
Atari 環境での APE-X と A3C からの学習方針に対するアプローチを評価する。
論文 参考訳(メタデータ) (2023-07-25T16:49:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。