論文の概要: STARS: Skill-Triggered Audit for Request-Conditioned Invocation Safety in Agent Systems
- arxiv url: http://arxiv.org/abs/2604.10286v1
- Date: Sat, 11 Apr 2026 17:06:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.938372
- Title: STARS: Skill-Triggered Audit for Request-Conditioned Invocation Safety in Agent Systems
- Title(参考訳): STARS:エージェントシステムにおける要求条件付き呼び出し安全のためのスキルトリガー型監査
- Authors: Guijia Zhang, Shu Yang, Xilin Gong, Di Wang,
- Abstract要約: 本研究では,継続的リスク推定問題として,スキル実践監査について検討する。
本稿では,事前の静的機能,要求条件付き呼び出しリスクモデル,キャリブレーションされたリスク融合ポリシを組み合わせたSTARSを紹介する。
- 参考スコア(独自算出の注目度): 7.113898593395509
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous language-model agents increasingly rely on installable skills and tools to complete user tasks. Static skill auditing can expose capability surface before deployment, but it cannot determine whether a particular invocation is unsafe under the current user request and runtime context. We therefore study skill invocation auditing as a continuous-risk estimation problem: given a user request, candidate skill, and runtime context, predict a score that supports ranking and triage before a hard intervention is applied. We introduce STARS, which combines a static capability prior, a request-conditioned invocation risk model, and a calibrated risk-fusion policy. To evaluate this setting, we construct SIA-Bench, a benchmark of 3,000 invocation records with group-safe splits, lineage metadata, runtime context, canonical action labels, and derived continuous-risk targets. On a held-out split of indirect prompt injection attacks, calibrated fusion reaches 0.439 high-risk AUPRC, improving over 0.405 for the contextual scorer and 0.380 for the strongest static baseline, while the contextual scorer remains better calibrated with 0.289 expected calibration error. On the locked in-distribution test split, gains are smaller and static priors remain useful. The resulting claim is therefore narrower: request-conditioned auditing is most valuable as an invocation-time risk-scoring and triage layer rather than as a replacement for static screening. Code is available at https://github.com/123zgj123/STARS.
- Abstract(参考訳): 自律的な言語モデルエージェントは、ユーザタスクを完了するためのインストール可能なスキルやツールにますます依存している。
静的スキル監査はデプロイ前に機能面を公開することができるが、現在のユーザ要求と実行時のコンテキスト下で特定の呼び出しが安全でないかどうかを判断することはできない。
そこで,本研究では,ユーザ要求,候補スキル,実行時のコンテキストを考慮し,厳格な介入が適用される前に,ランキングとトリアージをサポートするスコアを推定する。
本稿では,事前の静的機能,要求条件付き呼び出しリスクモデル,キャリブレーションされたリスク融合ポリシを組み合わせたSTARSを紹介する。
この設定を評価するために、グループセーフなスプリット、系統メタデータ、ランタイムコンテキスト、標準アクションラベル、派生した連続リスクターゲットを含む3000の呼び出しレコードのベンチマークであるSIA-Benchを構築した。
間接的インジェクション攻撃の断続的な分割では、校正された核融合は0.439の高リスクAUPRCに達し、文脈スコアラは0.405、最強の静的ベースラインは0.380、文脈スコアラは0.289のキャリブレーション誤差で校正されたままである。
ロックされた分散テストの分割では、ゲインは小さく、静的な事前処理は有用である。
要求条件付き監査は、静的スクリーニングの代替としてではなく、呼び出し時のリスクスコア付けとトリアージ層として最も価値がある。
コードはhttps://github.com/123zgj123/STARSで入手できる。
関連論文リスト
- CORA: Conformal Risk-Controlled Agents for Safeguarded Mobile GUI Automation [68.53387633351484]
有害な行為に対する統計的保証を提供するポスト・ポリティクス・プレアクション保護フレームワークであるCORA(Conformal Risk-control GUI Agent)を提案する。
CORAは、安全を選択的行動実行として再定義する:我々は、提案されたステップごとに行動条件リスクを推定するためにガーディアンモデルを訓練する。
このパラダイムを厳格に評価するために、ステップレベルのハーモラベルを持つモバイル安全違反の新しいベンチマークであるPhone-Harmを紹介する。
論文 参考訳(メタデータ) (2026-04-10T09:41:21Z) - Quantifying Self-Preservation Bias in Large Language Models [9.590157416396194]
本稿では,emphTwo-role Benchmark for Self-Preservationを紹介する。
役割アイデンティティが客観的ユーティリティを過度に上回る頻度を測定する。
我々は,低改善体制下では,モデルが解釈スラックを利用してポストホック合理化を行うのを観察する。
論文 参考訳(メタデータ) (2026-04-02T15:38:31Z) - Who Tests the Testers? Systematic Enumeration and Coverage Audit of LLM Agent Tool Call Safety [32.40159096400358]
大規模言語モデル(LLM)エージェントは、テキスト生成のみではなく、ツールコールに安全を集中させる外部ツールを通じて、ますます機能するようになっている。
最近のベンチマークでは、さまざまな環境やリスクカテゴリにまたがるエージェントを評価しているが、根本的な疑問は解決されていない。
まず、有効なツールコールと多様なユーザシナリオを列挙して、テストケースを体系的に生成する列挙子。次に、非セマンティックで定量的な尺度であるルール耐性を導入する。
論文 参考訳(メタデータ) (2026-03-18T20:06:47Z) - Fundamental Limits of Black-Box Safety Evaluation: Information-Theoretic and Computational Barriers from Latent Context Conditioning [1.9290392443571385]
AIシステムのブラックボックス安全性評価では、テストディストリビューションのモデル動作がデプロイメントのパフォーマンスを確実に予測していると仮定する。
我々は、この仮定を、潜伏した文脈条件のポリシーによって定式化し、挑戦する。
ブラックボックス評価者が配置リスクを確実に見積もることができないという基本的な制限を確立します。
論文 参考訳(メタデータ) (2026-02-19T01:03:11Z) - Defenses Against Prompt Attacks Learn Surface Heuristics [40.392588465939106]
大規模言語モデル(LLM)は、セキュリティに敏感なアプリケーションにますますデプロイされている。
LLMは、ユーザクエリや検索されたコンテンツに逆命令が現れるとき、意図したロジックをオーバーライドすることができる。
最近の防衛は、良心と悪意のあるラベルによる監督された微調整に依存している。
論文 参考訳(メタデータ) (2026-01-12T04:12:48Z) - COIN: Uncertainty-Guarding Selective Question Answering for Foundation Models with Provable Risk Guarantees [51.5976496056012]
COINは、統計的に有効な閾値を校正し、質問毎に1つの生成された回答をフィルタリングする不確実性保護選択フレームワークである。
COINはキャリブレーションセット上で経験的誤差率を推定し、信頼区間法を適用して真誤差率に高い確率上界を確立する。
リスク管理におけるCOINの堅牢性,許容回答を維持するための強いテストタイムパワー,キャリブレーションデータによる予測効率を実証する。
論文 参考訳(メタデータ) (2025-06-25T07:04:49Z) - Proximal Ranking Policy Optimization for Practical Safety in Counterfactual Learning to Rank [64.44255178199846]
本稿では,ユーザ行動に関する仮定を伴わずにデプロイの安全性を提供する,PRPO (proximal ranking Policy Optimization) という新しいアプローチを提案する。
PRPOは、安全なランキングモデルとは相容れないランキング行動を学ぶためのインセンティブを取り除きます。
実験の結果,PRPOは既存の安全逆性評価手法よりも高い性能を示すことがわかった。
論文 参考訳(メタデータ) (2024-09-15T22:22:27Z) - Practical and Robust Safety Guarantees for Advanced Counterfactual Learning to Rank [64.44255178199846]
我々は、既存の安全CLTRアプローチを一般化し、最先端の2重ロバストCLTRに適用する。
また,ユーザ行動に関する仮定を伴わずにデプロイの安全性を提供するPRPO(proximal ranking Policy Optimization)を提案する。
PRPOは、デプロイ時に無条件の安全性を持つ最初の方法であり、現実世界のアプリケーションの堅牢な安全性に変換される。
論文 参考訳(メタデータ) (2024-07-29T12:23:59Z) - Safe Deployment for Counterfactual Learning to Rank with Exposure-Based
Risk Minimization [63.93275508300137]
本稿では,安全な配置を理論的に保証する新たなリスク認識型対実学習ランク法を提案する。
提案手法の有効性を実験的に検証し,データが少ない場合の動作不良の早期回避に有効であることを示す。
論文 参考訳(メタデータ) (2023-04-26T15:54:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。