論文の概要: Toward a Principled Framework for Agent Safety Measurement
- arxiv url: http://arxiv.org/abs/2605.01644v1
- Date: Sat, 02 May 2026 23:34:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.865377
- Title: Toward a Principled Framework for Agent Safety Measurement
- Title(参考訳): エージェント安全測定の原則化に向けて
- Authors: Shuyi Lin, Anshuman Suri, Alina Oprea, Cheng Tan,
- Abstract要約: LLMエージェントは、テキストだけでなくアクションを発行し、一度取り込まれると、これらのアクションを無効にすることはできない。
我々は、エージェントの安全性はサンプリングではなく、検索によって測定されるべきであると主張している。
予算内軌道空間を探索するフレームワークであるBOAを適用し,安全性スコアを報告する。
- 参考スコア(独自算出の注目度): 12.87651053316749
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLM agents emit actions, not just text, and once taken, those actions often cannot be undone. Yet today's agent-safety evaluations run greedy or a few sampled rollouts and report a single safe/unsafe rate -- blind to the long-tail trajectories where unsafe behavior may arise from low-probability but non-negligible actions. We argue agent safety should be measured by search, not sampling. We apply BOA, a framework that, given a deployment configuration (model, decoder, prompt, environment, judger, likelihood budget), searches the in-budget trajectory space and reports a safety score: the probability the agent stays safe under the configuration. BOA searches both within a single LLM round and across the agent-environment interaction tree under a given likelihood budget, and makes search practical via batched decoding/judging, prefix caching, and chunked tree expansion. On agent-safety workloads, BOA discovers unsafe trajectories that greedy and sampled evaluations miss. BOA can additionally be used for ranking models, defenses, and attacks, all on the same scale, with manageable GPU costs.
- Abstract(参考訳): LLMエージェントは、テキストだけでなくアクションを発行し、一度取り込まれると、これらのアクションを無効にすることはできない。
しかし、今日のエージェントセーフティ評価は、greedyまたはいくつかのサンプルロールアウトを実行し、単一のセーフ/アンセーフレートを報告します。
我々は、エージェントの安全性はサンプリングではなく、検索によって測定されるべきであると主張している。
BOAは、配置設定(モデル、デコーダ、プロンプト、環境、判断者、確率予算)を与えられた場合、予算内軌道空間を探索し、安全スコアを報告する。
BOA は 1 つの LLM ラウンド内およびエージェント環境相互作用ツリー内を所定の確率予算で探索し,バッチデコード/アジャッジ,プレフィックスキャッシング,チャンクツリー拡張による探索を実用的なものにする。
エージェントセーフティのワークロードにおいて、BOAは、欲求とサンプル評価が見逃す安全でないトラジェクトリを発見する。
さらにBOAは、管理可能なGPUコストで、モデル、ディフェンス、アタックのランク付けに使用することができる。
関連論文リスト
- The Causal Impact of Tool Affordance on Safety Alignment in LLM Agents [0.3823356975862005]
本研究は,大規模言語モデル(LLM)の安全アライメントがいかに変化するかを実証的に検証する。
決定論的金融取引環境において、1500シナリオにわたる二元的安全制約を伴う実験を行う。
どちらのモデルも、テキストのみの設定では完全なコンプライアンスを維持しているが、ツールアクセスが導入されると、違反が大幅に増加する。
論文 参考訳(メタデータ) (2026-03-19T23:34:46Z) - DRAFT: Task Decoupled Latent Reasoning for Agent Safety [59.46137757545185]
DRAFT(Task Decoupled Latent Reasoning for Agent Safety)を提案する。
エクストラクターは、完全な軌跡をコンパクトな連続的な潜伏ドラフトに蒸留し、リゾナーはドラフトと元の軌跡に共同で参加して安全性を予測する。
DRAFTの精度は63.27%(LoRA)から91.18%に向上した。
論文 参考訳(メタデータ) (2026-02-11T07:45:14Z) - RoboSafe: Safeguarding Embodied Agents via Executable Safety Logic [56.38397499463889]
視覚言語モデル(VLM)を利用するエージェントは、複雑な現実世界のタスクを実行する能力がますます高まっている。
しかし、安全でない行動を引き起こす可能性のある危険な指示に弱いままである。
提案するRoboSafeは,実行可能述語ベースの安全ロジックを通じて,エージェントを具体化するためのランタイムセーフガードである。
論文 参考訳(メタデータ) (2025-12-24T15:01:26Z) - SafeAgentBench: A Benchmark for Safe Task Planning of Embodied LLM Agents [58.65256663334316]
我々は,対話型シミュレーション環境におけるLLMエージェントの安全性を考慮したタスク計画のための最初のベンチマークであるSafeAgentBenchを紹介する。
SafeAgentBenchは、(1)10の潜在的な危険と3つのタスクタイプをカバーするために厳格にキュレートされた750のタスクの実行可能な多種多様な高品質データセット、(2)低レベルコントローラを備えた普遍的な実施環境、9つの最先端ベースラインに対して17のハイレベルアクションでマルチエージェント実行をサポートするSafeAgentEnv、(3)実行とセマンティックの両方の観点から信頼性の高い評価方法を含む。
論文 参考訳(メタデータ) (2024-12-17T18:55:58Z) - Safety Margins for Reinforcement Learning [53.10194953873209]
安全マージンを生成するためにプロキシ臨界度メトリクスをどのように活用するかを示す。
Atari 環境での APE-X と A3C からの学習方針に対するアプローチを評価する。
論文 参考訳(メタデータ) (2023-07-25T16:49:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。