論文の概要: HINTBench: Horizon-agent Intrinsic Non-attack Trajectory Benchmark
- arxiv url: http://arxiv.org/abs/2604.13954v1
- Date: Wed, 15 Apr 2026 15:06:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.595773
- Title: HINTBench: Horizon-agent Intrinsic Non-attack Trajectory Benchmark
- Title(参考訳): HINTBench: 水平エージェント固有の非攻撃軌道ベンチマーク
- Authors: Jiacheng Wang, Jinchang Hou, Fabian Wang, Ping Jian, Chenfu Bao, Zhonghou Lv,
- Abstract要約: リスク検出,リスクステップのローカライゼーション,本質的な障害型識別という3つのタスクをサポートする629個のエージェントトラジェクトリ(523個のリスク,106個のセーフ)のベンチマークを示す。
LLMは軌道レベルのリスク検出では良好に機能するが、リスクステップのローカライゼーションでは35 Strict-F1以下に低下する。
既存のガードモデルは、この設定にあまり対応しない。
- 参考スコア(独自算出の注目度): 6.844336046541052
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing agent-safety evaluation has focused mainly on externally induced risks. Yet agents may still enter unsafe trajectories under benign conditions. We study this complementary but underexplored setting through the lens of \emph{intrinsic} risk, where intrinsic failures remain latent, propagate across long-horizon execution, and eventually lead to high-consequence outcomes. To evaluate this setting, we introduce \emph{non-attack intrinsic risk auditing} and present \textbf{HINTBench}, a benchmark of 629 agent trajectories (523 risky, 106 safe; 33 steps on average) supporting three tasks: risk detection, risk-step localization, and intrinsic failure-type identification. Its annotations are organized under a unified five-constraint taxonomy. Experiments reveal a substantial capability gap: strong LLMs perform well on trajectory-level risk detection, but their performance drops to below 35 Strict-F1 on risk-step localization, while fine-grained failure diagnosis proves even harder. Existing guard models transfer poorly to this setting. These findings establish intrinsic risk auditing as an open challenge for agent safety.
- Abstract(参考訳): 既存のエージェント安全評価は、主に外部から引き起こされるリスクに焦点を当てている。
しかし、エージェントは良質な条件下でも安全でない軌道に入る可能性がある。
本研究は, 内因性障害が潜伏状態のままであり, 長期実行中に伝播し, 結果として高効率な結果がもたらされる, この相補的だが過小評価された設定について検討する。
この設定を評価するために,リスク検出,リスクステップの局所化,本態性障害型識別という3つのタスクをサポートする629のエージェントトラジェクトリ(523のリスク,106のセーフ,平均33のステップ)のベンチマークである,emph{non-attack intential risk auditing} と現在の \textbf{HINTBench} を紹介した。
その注釈は統合された5つの制約の分類の下に組織されている。
強いLSMは軌道レベルのリスク検出において良好に機能するが、その性能はリスクステップのローカライゼーションにおいて35 Strict-F1以下に低下する。
既存のガードモデルは、この設定にあまり対応しない。
これらの結果から,エージェントの安全性に対するオープンな課題として,本質的なリスク監査が確立された。
関連論文リスト
- ATBench: A Diverse and Realistic Agent Trajectory Benchmark for Safety Evaluation and Diagnosis [96.92417622318267]
ATBenchは、エージェント安全性の構造化、多様性、現実的な評価のための軌道レベルのベンチマークである。
リスクソース、障害モード、現実世界の危害の3つの側面に沿ってエージェント的リスクを編成する。
1000個の軌道(安全503個、安全497個)があり、平均9.01ターンと3.95kトークンがあり、2,084個のツールにまたがるプールから1,954個のツールが呼び出されている。
論文 参考訳(メタデータ) (2026-04-02T13:26:20Z) - The Missing Half: Unveiling Training-time Implicit Safety Risks Beyond Deployment [148.80266237240713]
暗黙のトレーニング時間安全リスクは、モデルの内部インセンティブとコンテキスト背景情報によって引き起こされる。
5つのリスクレベル、10つのきめ細かいリスクカテゴリ、3つのインセンティブを持つ分類を導入した。
我々の結果は、過度に見過ごされているが、訓練における緊急の安全上の課題を特定します。
論文 参考訳(メタデータ) (2026-02-04T04:23:58Z) - SafeMind: Benchmarking and Mitigating Safety Risks in Embodied LLM Agents [7.975014390527644]
大規模言語モデル(LLM)を利用したエージェントは、高度な計画能力を継承するが、物理世界との直接的な相互作用は安全上の脆弱性を露呈する。
SafeMindBenchは、4つのタスクカテゴリ(Instr-Risk、Env-Risk、Order-Fix、Req-Align)にまたがる5,558のサンプルを備えたマルチモーダルベンチマークである。
SafeMindAgentはモジュール型Planner-Executorアーキテクチャで、3つのケースドセーフモジュールを統合し、安全性制約を推論プロセスに組み込む。
論文 参考訳(メタデータ) (2025-09-30T07:24:04Z) - RADAR: A Risk-Aware Dynamic Multi-Agent Framework for LLM Safety Evaluation via Role-Specialized Collaboration [81.38705556267917]
大規模言語モデル(LLM)の既存の安全性評価手法は、固有の制約に悩まされている。
リスク概念空間を再構築する理論的枠組みを導入する。
マルチエージェント協調評価フレームワークRADARを提案する。
論文 参考訳(メタデータ) (2025-09-28T09:35:32Z) - LM Agents May Fail to Act on Their Own Risk Knowledge [15.60032437959883]
言語モデル(LM)エージェントは、安全クリティカルなシナリオにおいて、様々な潜在的な、深刻なリスクをもたらす。
Sudo rm -rf /*' が危険なのか?」といった質問に対して "Yes" と答えることが多いが、インスタンス化された軌跡におけるそのようなリスクを特定できない可能性が高い。
論文 参考訳(メタデータ) (2025-08-19T02:46:08Z) - IS-Bench: Evaluating Interactive Safety of VLM-Driven Embodied Agents in Daily Household Tasks [30.535665641990114]
対話型安全性のために設計された最初のマルチモーダルベンチマークであるIS-Benchを紹介する。
高忠実度シミュレーターでインスタンス化された388のユニークな安全リスクを持つ161の挑戦的なシナリオが特徴である。
これは、特定のリスク発生ステップの前/後においてリスク軽減アクションが実行されるかどうかを検証する、プロセス指向の新たな評価を容易にする。
論文 参考訳(メタデータ) (2025-06-19T15:34:46Z) - Beyond Safe Answers: A Benchmark for Evaluating True Risk Awareness in Large Reasoning Models [29.569220030102986]
textbfBeyond Safe Answers (BSA) ベンチは,3つの異なるSSAシナリオタイプに構成された2,000のチャレンジインスタンスからなる,新しいベンチマークである。
19の最先端のLEMの評価では、このベンチマークの難しさが示され、最高性能のモデルはリスクの合理性を正確に識別する上で、わずか38.0%の精度しか達成していない。
我々の研究は、LEMの安全性推論の忠実さを評価し改善するための総合的な評価ツールを提供し、真にリスクを意識し、確実に安全なAIシステムの開発を進める。
論文 参考訳(メタデータ) (2025-05-26T08:49:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。