論文の概要: Beyond single-channel agentic benchmarking
- arxiv url: http://arxiv.org/abs/2602.18456v1
- Date: Thu, 05 Feb 2026 08:22:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 07:21:25.578871
- Title: Beyond single-channel agentic benchmarking
- Title(参考訳): 単チャンネルエージェントベンチマークを超えて
- Authors: Nelu D. Radpour,
- Abstract要約: 本稿では,AIエージェントを分離して評価することで,人間のループ環境に配置した場合の運用上の安全性が低下すると主張している。
にもかかわらず、不完全なAIシステムでさえ、十分に文書化された人間の失敗の原因に対して冗長な監査レイヤーとして機能することで、かなりの安全性を提供することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contemporary benchmarks for agentic artificial intelligence (AI) frequently evaluate safety through isolated task-level accuracy thresholds, implicitly treating autonomous systems as single points of failure. This single-channel paradigm diverges from established principles in safety-critical engineering, where risk mitigation is achieved through redundancy, diversity of error modes, and joint system reliability. This paper argues that evaluating AI agents in isolation systematically mischaracterizes their operational safety when deployed within human-in-the-loop environments. Using a recent laboratory safety benchmark as a case study demonstrates that even imperfect AI systems can nonetheless provide substantial safety utility by functioning as redundant audit layers against well-documented sources of human failure, including vigilance decrement, inattentional blindness, and normalization of deviance. This perspective reframes agentic safety evaluation around the reliability of the human-AI dyad rather than absolute agent accuracy, with a particular emphasis on uncorrelated error modes as the primary determinant of risk reduction. Such a shift aligns AI benchmarking with established practices in other safety-critical domains and offers a path toward more ecologically valid safety assessments.
- Abstract(参考訳): エージェント人工知能(AI)の現代ベンチマークでは、自律的なシステムを単一障害点として暗黙的に扱い、孤立したタスクレベルの精度閾値を通じて安全性を頻繁に評価している。
この単一チャネルのパラダイムは、リスク軽減を冗長性、エラーモードの多様性、共同システムの信頼性を通じて達成する、安全クリティカルエンジニアリングの確立された原則から分岐している。
本稿では,AIエージェントを分離して評価することで,人間のループ環境に配置した場合の運用上の安全性が低下すると主張している。
最近の実験室の安全性ベンチマークをケーススタディとして使用することで、不完全なAIシステムでさえも、警戒の欠如、意図しない盲目、偏見の正規化を含む、人間の失敗の十分な文書化された情報源に対して冗長な監査層として機能することによって、実質的な安全性のユーティリティを提供することができることを示した。
この視点は、絶対的なエージェント精度ではなく、人間-AIダイアドの信頼性に関するエージェント安全性評価を再定義し、特にリスク低減の第一決定要因として、非相関エラーモードに重点を置いている。
このようなシフトは、AIベンチマークを他の安全クリティカルな領域の確立したプラクティスと整合させ、より生態学的に有効な安全性評価への道筋を提供する。
関連論文リスト
- The Necessity of a Holistic Safety Evaluation Framework for AI-Based Automation Features [0.0]
運転自動化機能に関する機能的安全性(SOTIF)と機能的安全性(FuSa)の分析は、伝統的に、厳格な安全影響評価から品質管理(QM)コンポーネントを除外してきた。
人工知能(AI)統合の最近の進歩は、そのようなコンポーネントがSOTIF関連の有害リスクに寄与できることを明らかにしている。
本稿では、AIコンポーネントのリスクを特定し軽減するために、包括的FuSa、SOTIF、AI標準駆動手法を採用することを主張する。
論文 参考訳(メタデータ) (2026-02-05T00:22:24Z) - SafeEvalAgent: Toward Agentic and Self-Evolving Safety Evaluation of LLMs [37.82193156438782]
本稿では, エージェント安全評価の新しいパラダイムとして, 継続的かつ自己進化的なプロセスとしてのリフレーミング評価を提案する。
本稿では、構造化されていないポリシー文書を自律的に取り込み、包括的な安全ベンチマークを生成し、永続的に進化させる、新しいマルチエージェントフレームワークSafeEvalAgentを提案する。
本実験はSafeEvalAgentの有効性を実証し,評価が強まるにつれてモデルの安全性が一貫した低下を示す。
論文 参考訳(メタデータ) (2025-09-30T11:20:41Z) - AURA: Affordance-Understanding and Risk-aware Alignment Technique for Large Language Models [6.059681491089391]
AURAは論理的一貫性と安全性を認識した総合的、段階的な評価を提供する。
本フレームワークは, 内省的自己批判, きめ細かいPRM評価, 適応型安全認識復号をシームレスに結合する。
この研究は、アライメントに敏感なアプリケーションのための新しいベンチマークを設定することで、より安全で責任があり、コンテキストに敏感なAIに向けた重要なステップである。
論文 参考訳(メタデータ) (2025-08-08T08:43:24Z) - Towards provable probabilistic safety for scalable embodied AI systems [79.31011047593492]
エンボディードAIシステムは、様々なアプリケーションでますます普及している。
複雑な運用環境での安全性確保は依然として大きな課題である。
このパースペクティブは、安全で大規模に実施されたAIシステムを安全クリティカルなアプリケーションに採用するための道筋を提供する。
論文 参考訳(メタデータ) (2025-06-05T15:46:25Z) - Safely Learning Controlled Stochastic Dynamics [61.82896036131116]
システム力学の安全な探索と効率的な推定を可能にする手法を提案する。
学習後、学習モデルはシステムのダイナミクスの予測を可能にし、任意の制御の安全性検証を可能にする。
我々は、真の力学のソボレフ正則性を高めることにより、安全性と適応学習率の向上を理論的に保証する。
論文 参考訳(メタデータ) (2025-06-03T11:17:07Z) - Engineering Risk-Aware, Security-by-Design Frameworks for Assurance of Large-Scale Autonomous AI Models [0.0]
本稿では,大規模自律型AIシステムを対象とした企業レベルのリスク認識型セキュリティ・バイ・デザイン手法を提案する。
敵的および運用的ストレス下でのモデル動作の証明可能な保証を提供する統一パイプラインについて詳述する。
国家安全保障、オープンソースモデルガバナンス、産業自動化におけるケーススタディは、脆弱性とコンプライアンスのオーバーヘッドの計測可能な削減を実証している。
論文 参考訳(メタデータ) (2025-05-09T20:14:53Z) - Domain-Agnostic Scalable AI Safety Ensuring Framework [6.421238475415244]
高い性能を維持しつつ、強力な安全保証を実現するための、ドメインに依存しない最初のAI安全フレームワークを提案する。
本フレームワークは,(1) 確率制約付き最適化コンポーネント,(2) 安全性分類モデル,(3) 内部試験データ,(4) 保守的試験手順,(5) 情報的データセット品質測定,(6) 勾配勾配を有する連続近似損失関数を含む。
論文 参考訳(メタデータ) (2025-04-29T16:38:35Z) - SafetyAnalyst: Interpretable, Transparent, and Steerable Safety Moderation for AI Behavior [56.10557932893919]
我々は、新しいAI安全モデレーションフレームワークであるSafetyAnalystを紹介する。
AIの振る舞いを考えると、SafetyAnalystはチェーン・オブ・シークレット・推論を使用してその潜在的な結果を分析する。
効果を28個の完全に解釈可能な重みパラメータを使って有害度スコアに集約する。
論文 参考訳(メタデータ) (2024-10-22T03:38:37Z) - EARBench: Towards Evaluating Physical Risk Awareness for Task Planning of Foundation Model-based Embodied AI Agents [53.717918131568936]
EAI(Embodied AI)は、高度なAIモデルを現実世界のインタラクションのための物理的なエンティティに統合する。
高レベルのタスク計画のためのEAIエージェントの"脳"としてのファンデーションモデルは、有望な結果を示している。
しかし、これらのエージェントの物理的環境への展開は、重大な安全性上の課題を呈している。
本研究では,EAIシナリオにおける身体的リスクの自動評価のための新しいフレームワークEARBenchを紹介する。
論文 参考訳(メタデータ) (2024-08-08T13:19:37Z) - Safe Inputs but Unsafe Output: Benchmarking Cross-modality Safety Alignment of Large Vision-Language Model [73.8765529028288]
我々は、モダリティ間の安全アライメントを評価するために、セーフインプットとアンセーフアウトプット(SIUO)と呼ばれる新しい安全アライメントの課題を導入する。
この問題を実証的に調査するため,我々はSIUOを作成した。SIUOは,自己修復,違法行為,プライバシー侵害など,9つの重要な安全領域を含むクロスモダリティベンチマークである。
以上の結果から, クローズドおよびオープンソース両方のLVLMの安全性上の重大な脆弱性が明らかとなり, 複雑で現実的なシナリオを確実に解釈し, 応答する上で, 現行モデルが不十分であることが示唆された。
論文 参考訳(メタデータ) (2024-06-21T16:14:15Z) - ASSERT: Automated Safety Scenario Red Teaming for Evaluating the
Robustness of Large Language Models [65.79770974145983]
ASSERT、Automated Safety Scenario Red Teamingは、セマンティックなアグリゲーション、ターゲットブートストラップ、敵の知識注入という3つの方法で構成されている。
このプロンプトを4つの安全領域に分割し、ドメインがモデルの性能にどのように影響するかを詳細に分析する。
統計的に有意な性能差は, 意味的関連シナリオにおける絶対分類精度が最大11%, ゼロショット逆数設定では最大19%の絶対誤差率であることがわかった。
論文 参考訳(メタデータ) (2023-10-14T17:10:28Z) - Evaluating the Safety of Deep Reinforcement Learning Models using
Semi-Formal Verification [81.32981236437395]
本稿では,区間分析に基づく半形式的意思決定手法を提案する。
本手法は, 標準ベンチマークに比較して, 形式検証に対して比較結果を得る。
提案手法は, 意思決定モデルにおける安全性特性を効果的に評価することを可能にする。
論文 参考訳(メタデータ) (2020-10-19T11:18:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。