論文の概要: SafePro: Evaluating the Safety of Professional-Level AI Agents
- arxiv url: http://arxiv.org/abs/2601.06663v1
- Date: Sat, 10 Jan 2026 19:53:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.925318
- Title: SafePro: Evaluating the Safety of Professional-Level AI Agents
- Title(参考訳): SafePro: プロフェッショナルレベルのAIエージェントの安全性を評価する
- Authors: Kaiwen Zhou, Shreedhar Jangam, Ashwin Nagarajan, Tejas Polu, Suhas Oruganti, Chengzhi Liu, Ching-Chen Kuo, Yuting Zheng, Sravana Narayanaraju, Xin Eric Wang,
- Abstract要約: 大規模言語モデルに基づくエージェントは、単純な会話アシスタントから、複雑な専門レベルのタスクを実行することができる自律システムへと急速に進化している。
既存の安全性評価は、主に単純で日常的な支援作業に重点を置いており、複雑な意思決定プロセスのキャプチャーに失敗し、プロフェッショナルな設定で不正に整合した行動の潜在的な影響がある。
プロの活動を行うAIエージェントの安全性アライメントを評価するために設計されたベンチマークであるSafeProを紹介する。
- 参考スコア(独自算出の注目度): 29.90240552544994
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model-based agents are rapidly evolving from simple conversational assistants into autonomous systems capable of performing complex, professional-level tasks in various domains. While these advancements promise significant productivity gains, they also introduce critical safety risks that remain under-explored. Existing safety evaluations primarily focus on simple, daily assistance tasks, failing to capture the intricate decision-making processes and potential consequences of misaligned behaviors in professional settings. To address this gap, we introduce \textbf{SafePro}, a comprehensive benchmark designed to evaluate the safety alignment of AI agents performing professional activities. SafePro features a dataset of high-complexity tasks across diverse professional domains with safety risks, developed through a rigorous iterative creation and review process. Our evaluation of state-of-the-art AI models reveals significant safety vulnerabilities and uncovers new unsafe behaviors in professional contexts. We further show that these models exhibit both insufficient safety judgment and weak safety alignment when executing complex professional tasks. In addition, we investigate safety mitigation strategies for improving agent safety in these scenarios and observe encouraging improvements. Together, our findings highlight the urgent need for robust safety mechanisms tailored to the next generation of professional AI agents.
- Abstract(参考訳): 大規模言語モデルに基づくエージェントは、単純な対話アシスタントから、様々なドメインで複雑なプロフェッショナルレベルのタスクを実行することができる自律システムへと急速に進化している。
これらの進歩は生産性の大幅な向上を約束する一方で、未調査のままの重大な安全リスクももたらします。
既存の安全性評価は、主に単純で日常的な支援作業に重点を置いており、複雑な意思決定プロセスのキャプチャーに失敗し、プロフェッショナルな設定で不正に整合した行動の潜在的な影響がある。
このギャップに対処するために、専門的な活動を行うAIエージェントの安全性アライメントを評価するために設計された総合ベンチマークである \textbf{SafePro} を導入する。
SafeProは、厳格な反復的な作成とレビュープロセスを通じて開発された、安全リスクを持つさまざまなプロフェッショナルドメインにわたる複雑なタスクのデータセットを備えている。
最先端のAIモデルに対する我々の評価は、重大な安全性の脆弱性を明らかにし、プロフェッショナルな文脈で新しい安全でない振る舞いを明らかにする。
さらに、これらのモデルでは、複雑な専門業務を行う際に、安全判断が不十分であることと、安全アライメントの弱いことが示される。
さらに,これらのシナリオにおいて,エージェントの安全性を向上させるための安全対策戦略について検討し,改善の促進を観察する。
調査の結果は、次世代のAIエージェントに合わせた、堅牢な安全メカニズムの緊急性の必要性を浮き彫りにした。
関連論文リスト
- A Safety and Security Framework for Real-World Agentic Systems [2.05255620498371]
本稿では,企業展開におけるエージェントAIシステムの確保のための動的かつ実用的なフレームワークを提案する。
本稿では,ユーザ安全のレンズによる新たなエージェントリスクの同定手法を提案する。
NVIDIAのフラッグシップエージェント研究アシスタントであるAI-Q Research Assistantの詳細なケーススタディを通じて、フレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2025-11-27T00:19:24Z) - MADRA: Multi-Agent Debate for Risk-Aware Embodied Planning [3.058137447286947]
既存の方法は、選好調整トレーニングや、単一エージェントの安全プロンプトを使用する場合のオーバーリジェクションによって、高い計算コストに悩まされることが多い。
トレーニング不要なマルチエージェント議論リスクアセスメントフレームワークMADRAを提案する。
私たちの仕事は、信頼できるエンボディエージェントを構築するためのスケーラブルでモデルに依存しないソリューションを提供します。
論文 参考訳(メタデータ) (2025-11-26T14:51:37Z) - AGENTSAFE: Benchmarking the Safety of Embodied Agents on Hazardous Instructions [64.85086226439954]
本稿では,有害な指示に対するVLMエージェントの安全性を評価するためのベンチマークであるSAFEを提案する。
SAFEは、SAFE−THOR、SAFE−VERSE、SAFE−DIAGNOSEの3つの成分からなる。
我々は、ハザード認識を安全な計画と実行に翻訳する体系的な失敗を明らかにする。
論文 参考訳(メタデータ) (2025-06-17T16:37:35Z) - Towards provable probabilistic safety for scalable embodied AI systems [79.31011047593492]
エンボディードAIシステムは、様々なアプリケーションでますます普及している。
複雑な運用環境での安全性確保は依然として大きな課題である。
このパースペクティブは、安全で大規模に実施されたAIシステムを安全クリティカルなアプリケーションに採用するための道筋を提供する。
論文 参考訳(メタデータ) (2025-06-05T15:46:25Z) - AISafetyLab: A Comprehensive Framework for AI Safety Evaluation and Improvement [73.0700818105842]
我々は、AI安全のための代表的攻撃、防衛、評価方法論を統合する統合されたフレームワークとツールキットであるAISafetyLabを紹介する。
AISafetyLabには直感的なインターフェースがあり、開発者はシームレスにさまざまなテクニックを適用できる。
我々はヴィクナに関する実証的研究を行い、異なる攻撃戦略と防衛戦略を分析し、それらの比較効果に関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2025-02-24T02:11:52Z) - Agent-SafetyBench: Evaluating the Safety of LLM Agents [72.92604341646691]
我々は,大規模言語モデル(LLM)の安全性を評価するベンチマークであるAgent-SafetyBenchを紹介する。
Agent-SafetyBenchは349のインタラクション環境と2,000のテストケースを含み、安全リスクの8つのカテゴリを評価し、安全でないインタラクションで頻繁に発生する10の一般的な障害モードをカバーする。
16 名の LLM エージェントを評価した結果,いずれのエージェントも 60% 以上の安全性スコアを達成できないことがわかった。
論文 参考訳(メタデータ) (2024-12-19T02:35:15Z) - Safeguarding AI Agents: Developing and Analyzing Safety Architectures [0.0]
本稿では,人間チームと連携するAIシステムにおける安全対策の必要性について論じる。
我々は,AIエージェントシステムにおける安全プロトコルを強化する3つのフレームワークを提案し,評価する。
これらのフレームワークはAIエージェントシステムの安全性とセキュリティを大幅に強化することができると結論付けている。
論文 参考訳(メタデータ) (2024-09-03T10:14:51Z) - The Art of Defending: A Systematic Evaluation and Analysis of LLM
Defense Strategies on Safety and Over-Defensiveness [56.174255970895466]
大規模言語モデル(LLM)は、自然言語処理アプリケーションにおいて、ますます重要な役割を担っている。
本稿では,SODE(Safety and Over-Defensiveness Evaluation)ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-12-30T17:37:06Z) - Towards Safer Generative Language Models: A Survey on Safety Risks,
Evaluations, and Improvements [76.80453043969209]
本調査では,大規模モデルに関する安全研究の枠組みについて述べる。
まず、広範囲にわたる安全問題を導入し、その後、大型モデルの安全性評価手法を掘り下げる。
トレーニングからデプロイメントまで,大規模なモデルの安全性を高めるための戦略について検討する。
論文 参考訳(メタデータ) (2023-02-18T09:32:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。