論文の概要: AgentAuditor: Human-Level Safety and Security Evaluation for LLM Agents
- arxiv url: http://arxiv.org/abs/2506.00641v1
- Date: Sat, 31 May 2025 17:10:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.383042
- Title: AgentAuditor: Human-Level Safety and Security Evaluation for LLM Agents
- Title(参考訳): Agent Auditor: LLMエージェントのヒューマンレベル安全性とセキュリティ評価
- Authors: Hanjun Luo, Shenyu Dai, Chiming Ni, Xinfeng Li, Guibin Zhang, Kun Wang, Tongliang Liu, Hanan Salam,
- Abstract要約: sysは、トレーニングなし、メモリ拡張推論フレームワークである。
sysは、LLMが適応的に構造化された意味的特徴を抽出することで経験記憶を構築する。
Dataは、LLMベースの評価器が安全リスクとセキュリティ上の脅威の両方を見つけることができるかを確認するために設計された最初のベンチマークである。
- 参考スコア(独自算出の注目度): 41.000042817113645
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the rapid advancement of LLM-based agents, the reliable evaluation of their safety and security remains a significant challenge. Existing rule-based or LLM-based evaluators often miss dangers in agents' step-by-step actions, overlook subtle meanings, fail to see how small issues compound, and get confused by unclear safety or security rules. To overcome this evaluation crisis, we introduce \sys, a universal, training-free, memory-augmented reasoning framework that empowers LLM evaluators to emulate human expert evaluators. \sys constructs an experiential memory by having an LLM adaptively extract structured semantic features (e.g., scenario, risk, behavior) and generate associated chain-of-thought reasoning traces for past interactions. A multi-stage, context-aware retrieval-augmented generation process then dynamically retrieves the most relevant reasoning experiences to guide the LLM evaluator's assessment of new cases. Moreover, we developed \data, the first benchmark designed to check how well LLM-based evaluators can spot both safety risks and security threats. \data comprises \textbf{2293} meticulously annotated interaction records, covering \textbf{15} risk types across \textbf{29} application scenarios. A key feature of \data is its nuanced approach to ambiguous risk situations, employing ``Strict'' and ``Lenient'' judgment standards. Experiments demonstrate that \sys not only consistently improves the evaluation performance of LLMs across all benchmarks but also sets a new state-of-the-art in LLM-as-a-judge for agent safety and security, achieving human-level accuracy. Our work is openly openly accessible.
- Abstract(参考訳): LLMをベースとしたエージェントの急速な進歩にもかかわらず、安全性と安全性の信頼性の評価は依然として重要な課題である。
既存のルールベースまたはLCMベースの評価器は、エージェントのステップバイステップの動作の危険を見逃し、微妙な意味を見落とし、小さな問題がいかに複雑かを見落とし、不明瞭な安全ルールやセキュリティルールで混乱する。
この評価危機を克服するために,我々は,LLM評価者に対して,人間の専門家評価者をエミュレートする権限を与える,普遍的でトレーニングのない,メモリ拡張推論フレームワークであるShasysを紹介した。
\sysは、LLMが構造化された意味的特徴(例:シナリオ、リスク、行動)を適応的に抽出し、過去の相互作用の連鎖推論トレースを生成することで、経験的メモリを構築する。
マルチステージ・コンテキスト対応検索拡張生成プロセスは,LLM評価者の新たな症例評価をガイドするために,最も関連性の高い推論経験を動的に検索する。
さらに、LLMベースの評価器が安全リスクとセキュリティ上の脅威の両方をどの程度検出できるかを確認するために設計された最初のベンチマークである \data を開発した。
\data は \textbf{2293} に微妙にアノテートされたインタラクションレコードを含んでおり、 \textbf{15} のリスクタイプを \textbf{29} アプリケーションシナリオでカバーしている。
\dataの重要な特徴は、不明瞭なリスク状況に対するニュアンスなアプローチであり、 ``Strict'' と ``Lenient'' の判断基準を採用しています。
実験によると、 \sys は全てのベンチマークで LLM の評価性能を一貫して改善するだけでなく、エージェントの安全性と安全性のために LLM-as-a-judge の新たな最先端を設定できる。
私たちの仕事は公然とアクセスできます。
関連論文リスト
- $\texttt{SAGE}$: A Generic Framework for LLM Safety Evaluation [9.935219917903858]
本稿では、$texttSAGE$(Safety AI Generic Evaluation)フレームワークを紹介する。
$texttSAGE$は、カスタマイズされた動的害評価用に設計された自動モジュール化フレームワークである。
マルチターン会話評価実験により,会話の長さによって害が着実に増加することが判明した。
論文 参考訳(メタデータ) (2025-04-28T11:01:08Z) - Standard Benchmarks Fail - Auditing LLM Agents in Finance Must Prioritize Risk [31.43947127076459]
標準ベンチマークでは、大規模言語モデル(LLM)エージェントが金融面でどれだけうまく機能するかを定めているが、デプロイの安全性についてはほとんど語っていない。
我々は、精度の指標とリターンベースのスコアが、幻覚的な事実、古いデータ、敵の迅速な操作などの脆弱性を見渡すことで、信頼性の錯覚をもたらすと論じている。
論文 参考訳(メタデータ) (2025-02-21T12:56:15Z) - SG-Bench: Evaluating LLM Safety Generalization Across Diverse Tasks and Prompt Types [21.683010095703832]
本研究では,大規模言語モデル(LLM)の安全性を様々なタスクやプロンプトタイプにまたがる一般化を評価するための新しいベンチマークを開発する。
このベンチマークは、生成的および識別的評価タスクを統合し、LLMの安全性に対する迅速なエンジニアリングとジェイルブレイクの影響を調べるための拡張データを含む。
評価の結果,ほとんどのLDMは生成的タスクよりも差別的タスクが悪く,プロンプトに非常に敏感であり,安全アライメントの一般化が不十分であることが示唆された。
論文 参考訳(メタデータ) (2024-10-29T11:47:01Z) - Current state of LLM Risks and AI Guardrails [0.0]
大規模言語モデル(LLM)はますます洗練され、安全性と信頼性が最優先されるセンシティブなアプリケーションに広くデプロイされるようになる。
これらのリスクは、LSMを望ましい行動と整合させ、潜在的な害を軽減するために、"ガードレール"の開発を必要とする。
本研究は,LLMの展開に伴うリスクを調査し,ガードレールの実装とモデルアライメント技術に対する現在のアプローチを評価する。
論文 参考訳(メタデータ) (2024-06-16T22:04:10Z) - S-Eval: Towards Automated and Comprehensive Safety Evaluation for Large Language Models [46.148439517272024]
生成型大規模言語モデル (LLMs) は、自然言語処理に革命をもたらした。
最近の証拠は、LLMが社会規範に反する有害なコンテンツを生成できることを示している。
S-Evalは,新たに定義された包括的リスク分類を持つ自動安全評価フレームワークである。
論文 参考訳(メタデータ) (2024-05-23T05:34:31Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。
安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文 参考訳(メタデータ) (2023-04-20T16:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。