論文の概要: R-Judge: Benchmarking Safety Risk Awareness for LLM Agents
- arxiv url: http://arxiv.org/abs/2401.10019v1
- Date: Thu, 18 Jan 2024 14:40:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-19 16:25:56.471825
- Title: R-Judge: Benchmarking Safety Risk Awareness for LLM Agents
- Title(参考訳): R-Judge: LLMエージェントの安全リスク意識のベンチマーク
- Authors: Tongxin Yuan, Zhiwei He, Lingzhong Dong, Yiming Wang, Ruijie Zhao,
Tian Xia, Lizhen Xu, Binglin Zhou, Fangqi Li, Zhuosheng Zhang, Rui Wang,
Gongshen Liu
- Abstract要約: 大規模言語モデル(LLM)は、現実世界のアプリケーション間で自律的にタスクを完了させる大きな可能性を示している。
本研究は, LLMエージェントの行動安全性を, 多様な環境下でベンチマークする上で必要となる課題に対処する。
エージェント間相互作用の記録から安全性リスクを判定する上で,LLMの熟練度を評価するためのベンチマークであるR-Judgeを紹介する。
- 参考スコア(独自算出の注目度): 28.80884032823204
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have exhibited great potential in autonomously
completing tasks across real-world applications. Despite this, these LLM agents
introduce unexpected safety risks when operating in interactive environments.
Instead of centering on LLM-generated content safety in most prior studies,
this work addresses the imperative need for benchmarking the behavioral safety
of LLM agents within diverse environments. We introduce R-Judge, a benchmark
crafted to evaluate the proficiency of LLMs in judging safety risks given agent
interaction records. R-Judge comprises 162 agent interaction records,
encompassing 27 key risk scenarios among 7 application categories and 10 risk
types. It incorporates human consensus on safety with annotated safety risk
labels and high-quality risk descriptions. Utilizing R-Judge, we conduct a
comprehensive evaluation of 8 prominent LLMs commonly employed as the backbone
for agents. The best-performing model, GPT-4, achieves 72.29% in contrast to
the human score of 89.38%, showing considerable room for enhancing the risk
awareness of LLMs. Notably, leveraging risk descriptions as environment
feedback significantly improves model performance, revealing the importance of
salient safety risk feedback. Furthermore, we design an effective chain of
safety analysis technique to help the judgment of safety risks and conduct an
in-depth case study to facilitate future research. R-Judge is publicly
available at https://github.com/Lordog/R-Judge.
- Abstract(参考訳): 大規模言語モデル(LLM)は、現実世界のアプリケーション間で自律的にタスクを完了させる大きな可能性を示している。
それにもかかわらず、これらのllmエージェントは、対話環境での運用において予期せぬ安全性リスクをもたらす。
本研究は, LLM生成コンテンツの安全性を従来の研究で重視する代わりに, 多様な環境下でのLCMエージェントの行動安全のベンチマークの必要性に対処する。
エージェント間相互作用の記録から安全性リスクを判定する上で,LLMの熟練度を評価するためのベンチマークであるR-Judgeを紹介する。
R-Judgeは,7つのアプリケーションカテゴリと10のリスクタイプのうち,27の主要なリスクシナリオを含む162のエージェントインタラクションレコードで構成されている。
安全に関する人間のコンセンサスと、注釈付き安全リスクラベルと高品質のリスク記述が組み込まれている。
R-Judgeを用いて,エージェントのバックボーンとしてよく用いられる8種類のLDMの総合評価を行った。
最高のパフォーマンスモデルであるGPT-4は、89.38%の人間のスコアとは対照的に72.29%を達成し、LSMのリスク意識を高める余地がある。
特に、環境フィードバックとしてリスク記述を活用することにより、モデルパフォーマンスが大幅に向上し、健全な安全リスクフィードバックの重要性が明らかになる。
さらに,安全リスクの判断を支援する安全分析手法の効果的な連鎖をデザインし,今後の研究を促進するために詳細な事例研究を行う。
R-Judgeはhttps://github.com/Lordog/R-Judgeで公開されている。
関連論文リスト
- Navigating the Risks: A Survey of Security, Privacy, and Ethics Threats in LLM-Based Agents [67.07177243654485]
この調査は、大規模言語モデルに基づくエージェントが直面するさまざまな脅威を収集、分析する。
LLMをベースとしたエージェントの6つの重要な特徴を概説する。
4つの代表エージェントをケーススタディとして選択し,実践的に直面する可能性のあるリスクを分析した。
論文 参考訳(メタデータ) (2024-11-14T15:40:04Z) - SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。
我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。
本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文 参考訳(メタデータ) (2024-10-24T17:14:40Z) - Current state of LLM Risks and AI Guardrails [0.0]
大規模言語モデル(LLM)はますます洗練され、安全性と信頼性が最優先されるセンシティブなアプリケーションに広くデプロイされるようになる。
これらのリスクは、LSMを望ましい行動と整合させ、潜在的な害を軽減するために、"ガードレール"の開発を必要とする。
本研究は,LLMの展開に伴うリスクを調査し,ガードレールの実装とモデルアライメント技術に対する現在のアプローチを評価する。
論文 参考訳(メタデータ) (2024-06-16T22:04:10Z) - Prompt Leakage effect and defense strategies for multi-turn LLM interactions [95.33778028192593]
システムプロンプトの漏洩は知的財産を侵害し、攻撃者に対する敵の偵察として機能する可能性がある。
我々は, LLM sycophancy 効果を利用して, 平均攻撃成功率 (ASR) を17.7%から86.2%に高めるユニークな脅威モデルを構築した。
7つのブラックボックス防衛戦略の緩和効果と、漏洩防止のためのオープンソースモデルを微調整する。
論文 参考訳(メタデータ) (2024-04-24T23:39:58Z) - CyberSecEval 2: A Wide-Ranging Cybersecurity Evaluation Suite for Large Language Models [6.931433424951554]
大規模言語モデル(LLM)は新たなセキュリティリスクを導入するが、これらのリスクを計測し、削減するための包括的な評価スイートはほとんどない。
LLMのセキュリティリスクと能力を定量化する新しいベンチマークであるBenchmarkNameを提案する。
我々は,GPT-4,Mistral,Meta Llama 370B-Instruct,Code Llamaを含む複数のSOTA (State-of-the-art) LLMを評価した。
論文 参考訳(メタデータ) (2024-04-19T20:11:12Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - Risk and Response in Large Language Models: Evaluating Key Threat Categories [6.436286493151731]
本稿では,Large Language Models (LLMs) におけるリスクアセスメントのプレッシャーについて考察する。
人為的レッドチームデータセットを利用することで、情報ハザード、悪用、差別/憎しみのあるコンテンツなど、主要なリスクカテゴリを分析します。
以上の結果から,LSMは情報ハザードを有害とみなす傾向があることが示唆された。
論文 参考訳(メタデータ) (2024-03-22T06:46:40Z) - A Chinese Dataset for Evaluating the Safeguards in Large Language Models [46.43476815725323]
大型言語モデル(LLM)は有害な応答を生み出す。
本稿では,中国のLLMの安全性評価のためのデータセットを提案する。
次に、偽陰性例と偽陽性例をよりよく識別するために使用できる他の2つのシナリオに拡張する。
論文 参考訳(メタデータ) (2024-02-19T14:56:18Z) - MART: Improving LLM Safety with Multi-round Automatic Red-Teaming [72.2127916030909]
本稿では,自動対向的なプロンプト書き込みと安全な応答生成の両方を組み込んだMulti-round Automatic Red-Teaming(MART)手法を提案する。
敵のプロンプトベンチマークでは、安全アライメントが制限されたLDMの違反率は、MARTの4ラウンド後に84.7%まで減少する。
特に、非敵対的なプロンプトに対するモデルの有用性は反復を通して安定しており、LLMは命令に対する強い性能を維持していることを示している。
論文 参考訳(メタデータ) (2023-11-13T19:13:29Z) - Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。
安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文 参考訳(メタデータ) (2023-04-20T16:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。