論文の概要: R-Judge: Benchmarking Safety Risk Awareness for LLM Agents
- arxiv url: http://arxiv.org/abs/2401.10019v2
- Date: Sun, 18 Feb 2024 03:01:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 03:32:24.137744
- Title: R-Judge: Benchmarking Safety Risk Awareness for LLM Agents
- Title(参考訳): R-Judge: LLMエージェントの安全リスク意識のベンチマーク
- Authors: Tongxin Yuan, Zhiwei He, Lingzhong Dong, Yiming Wang, Ruijie Zhao,
Tian Xia, Lizhen Xu, Binglin Zhou, Fangqi Li, Zhuosheng Zhang, Rui Wang,
Gongshen Liu
- Abstract要約: 大規模言語モデル(LLM)は、現実世界のアプリケーション間で自律的にタスクを完了させる大きな可能性を示している。
本研究は, LLMエージェントの行動安全性を, 多様な環境下でベンチマークする上で必要となる課題に対処する。
R-Judgeは,エージェント間相互作用の記録から安全リスクを判断・同定する上で,LLMの熟練度を評価するためのベンチマークである。
- 参考スコア(独自算出の注目度): 28.80884032823204
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have exhibited great potential in autonomously
completing tasks across real-world applications. Despite this, these LLM agents
introduce unexpected safety risks when operating in interactive environments.
Instead of centering on LLM-generated content safety in most prior studies,
this work addresses the imperative need for benchmarking the behavioral safety
of LLM agents within diverse environments. We introduce R-Judge, a benchmark
crafted to evaluate the proficiency of LLMs in judging and identifying safety
risks given agent interaction records. R-Judge comprises 162 records of
multi-turn agent interaction, encompassing 27 key risk scenarios among 7
application categories and 10 risk types. It incorporates human consensus on
safety with annotated safety labels and high-quality risk descriptions.
Evaluation of 9 LLMs on R-Judge shows considerable room for enhancing the risk
awareness of LLMs: The best-performing model, GPT-4, achieves 72.52% in
contrast to the human score of 89.07%, while all other models score less than
the random. Moreover, further experiments demonstrate that leveraging risk
descriptions as environment feedback achieves substantial performance gains.
With case studies, we reveal that correlated to parameter amount, risk
awareness in open agent scenarios is a multi-dimensional capability involving
knowledge and reasoning, thus challenging for current LLMs. R-Judge is publicly
available at https://github.com/Lordog/R-Judge.
- Abstract(参考訳): 大規模言語モデル(LLM)は、現実世界のアプリケーション間で自律的にタスクを完了させる大きな可能性を示している。
それにもかかわらず、これらのllmエージェントは、対話環境での運用において予期せぬ安全性リスクをもたらす。
本研究は, LLM生成コンテンツの安全性を従来の研究で重視する代わりに, 多様な環境下でのLCMエージェントの行動安全のベンチマークの必要性に対処する。
r-judgeは,エージェントインタラクション記録による安全リスクの判定と同定において,llmの熟練度を評価するためのベンチマークである。
r-judgeはマルチターンエージェントインタラクションの162レコードで構成され、7つのアプリケーションカテゴリと10のリスクタイプのうち27の重要なリスクシナリオを包含する。
安全に関する人間のコンセンサスと、注釈付き安全ラベルと高品質のリスク記述が組み込まれている。
r-judge における 9 llm の評価は llm のリスク意識を高める余地がある: ベストパフォーマンスモデル gpt-4 は 89.07% の人間のスコアに対して 72.52% を達成し、他の全てのモデルはランダムより少ない。
さらに,環境フィードバックとしてリスク記述を活用することで,大幅な性能向上が期待できることを示す。
事例研究では,オープンエージェントシナリオにおけるリスク認識は,知識と推論を伴う多次元的能力であり,現在のllmでは困難であることを明らかにした。
R-Judgeはhttps://github.com/Lordog/R-Judgeで公開されている。
関連論文リスト
- SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。
我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。
本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文 参考訳(メタデータ) (2024-10-24T17:14:40Z) - Current state of LLM Risks and AI Guardrails [0.0]
大規模言語モデル(LLM)はますます洗練され、安全性と信頼性が最優先されるセンシティブなアプリケーションに広くデプロイされるようになる。
これらのリスクは、LSMを望ましい行動と整合させ、潜在的な害を軽減するために、"ガードレール"の開発を必要とする。
本研究は,LLMの展開に伴うリスクを調査し,ガードレールの実装とモデルアライメント技術に対する現在のアプローチを評価する。
論文 参考訳(メタデータ) (2024-06-16T22:04:10Z) - S-Eval: Automatic and Adaptive Test Generation for Benchmarking Safety Evaluation of Large Language Models [47.65210244674764]
大規模な言語モデルは、その革命的な能力にかなりの注目を集めている。
安全性に関する懸念も高まっている。
S-Evalは,多次元かつオープンな安全評価ベンチマークである。
論文 参考訳(メタデータ) (2024-05-23T05:34:31Z) - Prompt Leakage effect and defense strategies for multi-turn LLM interactions [95.33778028192593]
システムプロンプトの漏洩は知的財産を侵害し、攻撃者に対する敵の偵察として機能する可能性がある。
我々は, LLM sycophancy 効果を利用して, 平均攻撃成功率 (ASR) を17.7%から86.2%に高めるユニークな脅威モデルを構築した。
7つのブラックボックス防衛戦略の緩和効果と、漏洩防止のためのオープンソースモデルを微調整する。
論文 参考訳(メタデータ) (2024-04-24T23:39:58Z) - CyberSecEval 2: A Wide-Ranging Cybersecurity Evaluation Suite for Large Language Models [6.931433424951554]
大規模言語モデル(LLM)は新たなセキュリティリスクを導入するが、これらのリスクを計測し、削減するための包括的な評価スイートはほとんどない。
LLMのセキュリティリスクと能力を定量化する新しいベンチマークであるBenchmarkNameを提案する。
我々は,GPT-4,Mistral,Meta Llama 370B-Instruct,Code Llamaを含む複数のSOTA (State-of-the-art) LLMを評価した。
論文 参考訳(メタデータ) (2024-04-19T20:11:12Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - Risk and Response in Large Language Models: Evaluating Key Threat Categories [6.436286493151731]
本稿では,Large Language Models (LLMs) におけるリスクアセスメントのプレッシャーについて考察する。
人為的レッドチームデータセットを利用することで、情報ハザード、悪用、差別/憎しみのあるコンテンツなど、主要なリスクカテゴリを分析します。
以上の結果から,LSMは情報ハザードを有害とみなす傾向があることが示唆された。
論文 参考訳(メタデータ) (2024-03-22T06:46:40Z) - A Chinese Dataset for Evaluating the Safeguards in Large Language Models [46.43476815725323]
大型言語モデル(LLM)は有害な応答を生み出す。
本稿では,中国のLLMの安全性評価のためのデータセットを提案する。
次に、偽陰性例と偽陽性例をよりよく識別するために使用できる他の2つのシナリオに拡張する。
論文 参考訳(メタデータ) (2024-02-19T14:56:18Z) - MART: Improving LLM Safety with Multi-round Automatic Red-Teaming [72.2127916030909]
本稿では,自動対向的なプロンプト書き込みと安全な応答生成の両方を組み込んだMulti-round Automatic Red-Teaming(MART)手法を提案する。
敵のプロンプトベンチマークでは、安全アライメントが制限されたLDMの違反率は、MARTの4ラウンド後に84.7%まで減少する。
特に、非敵対的なプロンプトに対するモデルの有用性は反復を通して安定しており、LLMは命令に対する強い性能を維持していることを示している。
論文 参考訳(メタデータ) (2023-11-13T19:13:29Z) - Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。
安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文 参考訳(メタデータ) (2023-04-20T16:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。