Fugu-MT 論文翻訳(概要): ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming

論文の概要: ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming

arxiv url: http://arxiv.org/abs/2404.08676v3
Date: Mon, 24 Jun 2024 08:50:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-26 01:02:45.401816
Title: ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming
Title（参考訳）: ALERT: 大規模言語モデルの安全性を評価するための総合ベンチマーク
Authors: Simone Tedeschi, Felix Friedrich, Patrick Schramowski, Kristian Kersting, Roberto Navigli, Huu Nguyen, Bo Li,
Abstract要約: ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
参考スコア（独自算出の注目度）: 64.86326523181553
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: When building Large Language Models (LLMs), it is paramount to bear safety in mind and protect them with guardrails. Indeed, LLMs should never generate content promoting or normalizing harmful, illegal, or unethical behavior that may contribute to harm to individuals or society. This principle applies to both normal and adversarial use. In response, we introduce ALERT, a large-scale benchmark to assess safety based on a novel fine-grained risk taxonomy. It is designed to evaluate the safety of LLMs through red teaming methodologies and consists of more than 45k instructions categorized using our novel taxonomy. By subjecting LLMs to adversarial testing scenarios, ALERT aims to identify vulnerabilities, inform improvements, and enhance the overall safety of the language models. Furthermore, the fine-grained taxonomy enables researchers to perform an in-depth evaluation that also helps one to assess the alignment with various policies. In our experiments, we extensively evaluate 10 popular open- and closed-source LLMs and demonstrate that many of them still struggle to attain reasonable levels of safety.
Abstract（参考訳）: LLM(Large Language Models)を構築する場合、安全を念頭に置いてガードレールで保護することが最重要である。実際、LLMは、個人や社会に害をもたらす可能性のある有害、違法、または非倫理的な行動を促進または正規化するコンテンツを生成するべきではない。この原則は、通常の使用と敵対的な使用の両方に適用される。そこで本研究では,新たなリスク分類法に基づく安全性評価のための大規模ベンチマークであるALERTを紹介する。 LLMの安全性をレッドチーム方式で評価するために設計され、新しい分類法を用いて分類された45k以上の命令から構成される。敵対的なテストシナリオにLLMを適用することで、ALERTは脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目指している。さらに、きめ細かい分類法により、研究者は、様々なポリシーとの整合性を評価するのに役立つ詳細な評価を行うことができる。実験では,10のオープンソースおよびクローズドソース LLM を広範囲に評価し,その多くが依然として適切なレベルの安全性を達成するのに苦慮していることを示す。

関連論文リスト

ROSE: Toward Reality-Oriented Safety Evaluation of Large Language Models [60.28667314609623]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいてブラックボックスコンポーネントとしてますます多くデプロイされている。我々は,多目的強化学習を用いて敵のLDMを微調整する新しいフレームワークであるReal-Oriented Safety Evaluation (ROSE)を提案する。
論文参考訳（メタデータ） (2025-06-17T10:55:17Z)
$\texttt{SAGE}$: A Generic Framework for LLM Safety Evaluation [9.935219917903858]
本稿では、$texttSAGE$(Safety AI Generic Evaluation)フレームワークを紹介する。 $texttSAGE$は、カスタマイズされた動的害評価用に設計された自動モジュール化フレームワークである。マルチターン会話評価実験により,会話の長さによって害が着実に増加することが判明した。
論文参考訳（メタデータ） (2025-04-28T11:01:08Z)
SG-Bench: Evaluating LLM Safety Generalization Across Diverse Tasks and Prompt Types [21.683010095703832]
本研究では,大規模言語モデル(LLM)の安全性を様々なタスクやプロンプトタイプにまたがる一般化を評価するための新しいベンチマークを開発する。このベンチマークは、生成的および識別的評価タスクを統合し、LLMの安全性に対する迅速なエンジニアリングとジェイルブレイクの影響を調べるための拡張データを含む。評価の結果,ほとんどのLDMは生成的タスクよりも差別的タスクが悪く,プロンプトに非常に敏感であり,安全アライメントの一般化が不十分であることが示唆された。
論文参考訳（メタデータ） (2024-10-29T11:47:01Z)
CFSafety: Comprehensive Fine-grained Safety Assessment for LLMs [4.441767341563709]
5つの古典的安全シナリオと5種類の命令攻撃を統合した安全評価ベンチマークCFSafetyを導入する。このテストセットは、大規模言語モデル(LLM)の自然言語生成能力を評価するために使用された。その結果, GPT-4は安全性能に優れていたが, このモデルを含むLLMの安全性は改善が必要であることがわかった。
論文参考訳（メタデータ） (2024-10-29T03:25:20Z)
SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文参考訳（メタデータ） (2024-10-24T17:14:40Z)
SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal Behaviors [64.9938658716425]
安全でないユーザリクエストを認識して拒否する、大規模な言語モデル(LLM)の既存の評価は、3つの制限に直面している。まず、既存の手法では、安全でないトピックの粗い粒度を使い、いくつかのきめ細かいトピックを過剰に表現している。第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。第3に、既存の評価は大きなLCMに頼っているため、コストがかかる可能性がある。
論文参考訳（メタデータ） (2024-06-20T17:56:07Z)
S-Eval: Towards Automated and Comprehensive Safety Evaluation for Large Language Models [46.148439517272024]
生成型大規模言語モデル (LLMs) は、自然言語処理に革命をもたらした。最近の証拠は、LLMが社会規範に反する有害なコンテンツを生成できることを示している。 S-Evalは,新たに定義された包括的リスク分類を持つ自動安全評価フレームワークである。
論文参考訳（メタデータ） (2024-05-23T05:34:31Z)
Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。我々の調査は、この信念に対する重大な監視を露呈している。我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文参考訳（メタデータ） (2024-04-16T13:22:54Z)
CodeAttack: Revealing Safety Generalization Challenges of Large Language Models via Code Completion [117.178835165855]
本稿では,自然言語入力をコード入力に変換するフレームワークであるCodeAttackを紹介する。我々の研究は、コード入力に対するこれらのモデルの新たな、普遍的な安全性の脆弱性を明らかにした。 CodeAttackと自然言語の分布ギャップが大きくなると、安全性の一般化が弱くなる。
論文参考訳（メタデータ） (2024-03-12T17:55:38Z)
A Chinese Dataset for Evaluating the Safeguards in Large Language Models [46.43476815725323]
大型言語モデル(LLM)は有害な応答を生み出す。本稿では,中国のLLMの安全性評価のためのデータセットを提案する。次に、偽陰性例と偽陽性例をよりよく識別するために使用できる他の2つのシナリオに拡張する。
論文参考訳（メタデータ） (2024-02-19T14:56:18Z)
Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文参考訳（メタデータ） (2023-04-20T16:27:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。