論文の概要: $\texttt{SAGE}$: A Generic Framework for LLM Safety Evaluation
- arxiv url: http://arxiv.org/abs/2504.19674v1
- Date: Mon, 28 Apr 2025 11:01:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.40643
- Title: $\texttt{SAGE}$: A Generic Framework for LLM Safety Evaluation
- Title(参考訳): $\texttt{SAGE}$: LLM安全性評価のためのジェネリックフレームワーク
- Authors: Madhur Jindal, Hari Shrawgi, Parag Agrawal, Sandipan Dandapat,
- Abstract要約: 本稿では、$texttSAGE$(Safety AI Generic Evaluation)フレームワークを紹介する。
$texttSAGE$は、カスタマイズされた動的害評価用に設計された自動モジュール化フレームワークである。
マルチターン会話評価実験により,会話の長さによって害が着実に増加することが判明した。
- 参考スコア(独自算出の注目度): 9.935219917903858
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safety evaluation of Large Language Models (LLMs) has made progress and attracted academic interest, but it remains challenging to keep pace with the rapid integration of LLMs across diverse applications. Different applications expose users to various harms, necessitating application-specific safety evaluations with tailored harms and policies. Another major gap is the lack of focus on the dynamic and conversational nature of LLM systems. Such potential oversights can lead to harms that go unnoticed in standard safety benchmarks. This paper identifies the above as key requirements for robust LLM safety evaluation and recognizing that current evaluation methodologies do not satisfy these, we introduce the $\texttt{SAGE}$ (Safety AI Generic Evaluation) framework. $\texttt{SAGE}$ is an automated modular framework designed for customized and dynamic harm evaluations. It utilizes adversarial user models that are system-aware and have unique personalities, enabling a holistic red-teaming evaluation. We demonstrate $\texttt{SAGE}$'s effectiveness by evaluating seven state-of-the-art LLMs across three applications and harm policies. Our experiments with multi-turn conversational evaluations revealed a concerning finding that harm steadily increases with conversation length. Furthermore, we observe significant disparities in model behavior when exposed to different user personalities and scenarios. Our findings also reveal that some models minimize harmful outputs by employing severe refusal tactics that can hinder their usefulness. These insights highlight the necessity of adaptive and context-specific testing to ensure better safety alignment and safer deployment of LLMs in real-world scenarios.
- Abstract(参考訳): 大規模言語モデル(LLM)の安全性評価は進歩し、学術的関心を集めているが、多様なアプリケーションにまたがるLLMの迅速な統合に追随することは依然として困難である。
さまざまなアプリケーションがユーザをさまざまな害にさらし、アプリケーション固有の安全性評価を適切な害とポリシーで必要とします。
もう一つの大きなギャップは、LLMシステムの動的および会話的な性質に焦点が当てられていないことである。
このような潜在的な監視は、標準安全ベンチマークで気付かれていない害につながる可能性がある。
本稿では,LSMの安全性評価を堅牢化するための鍵となる要件として,現在の評価手法がこれらを満足していないことを認識し,$\texttt{SAGE}$ (Safety AI Generic Evaluation) フレームワークを提案する。
$\texttt{SAGE}$は、カスタマイズされた動的害評価用に設計された自動モジュール化フレームワークである。
システムに認識され、独特な個性を持つ敵のユーザーモデルを利用し、総合的なリピート評価を可能にする。
我々は,3つのアプリケーションにまたがる7つの最先端LCMと有害ポリシーを評価することで,$\texttt{SAGE}$の有効性を実証する。
マルチターン会話評価実験により,会話の長さによって害が着実に増加することが判明した。
さらに,異なるユーザ・パーソナリティやシナリオに曝露した場合のモデル行動の相違について検討した。
また,その有用性を阻害する厳格な拒絶策を用いて,有害な出力を最小限に抑えるモデルも見いだされた。
これらの洞察は、現実のシナリオにおけるLLMのより安全な配置と安全性を確保するために、適応性とコンテキスト固有のテストの必要性を強調している。
関連論文リスト
- LLM-Safety Evaluations Lack Robustness [58.334290876531036]
我々は、大規模言語モデルに対する現在の安全アライメント研究は、多くのノイズ源によって妨げられていると論じる。
本研究では,将来の攻撃・防衛用紙の評価において,ノイズやバイアスを低減させる一連のガイドラインを提案する。
論文 参考訳(メタデータ) (2025-03-04T12:55:07Z) - SG-Bench: Evaluating LLM Safety Generalization Across Diverse Tasks and Prompt Types [21.683010095703832]
本研究では,大規模言語モデル(LLM)の安全性を様々なタスクやプロンプトタイプにまたがる一般化を評価するための新しいベンチマークを開発する。
このベンチマークは、生成的および識別的評価タスクを統合し、LLMの安全性に対する迅速なエンジニアリングとジェイルブレイクの影響を調べるための拡張データを含む。
評価の結果,ほとんどのLDMは生成的タスクよりも差別的タスクが悪く,プロンプトに非常に敏感であり,安全アライメントの一般化が不十分であることが示唆された。
論文 参考訳(メタデータ) (2024-10-29T11:47:01Z) - SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。
我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。
本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文 参考訳(メタデータ) (2024-10-24T17:14:40Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - S-Eval: Towards Automated and Comprehensive Safety Evaluation for Large Language Models [46.148439517272024]
生成型大規模言語モデル (LLMs) は、自然言語処理に革命をもたらした。
最近の証拠は、LLMが社会規範に反する有害なコンテンツを生成できることを示している。
S-Evalは,新たに定義された包括的リスク分類を持つ自動安全評価フレームワークである。
論文 参考訳(メタデータ) (2024-05-23T05:34:31Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - Fake Alignment: Are LLMs Really Aligned Well? [91.26543768665778]
本研究では,複数質問とオープンエンド質問の相違点について検討した。
ジェイルブレイク攻撃パターンの研究にインスパイアされた我々は、これが不一致の一般化によって引き起こされたと論じている。
論文 参考訳(メタデータ) (2023-11-10T08:01:23Z) - Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。
安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文 参考訳(メタデータ) (2023-04-20T16:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。