論文の概要: SAGE: A Generic Framework for LLM Safety Evaluation
- arxiv url: http://arxiv.org/abs/2504.19674v2
- Date: Mon, 27 Oct 2025 10:19:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 17:41:21.500063
- Title: SAGE: A Generic Framework for LLM Safety Evaluation
- Title(参考訳): SAGE: LLM安全性評価のためのジェネリックフレームワーク
- Authors: Madhur Jindal, Hari Shrawgi, Parag Agrawal, Sandipan Dandapat,
- Abstract要約: SAGE(Safety AI Generic Evaluation)は、カスタマイズおよび動的害評価のための自動モジュール化フレームワークである。
我々は3つのアプリケーションにまたがる7つの最先端の大規模言語モデルと有害ポリシーを評価した。
結果は、より安全な現実世界のデプロイメントのための適応性、ポリシー対応、コンテキスト固有のテストに動機付けます。
- 参考スコア(独自算出の注目度): 7.5058318880108885
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Large Language Models are rapidly deployed across diverse applications from healthcare to financial advice, safety evaluation struggles to keep pace. Current benchmarks focus on single-turn interactions with generic policies, failing to capture the conversational dynamics of real-world usage and the application-specific harms that emerge in context. Such potential oversights can lead to harms that go unnoticed in standard safety benchmarks and other current evaluation methodologies. To address these needs for robust AI safety evaluation, we introduce SAGE (Safety AI Generic Evaluation), an automated modular framework designed for customized and dynamic harm evaluations. SAGE employs prompted adversarial agents with diverse personalities based on the Big Five model, enabling system-aware multi-turn conversations that adapt to target applications and harm policies. We evaluate seven state-of-the-art LLMs across three applications and harm policies. Multi-turn experiments show that harm increases with conversation length, model behavior varies significantly when exposed to different user personalities and scenarios, and some models minimize harm via high refusal rates that reduce usefulness. We also demonstrate policy sensitivity within a harm category where tightening a child-focused sexual policy substantially increases measured defects across applications. These results motivate adaptive, policy-aware, and context-specific testing for safer real-world deployment.
- Abstract(参考訳): 大規模言語モデルは、医療から金融アドバイスに至るまで、さまざまなアプリケーションに急速にデプロイされるため、安全評価はペースを維持するのに苦労する。
現在のベンチマークでは、一般的なポリシとのシングルターンインタラクションに重点を置いている。
このような潜在的な監視は、標準安全ベンチマークやその他の現在の評価手法に気付かない害をもたらす可能性がある。
堅牢なAI安全性評価のためのこれらのニーズに対処するために、カスタマイズされた動的害評価用に設計された自動モジュール化フレームワークであるSAGE(Safety AI Generic Evaluation)を紹介する。
SAGEは、Big Fiveモデルに基づいた多様な個人性を持つ敵エージェントを誘導し、ターゲットのアプリケーションに適応し、ポリシーを害するシステム対応のマルチターン会話を可能にする。
我々は,3つのアプリケーションにまたがる7つの最先端LCMと有害ポリシーを評価した。
マルチターン実験では、会話の長さによって害が増加し、異なるユーザの個性やシナリオに晒された場合、モデル行動は著しく変化し、いくつかのモデルは高い拒絶率によって害を最小化し、有用性を低下させる。
また、子ども中心の性的政策を締め付けることで、アプリケーション全体で測定された欠陥を著しく増加させる有害カテゴリーの政策感受性を示す。
これらの結果は、より安全な現実世界のデプロイメントのための適応性、ポリシー対応、コンテキスト固有のテストの動機付けになります。
関連論文リスト
- ROSE: Toward Reality-Oriented Safety Evaluation of Large Language Models [60.28667314609623]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいてブラックボックスコンポーネントとしてますます多くデプロイされている。
我々は,多目的強化学習を用いて敵のLDMを微調整する新しいフレームワークであるReal-Oriented Safety Evaluation (ROSE)を提案する。
論文 参考訳(メタデータ) (2025-06-17T10:55:17Z) - AgentAuditor: Human-Level Safety and Security Evaluation for LLM Agents [41.000042817113645]
sysは、トレーニングなし、メモリ拡張推論フレームワークである。
sysは、LLMが適応的に構造化された意味的特徴を抽出することで経験記憶を構築する。
Dataは、LLMベースの評価器が安全リスクとセキュリティ上の脅威の両方を見つけることができるかを確認するために設計された最初のベンチマークである。
論文 参考訳(メタデータ) (2025-05-31T17:10:23Z) - LLM-Safety Evaluations Lack Robustness [58.334290876531036]
我々は、大規模言語モデルに対する現在の安全アライメント研究は、多くのノイズ源によって妨げられていると論じる。
本研究では,将来の攻撃・防衛用紙の評価において,ノイズやバイアスを低減させる一連のガイドラインを提案する。
論文 参考訳(メタデータ) (2025-03-04T12:55:07Z) - SG-Bench: Evaluating LLM Safety Generalization Across Diverse Tasks and Prompt Types [21.683010095703832]
本研究では,大規模言語モデル(LLM)の安全性を様々なタスクやプロンプトタイプにまたがる一般化を評価するための新しいベンチマークを開発する。
このベンチマークは、生成的および識別的評価タスクを統合し、LLMの安全性に対する迅速なエンジニアリングとジェイルブレイクの影響を調べるための拡張データを含む。
評価の結果,ほとんどのLDMは生成的タスクよりも差別的タスクが悪く,プロンプトに非常に敏感であり,安全アライメントの一般化が不十分であることが示唆された。
論文 参考訳(メタデータ) (2024-10-29T11:47:01Z) - SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。
我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。
本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文 参考訳(メタデータ) (2024-10-24T17:14:40Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - S-Eval: Towards Automated and Comprehensive Safety Evaluation for Large Language Models [46.148439517272024]
生成型大規模言語モデル (LLMs) は、自然言語処理に革命をもたらした。
最近の証拠は、LLMが社会規範に反する有害なコンテンツを生成できることを示している。
S-Evalは,新たに定義された包括的リスク分類を持つ自動安全評価フレームワークである。
論文 参考訳(メタデータ) (2024-05-23T05:34:31Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - Fake Alignment: Are LLMs Really Aligned Well? [91.26543768665778]
本研究では,複数質問とオープンエンド質問の相違点について検討した。
ジェイルブレイク攻撃パターンの研究にインスパイアされた我々は、これが不一致の一般化によって引き起こされたと論じている。
論文 参考訳(メタデータ) (2023-11-10T08:01:23Z) - Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。
安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文 参考訳(メタデータ) (2023-04-20T16:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。