論文の概要: SafeLawBench: Towards Safe Alignment of Large Language Models
- arxiv url: http://arxiv.org/abs/2506.06636v1
- Date: Sat, 07 Jun 2025 03:09:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.372679
- Title: SafeLawBench: Towards Safe Alignment of Large Language Models
- Title(参考訳): SafeLawBench: 大規模言語モデルの安全なアライメントを目指して
- Authors: Chuxue Cao, Han Zhu, Jiaming Ji, Qichao Sun, Zhenghao Zhu, Yinyu Wu, Juntao Dai, Yaodong Yang, Sirui Han, Yike Guo,
- Abstract要約: 大きな言語モデル(LLM)の安全性を評価するための明確な基準が欠如している。
SafeLawBenchは、法的基準に基づいて、安全リスクを3つのレベルに分類する。
24,860のマルチチョイス質問と1,106のオープンドメイン質問回答(QA)タスクで構成されている。
- 参考スコア(独自算出の注目度): 18.035407356604832
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the growing prevalence of large language models (LLMs), the safety of LLMs has raised significant concerns. However, there is still a lack of definitive standards for evaluating their safety due to the subjective nature of current safety benchmarks. To address this gap, we conducted the first exploration of LLMs' safety evaluation from a legal perspective by proposing the SafeLawBench benchmark. SafeLawBench categorizes safety risks into three levels based on legal standards, providing a systematic and comprehensive framework for evaluation. It comprises 24,860 multi-choice questions and 1,106 open-domain question-answering (QA) tasks. Our evaluation included 2 closed-source LLMs and 18 open-source LLMs using zero-shot and few-shot prompting, highlighting the safety features of each model. We also evaluated the LLMs' safety-related reasoning stability and refusal behavior. Additionally, we found that a majority voting mechanism can enhance model performance. Notably, even leading SOTA models like Claude-3.5-Sonnet and GPT-4o have not exceeded 80.5% accuracy in multi-choice tasks on SafeLawBench, while the average accuracy of 20 LLMs remains at 68.8\%. We urge the community to prioritize research on the safety of LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)の普及に伴い、LLMの安全性が懸念されている。
しかしながら、現在の安全ベンチマークの主観的な性質のため、安全性を評価するための明確な基準がまだ存在しない。
このギャップに対処するため, SafeLawBenchベンチマークを提案し, 法的な観点からLLMの安全性評価を初めて検討した。
SafeLawBenchは、安全リスクを法的基準に基づいて3つのレベルに分類し、体系的で包括的な評価フレームワークを提供する。
24,860のマルチチョイス質問と1,106のオープンドメイン質問回答(QA)タスクで構成されている。
評価では,ゼロショットと少数ショットプロンプトを用いた2つのオープンソースLLMと18個のオープンソースLLMを比較し,各モデルの安全性特性を強調した。
また, LLMの安全性関連推論安定性と拒絶行動の評価を行った。
さらに,過半数の投票機構により,モデルの性能が向上することが判明した。
特に、Claude-3.5-SonnetやGPT-4oのような主要なSOTAモデルでさえ、SafeLawBench上のマルチチョイスタスクでは80.5%を超えていない。
LLMの安全性に関する研究を優先するようコミュニティに促す。
関連論文リスト
- SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。
我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。
本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文 参考訳(メタデータ) (2024-10-24T17:14:40Z) - S-Eval: Towards Automated and Comprehensive Safety Evaluation for Large Language Models [46.148439517272024]
生成型大規模言語モデル (LLMs) は、自然言語処理に革命をもたらした。
最近の証拠は、LLMが社会規範に反する有害なコンテンツを生成できることを示している。
S-Evalは,新たに定義された包括的リスク分類を持つ自動安全評価フレームワークである。
論文 参考訳(メタデータ) (2024-05-23T05:34:31Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - SafetyBench: Evaluating the Safety of Large Language Models [54.878612385780805]
SafetyBenchは、大規模言語モデル(LLM)の安全性を評価するための包括的なベンチマークである。
11,435 の多様な選択質問が 7 つの異なるカテゴリーの安全問題にまたがっている。
ゼロショット設定と少数ショット設定の両方で、中国語と英語のLLMを25回以上テストしたところ、GPT-4よりも大幅にパフォーマンス上の優位性を示しました。
論文 参考訳(メタデータ) (2023-09-13T15:56:50Z) - Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。
安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文 参考訳(メタデータ) (2023-04-20T16:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。