論文の概要: The Scales of Justitia: A Comprehensive Survey on Safety Evaluation of LLMs
- arxiv url: http://arxiv.org/abs/2506.11094v2
- Date: Thu, 30 Oct 2025 06:22:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.357543
- Title: The Scales of Justitia: A Comprehensive Survey on Safety Evaluation of LLMs
- Title(参考訳): ユスティシアの尺度 : LLMの安全性評価に関する総合的な調査
- Authors: Songyang Liu, Chaozhuo Li, Jiameng Qiu, Xi Zhang, Feiran Huang, Litian Zhang, Yiming Hei, Philip S. Yu,
- Abstract要約: 大規模言語モデル(LLM)は自然言語処理(NLP)において顕著な能力を示している。
広範囲に展開したことにより、大きな安全上の懸念がもたらされた。
LLMの生成したコンテンツは、特に敵の文脈において、毒性、偏見、誤情報などの安全でない振る舞いを示す。
- 参考スコア(独自算出の注目度): 57.1838332916627
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid advancement of artificial intelligence, Large Language Models (LLMs) have shown remarkable capabilities in Natural Language Processing (NLP), including content generation, human-computer interaction, machine translation, and code generation. However, their widespread deployment has also raised significant safety concerns. In particular, LLM-generated content can exhibit unsafe behaviors such as toxicity, bias, or misinformation, especially in adversarial contexts, which has attracted increasing attention from both academia and industry. Although numerous studies have attempted to evaluate these risks, a comprehensive and systematic survey on safety evaluation of LLMs is still lacking. This work aims to fill this gap by presenting a structured overview of recent advances in safety evaluation of LLMs. Specifically, we propose a four-dimensional taxonomy: (i) Why to evaluate, which explores the background of safety evaluation of LLMs, how they differ from general LLMs evaluation, and the significance of such evaluation; (ii) What to evaluate, which examines and categorizes existing safety evaluation tasks based on key capabilities, including dimensions such as toxicity, robustness, ethics, bias and fairness, truthfulness, and related aspects; (iii) Where to evaluate, which summarizes the evaluation metrics, datasets and benchmarks currently used in safety evaluations; (iv) How to evaluate, which reviews existing mainstream evaluation methods based on the roles of the evaluators and some evaluation frameworks that integrate the entire evaluation pipeline. Finally, we identify the challenges in safety evaluation of LLMs and propose promising research directions to promote further advancement in this field. We emphasize the necessity of prioritizing safety evaluation to ensure the reliable and responsible deployment of LLMs in real-world applications.
- Abstract(参考訳): 人工知能の急速な進歩により、Large Language Models (LLM) は、コンテンツ生成、ヒューマンコンピュータインタラクション、機械翻訳、コード生成など、自然言語処理(NLP)において顕著な能力を示した。
しかし、その広範な展開は、重大な安全上の懸念ももたらした。
特に、LSMが生成したコンテンツは、毒性、偏見、誤報などの安全でない振る舞いを、特に敵対的な文脈で示し、学術と産業の両方から注目を集めている。
多くの研究がこれらのリスク評価を試みているが、LLMの安全性評価に関する総合的かつ体系的な調査はいまだに欠落している。
本研究の目的は,LLMの安全性評価の最近の進歩を概観することで,このギャップを埋めることである。
具体的には,4次元分類法を提案する。
一 LCMの安全性評価の背景、LCMの一般評価とどのように異なるか、その意義を考察する理由
二 毒性、堅牢性、倫理、偏見及び公正性、真理性その他関連する側面を含む重要な能力に基づいて、既存の安全評価タスクを検査し、分類する方法
三 現在安全評価に使われている評価指標、データセット及びベンチマークを要約した評価方法
(4)評価パイプライン全体を統合した評価フレームワークと評価者の役割に基づいて、既存の主流評価手法をレビューする評価方法。
最後に, LLMの安全性評価における課題を特定し, この分野のさらなる進歩を促進するために, 将来的な研究方向性を提案する。
我々は,LLMの信頼性と信頼性を確保するために,安全性評価の優先順位付けの必要性を強調した。
関連論文リスト
- A Survey of Safety on Large Vision-Language Models: Attacks, Defenses and Evaluations [127.52707312573791]
この調査はLVLMの安全性を包括的に分析し、攻撃、防御、評価方法などの重要な側面をカバーする。
我々はこれらの相互関連コンポーネントを統合する統一フレームワークを導入し、LVLMの脆弱性を概観する。
我々は,最新のLVLMであるDeepseek Janus-Pro上で一連の安全性評価を行い,その結果を理論的に分析する。
論文 参考訳(メタデータ) (2025-02-14T08:42:43Z) - SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。
我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。
本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文 参考訳(メタデータ) (2024-10-24T17:14:40Z) - Exploring Advanced Methodologies in Security Evaluation for LLMs [16.753146059652877]
大規模言語モデル(LLM)は、初期のより単純な言語モデルの進化を象徴する。
複雑な言語パターンを処理し、一貫性のあるテキスト、画像、オーディオ、ビデオを生成する能力が強化されている。
LLMの急速な拡大は、学術コミュニティ内のセキュリティと倫理的懸念を提起している。
論文 参考訳(メタデータ) (2024-02-28T01:32:58Z) - CPSDBench: A Large Language Model Evaluation Benchmark and Baseline for Chinese Public Security Domain [21.825274494004983]
本研究は,中国の公安ドメインであるCPSDbenchに合わせた,特別な評価ベンチマークを構築することを目的とする。
CPSDbenchは、現実世界のシナリオから収集されたパブリックセキュリティに関連するデータセットを統合する。
本研究では,公共の安全に関わるタスクの実行において,LLMの有効性をより正確に定量化するための,革新的な評価指標を提案する。
論文 参考訳(メタデータ) (2024-02-11T15:56:03Z) - Evaluating Large Language Models: A Comprehensive Survey [41.64914110226901]
大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著な能力を示している。
プライベートなデータ漏洩に悩まされたり、不適切で有害なコンテンツや誤解を招く可能性がある。
LLMのキャパシティを効果的に活用し、その安全で有益な開発を確保するためには、厳密で包括的な評価を行うことが不可欠である。
論文 参考訳(メタデータ) (2023-10-30T17:00:52Z) - CValues: Measuring the Values of Chinese Large Language Models from
Safety to Responsibility [62.74405775089802]
LLMのアライメント能力を測定するために,中国初の人的価値評価ベンチマークであるCValuesを提案する。
その結果、我々は10のシナリオにまたがる敵の安全プロンプトを手作業で収集し、8つのドメインから責任プロンプトを誘導した。
以上の結果から,ほとんどの中国のLLMは安全面では良好に機能するが,責任面では十分な改善の余地があることが示唆された。
論文 参考訳(メタデータ) (2023-07-19T01:22:40Z) - A Survey on Evaluation of Large Language Models [87.60417393701331]
大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。
本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
論文 参考訳(メタデータ) (2023-07-06T16:28:35Z) - Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。
安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文 参考訳(メタデータ) (2023-04-20T16:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。