論文の概要: CRiskEval: A Chinese Multi-Level Risk Evaluation Benchmark Dataset for Large Language Models
- arxiv url: http://arxiv.org/abs/2406.04752v1
- Date: Fri, 7 Jun 2024 08:52:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-10 14:50:13.624182
- Title: CRiskEval: A Chinese Multi-Level Risk Evaluation Benchmark Dataset for Large Language Models
- Title(参考訳): CRiskEval: 大規模言語モデルのための中国のマルチレベルリスク評価ベンチマークデータセット
- Authors: Ling Shi, Deyi Xiong,
- Abstract要約: CRiskEvalは、大規模言語モデル(LLM)に固有のリスク確率を正確に計測するために設計された中国のデータセットである。
7種類のフロンティアリスクと4つの安全性レベルを持つ新たなリスク分類を定義する。
データセットは、事前に定義された7種類のフロンティアリスクに関連するシナリオをシミュレートする14,888の質問で構成されている。
- 参考スコア(独自算出の注目度): 46.93425758722059
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are possessed of numerous beneficial capabilities, yet their potential inclination harbors unpredictable risks that may materialize in the future. We hence propose CRiskEval, a Chinese dataset meticulously designed for gauging the risk proclivities inherent in LLMs such as resource acquisition and malicious coordination, as part of efforts for proactive preparedness. To curate CRiskEval, we define a new risk taxonomy with 7 types of frontier risks and 4 safety levels, including extremely hazardous,moderately hazardous, neutral and safe. We follow the philosophy of tendency evaluation to empirically measure the stated desire of LLMs via fine-grained multiple-choice question answering. The dataset consists of 14,888 questions that simulate scenarios related to predefined 7 types of frontier risks. Each question is accompanied with 4 answer choices that state opinions or behavioral tendencies corresponding to the question. All answer choices are manually annotated with one of the defined risk levels so that we can easily build a fine-grained frontier risk profile for each assessed LLM. Extensive evaluation with CRiskEval on a spectrum of prevalent Chinese LLMs has unveiled a striking revelation: most models exhibit risk tendencies of more than 40% (weighted tendency to the four risk levels). Furthermore, a subtle increase in the model's inclination toward urgent self-sustainability, power seeking and other dangerous goals becomes evident as the size of models increase. To promote further research on the frontier risk evaluation of LLMs, we publicly release our dataset at https://github.com/lingshi6565/Risk_eval.
- Abstract(参考訳): 大規模言語モデル (LLM) には多くの有益な能力があるが、その潜在的な傾きは将来実現される可能性のある予測不可能なリスクを伴っている。
そこで我々は,資源獲得や悪意ある調整などのLSMに固有のリスク確率を,能動的準備の取り組みの一環として正確に計測するために設計された中国のデータセットであるCRiskEvalを提案する。
CRiskEvalを治すために、我々は7種類のフロンティアリスクと4つの安全性レベルを持つ新たなリスク分類を定義します。
我々は傾向評価の哲学に従い、細粒度多重選択質問応答によるLCMの欲求を実証的に測定する。
データセットは、事前に定義された7種類のフロンティアリスクに関連するシナリオをシミュレートする14,888の質問で構成されている。
各質問には、質問に対応する意見や行動傾向を示す4つの回答選択が添付されている。
すべての回答選択は、定義されたリスクレベルの1つに手動で注釈付けされるので、評価されたLLM毎に、きめ細かいフロンティアリスクプロファイルを簡単に構築できます。
CRiskEvalによる中国のLLMの広範にわたる評価によると、多くのモデルは40%以上のリスク傾向を示す(4つのリスクレベルに対する重み付け傾向)。
さらに、モデルのサイズが大きくなるにつれて、緊急の自己持続性、電力探索、その他の危険な目標に対するモデルの傾きの微妙な増加が明らかになる。
LLMのフロンティアリスク評価に関するさらなる研究を促進するため、私たちはデータセットをhttps://github.com/lingshi6565/Risk_eval.comで公開しています。
関連論文リスト
- Navigating the Risks: A Survey of Security, Privacy, and Ethics Threats in LLM-Based Agents [67.07177243654485]
この調査は、大規模言語モデルに基づくエージェントが直面するさまざまな脅威を収集、分析する。
LLMをベースとしたエージェントの6つの重要な特徴を概説する。
4つの代表エージェントをケーススタディとして選択し,実践的に直面する可能性のあるリスクを分析した。
論文 参考訳(メタデータ) (2024-11-14T15:40:04Z) - Quantifying Risk Propensities of Large Language Models: Ethical Focus and Bias Detection through Role-Play [0.43512163406552007]
大きな言語モデル(LLM)がより普及するにつれて、その安全性、倫理、潜在的なバイアスに対する懸念が高まっている。
本研究は,認知科学からLLMまで,Domain-Specific Risk-Taking(DOSPERT)尺度を革新的に適用する。
本研究では,LLMの倫理的リスク態度を深く評価するために,倫理的意思決定リスク態度尺度(EDRAS)を提案する。
論文 参考訳(メタデータ) (2024-10-26T15:55:21Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - Risk and Response in Large Language Models: Evaluating Key Threat Categories [6.436286493151731]
本稿では,Large Language Models (LLMs) におけるリスクアセスメントのプレッシャーについて考察する。
人為的レッドチームデータセットを利用することで、情報ハザード、悪用、差別/憎しみのあるコンテンツなど、主要なリスクカテゴリを分析します。
以上の結果から,LSMは情報ハザードを有害とみなす傾向があることが示唆された。
論文 参考訳(メタデータ) (2024-03-22T06:46:40Z) - A Chinese Dataset for Evaluating the Safeguards in Large Language Models [46.43476815725323]
大型言語モデル(LLM)は有害な応答を生み出す。
本稿では,中国のLLMの安全性評価のためのデータセットを提案する。
次に、偽陰性例と偽陽性例をよりよく識別するために使用できる他の2つのシナリオに拡張する。
論文 参考訳(メタデータ) (2024-02-19T14:56:18Z) - C-RAG: Certified Generation Risks for Retrieval-Augmented Language Models [57.10361282229501]
RAGモデルの生成リスクを認証する最初のフレームワークであるC-RAGを提案する。
具体的には、RAGモデルに対して共形リスク分析を行い、生成リスクの上限以上の信頼度を認定する。
検索モデルと変圧器の品質が非自明な場合, RAG は単一の LLM よりも低い共形生成リスクを達成できることを示す。
論文 参考訳(メタデータ) (2024-02-05T16:46:16Z) - RiskQ: Risk-sensitive Multi-Agent Reinforcement Learning Value Factorization [49.26510528455664]
本稿では,リスクに敏感な個人・グローバル・マックス(RIGM)の原則を,個人・グローバル・マックス(IGM)と分散IGM(DIGM)の原則の一般化として紹介する。
RiskQは広範な実験によって有望な性能が得られることを示す。
論文 参考訳(メタデータ) (2023-11-03T07:18:36Z) - A Formalism and Approach for Improving Robustness of Large Language
Models Using Risk-Adjusted Confidence Scores [4.043005183192123]
大規模言語モデル(LLM)は自然言語処理(NLP)において驚くべきマイルストーンを達成した
優れた性能にもかかわらず、モデルには重要なリスクが伴うことが知られている。
意思決定リスクと複合リスクという,2つの異なるタイプのリスクを定義し,形式化する。
論文 参考訳(メタデータ) (2023-10-05T03:20:41Z) - Efficient Risk-Averse Reinforcement Learning [79.61412643761034]
リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。
特定の条件下では、これは必然的に局所最適障壁につながることを証明し、それを回避するためのソフトリスク機構を提案する。
迷路ナビゲーション,自律運転,資源配分ベンチマークにおいて,リスク回避の改善を示す。
論文 参考訳(メタデータ) (2022-05-10T19:40:52Z) - Ethical and social risks of harm from Language Models [22.964941107198023]
本稿では,大規模言語モデル(LM)に関連するリスクランドスケープの構築を支援することを目的とする。
コンピュータ科学、言語学、社会科学から多分野の専門知識と文献を参考に、幅広い確立と予測されたリスクが詳細に分析されている。
論文 参考訳(メタデータ) (2021-12-08T16:09:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。