論文の概要: CValues: Measuring the Values of Chinese Large Language Models from
Safety to Responsibility
- arxiv url: http://arxiv.org/abs/2307.09705v1
- Date: Wed, 19 Jul 2023 01:22:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-20 15:47:25.555468
- Title: CValues: Measuring the Values of Chinese Large Language Models from
Safety to Responsibility
- Title(参考訳): CValues: 安全から責任まで,中国の大規模言語モデルの価値を測定する
- Authors: Guohai Xu, Jiayi Liu, Ming Yan, Haotian Xu, Jinghui Si, Zhuoran Zhou,
Peng Yi, Xing Gao, Jitao Sang, Rong Zhang, Ji Zhang, Chao Peng, Fei Huang,
Jingren Zhou
- Abstract要約: LLMのアライメント能力を測定するために,中国初の人的価値評価ベンチマークであるCValuesを提案する。
その結果、我々は10のシナリオにまたがる敵の安全プロンプトを手作業で収集し、8つのドメインから責任プロンプトを誘導した。
以上の結果から,ほとんどの中国のLLMは安全面では良好に機能するが,責任面では十分な改善の余地があることが示唆された。
- 参考スコア(独自算出の注目度): 62.74405775089802
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid evolution of large language models (LLMs), there is a growing
concern that they may pose risks or have negative social impacts. Therefore,
evaluation of human values alignment is becoming increasingly important.
Previous work mainly focuses on assessing the performance of LLMs on certain
knowledge and reasoning abilities, while neglecting the alignment to human
values, especially in a Chinese context. In this paper, we present CValues, the
first Chinese human values evaluation benchmark to measure the alignment
ability of LLMs in terms of both safety and responsibility criteria. As a
result, we have manually collected adversarial safety prompts across 10
scenarios and induced responsibility prompts from 8 domains by professional
experts. To provide a comprehensive values evaluation of Chinese LLMs, we not
only conduct human evaluation for reliable comparison, but also construct
multi-choice prompts for automatic evaluation. Our findings suggest that while
most Chinese LLMs perform well in terms of safety, there is considerable room
for improvement in terms of responsibility. Moreover, both the automatic and
human evaluation are important for assessing the human values alignment in
different aspects. The benchmark and code is available on ModelScope and
Github.
- Abstract(参考訳): 大規模言語モデル(llm)の急速な進化に伴い、リスクや社会的影響をもたらすのではないかという懸念が高まっている。
そのため、人的価値アライメントの評価の重要性が高まっている。
従来の研究は主に、特定の知識と推論能力に基づいてLLMのパフォーマンスを評価することに焦点を当て、特に中国の文脈において、人的価値との整合性を無視している。
本稿では,安全性と責任基準の両面からLCMのアライメント能力を測定するため,中国初の人的価値評価ベンチマークであるCValuesを提案する。
その結果、専門家による10のシナリオにまたがる敵対的安全プロンプトと8つのドメインから引き起こされた責任プロンプトを手作業で収集した。
中国語llmの包括的価値評価を行うため、信頼性の高い比較のためのヒューマン評価を行うだけでなく、自動評価のためのマルチチョイスプロンプトを構築する。
以上の結果から,ほとんどの中国のLLMは安全面では良好に機能するが,責任面では十分な改善の余地があることが示唆された。
また, 自動評価と人的評価は, 異なる側面における人的価値アライメントを評価する上で重要である。
ベンチマークとコードはmodelscopeとgithubで入手できる。
関連論文リスト
- ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - OpenEval: Benchmarking Chinese LLMs across Capability, Alignment and Safety [37.07970624135514]
OpenEvalは、能力、アライメント、安全性にわたって中国のLLMをベンチマークする評価テストベッドである。
機能評価には,NLPタスク,ディシプリナリーナレッジ,コモンセンス推論,数学的推論という4つのサブディメンジョンから中国語LLMを評価するための12のベンチマークデータセットを含む。
アライメントアライメントアセスメントのために、OpenEvalには、中国のLLMが出力するバイアス、攻撃性、不正性を調べる7つのデータセットが含まれている。
論文 参考訳(メタデータ) (2024-03-18T23:21:37Z) - TencentLLMEval: A Hierarchical Evaluation of Real-World Capabilities for
Human-Aligned LLMs [35.717370285231176]
大規模言語モデル(LLM)は、様々な自然言語タスクにまたがる印象的な機能を示している。
本研究では,LLMの習熟度を評価するために,多種多様な実世界の課題に対する指示に従うための包括的人間評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-09T13:58:59Z) - Collaborative Evaluation: Exploring the Synergy of Large Language Models
and Humans for Open-ended Generation Evaluation [71.76872586182981]
大規模言語モデル(LLM)は、人間の評価に代わるスケーラブルで費用対効果の高い代替品として登場した。
本稿では,タスク固有の基準のチェックリストとテキストの詳細な評価を含む協調評価パイプラインCoEvalを提案する。
論文 参考訳(メタデータ) (2023-10-30T17:04:35Z) - A Survey on Evaluation of Large Language Models [87.60417393701331]
大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。
本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
論文 参考訳(メタデータ) (2023-07-06T16:28:35Z) - Heterogeneous Value Alignment Evaluation for Large Language Models [91.96728871418]
大規模言語モデル(LLM)は、その価値を人間のものと整合させることを重要視している。
本研究では,LLMと不均一値の整合性を評価するため,不均一値アライメント評価(HVAE)システムを提案する。
論文 参考訳(メタデータ) (2023-05-26T02:34:20Z) - Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。
安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文 参考訳(メタデータ) (2023-04-20T16:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。