論文の概要: Flames: Benchmarking Value Alignment of Chinese Large Language Models
- arxiv url: http://arxiv.org/abs/2311.06899v1
- Date: Sun, 12 Nov 2023 17:18:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 16:14:41.584502
- Title: Flames: Benchmarking Value Alignment of Chinese Large Language Models
- Title(参考訳): Flames: 中国の大規模言語モデルのベンチマーク値アライメント
- Authors: Kexin Huang, Xiangyang Liu, Qianyu Guo, Tianxiang Sun, Jiawei Sun,
Yaru Wang, Zeyang Zhou, Yixu Wang, Yan Teng, Xipeng Qiu, Yingchun Wang, Dahua
Lin
- Abstract要約: 本稿では,Flames という,最初の高度に敵対的なベンチマークを提案する。
2,251個の手作業によるプロンプト、18.7Kのモデル応答と微粒なアノテーション、特定のスコアラーで構成されている。
我々の枠組みは、公正、安全、合法、データ保護といった一般的な無害の原則と、調和のような特定の中国の価値観を統合するユニークな道徳的側面の両方を包含している。
- 参考スコア(独自算出の注目度): 89.06570864917784
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The widespread adoption of large language models (LLMs) across various
regions underscores the urgent need to evaluate their alignment with human
values. Current benchmarks, however, fall short of effectively uncovering
safety vulnerabilities in LLMs. Despite numerous models achieving high scores
and 'topping the chart' in these evaluations, there is still a significant gap
in LLMs' deeper alignment with human values and achieving genuine harmlessness.
To this end, this paper proposes the first highly adversarial benchmark named
Flames, consisting of 2,251 manually crafted prompts, ~18.7K model responses
with fine-grained annotations, and a specified scorer. Our framework
encompasses both common harmlessness principles, such as fairness, safety,
legality, and data protection, and a unique morality dimension that integrates
specific Chinese values such as harmony. Based on the framework, we carefully
design adversarial prompts that incorporate complex scenarios and jailbreaking
methods, mostly with implicit malice. By prompting mainstream LLMs with such
adversarially constructed prompts, we obtain model responses, which are then
rigorously annotated for evaluation. Our findings indicate that all the
evaluated LLMs demonstrate relatively poor performance on Flames, particularly
in the safety and fairness dimensions. Claude emerges as the best-performing
model overall, but with its harmless rate being only 63.08% while GPT-4 only
scores 39.04%. The complexity of Flames has far exceeded existing benchmarks,
setting a new challenge for contemporary LLMs and highlighting the need for
further alignment of LLMs. To efficiently evaluate new models on the benchmark,
we develop a specified scorer capable of scoring LLMs across multiple
dimensions, achieving an accuracy of 77.4%. The Flames Benchmark is publicly
available on https://github.com/AIFlames/Flames.
- Abstract(参考訳): 大規模言語モデル (LLM) の普及は, 人的価値との整合性を評価する緊急の必要性を浮き彫りにしている。
しかし、現在のベンチマークでは、LLMの安全性上の脆弱性を効果的に発見できなかった。
これらの評価において、多くのモデルがハイスコアと「チャートのトッピング」を達成しているにもかかわらず、llmsの人間的価値との深い整合と真の無害性には依然として大きなギャップがある。
そこで本研究では,手作業によるプロンプト2,251件,微粒なアノテーション付き18.7Kモデル応答,特定のスコアラからなるFlamesという,最初の高度に敵対的なベンチマークを提案する。
我々の枠組みは、公正、安全、合法、データ保護といった一般的な無害の原則と、調和のような特定の中国の価値観を統合するユニークな道徳的側面の両方を含んでいる。
このフレームワークに基づき、我々は複雑なシナリオとジェイルブレイクメソッドを組み込んだ敵対的プロンプトを慎重に設計する。
このような敵対的に構築されたプロンプトをメインストリームのllmに促すことで、モデル応答を得る。
以上の結果から, 評価されたLLMは, フラムの安全性, 公正度が比較的低いことが示唆された。
クロードは全体として最高の成績のモデルだが、無害率はわずか63.08%であり、GPT-4は39.04%である。
Flames の複雑さは既存のベンチマークをはるかに上回り、現代の LLM に新たな課題を与え、LLM のさらなるアライメントの必要性を強調している。
ベンチマークで新しいモデルを効率よく評価するために,複数の次元にまたがってLLMをスコアリングし,77.4%の精度を達成できる特定のスコアラを開発した。
Flames Benchmarkはhttps://github.com/AIFlames/Flamesで公開されている。
関連論文リスト
- Is LLM-as-a-Judge Robust? Investigating Universal Adversarial Attacks on
Zero-shot LLM Assessment [10.05719021957877]
テキストに付加された場合,LLMを騙して高い評価スコアを与える,短い普遍的なフレーズを検索する。
SummEval と TopicalChat の実験では、単純な結合攻撃に対して LLM-scoring と 2 対 LLM-comparativeアセスメントの両方が脆弱であることが示された。
これは、さまざまな判断-LLMサイズ、ファミリー、メソッドにまたがる敵の脆弱性の広範性を強調します。
論文 参考訳(メタデータ) (2024-02-21T18:55:20Z) - How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on
Deceptive Prompts [59.07350713048311]
提案するMAD-Benchは,既存オブジェクト,オブジェクト数,空間関係,視覚的混乱など,850の試験サンプルを6つのカテゴリに分けたベンチマークである。
GPT-4V, Gemini-Pro から LLaVA-1.5 や CogVLM などのオープンソースモデルに至るまで,一般的な MLLM を包括的に分析する。
GPT-4VはMAD-Benchで75.02%の精度を達成するが、実験中の他のモデルの精度は5%から35%である。
論文 参考訳(メタデータ) (2024-02-20T18:31:27Z) - Fake Alignment: Are LLMs Really Aligned Well? [94.30212931938169]
本研究では,複数質問とオープンエンド質問の相違点について検討した。
ジェイルブレイク攻撃パターンの研究にインスパイアされた我々は、これが不一致の一般化によって引き起こされたと論じている。
Fake alIgNment Evaluation frameworkとConsistency Score(CS)とConsistent Safety Score(CSS)の2つの新しいメトリクスについて紹介する。
論文 参考訳(メタデータ) (2023-11-10T08:01:23Z) - Are Large Language Models Reliable Judges? A Study on the Factuality
Evaluation Capabilities of LLMs [8.526956860672698]
大きな言語モデル(LLM)は、その顕著な能力のために注目を集めている。
本研究では,テキスト生成モデルにより生成された要約における事実整合性の信頼性評価としてのLCMの可能性について検討する。
論文 参考訳(メタデータ) (2023-11-01T17:42:45Z) - Trustworthy LLMs: a Survey and Guideline for Evaluating Large Language
Models' Alignment [15.663618713626386]
本稿では,大規模言語モデル(LLM)の評価において考慮すべき重要な要素について,包括的に調査する。
この調査は、信頼性、安全性、公正性、誤用に対する抵抗性、説明可能性と推論、社会的規範への固執、堅牢性の7つの主要なカテゴリーをカバーしている。
結果は、一般に、より整合したモデルは、全体的な信頼性の観点から、より良いパフォーマンスを示す傾向があることを示している。
論文 参考訳(メタデータ) (2023-08-10T06:43:44Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z) - Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。
安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文 参考訳(メタデータ) (2023-04-20T16:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。