論文の概要: Flames: Benchmarking Value Alignment of Chinese Large Language Models
- arxiv url: http://arxiv.org/abs/2311.06899v1
- Date: Sun, 12 Nov 2023 17:18:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 16:14:41.584502
- Title: Flames: Benchmarking Value Alignment of Chinese Large Language Models
- Title(参考訳): Flames: 中国の大規模言語モデルのベンチマーク値アライメント
- Authors: Kexin Huang, Xiangyang Liu, Qianyu Guo, Tianxiang Sun, Jiawei Sun,
Yaru Wang, Zeyang Zhou, Yixu Wang, Yan Teng, Xipeng Qiu, Yingchun Wang, Dahua
Lin
- Abstract要約: 本稿では,Flames という,最初の高度に敵対的なベンチマークを提案する。
2,251個の手作業によるプロンプト、18.7Kのモデル応答と微粒なアノテーション、特定のスコアラーで構成されている。
我々の枠組みは、公正、安全、合法、データ保護といった一般的な無害の原則と、調和のような特定の中国の価値観を統合するユニークな道徳的側面の両方を包含している。
- 参考スコア(独自算出の注目度): 89.06570864917784
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The widespread adoption of large language models (LLMs) across various
regions underscores the urgent need to evaluate their alignment with human
values. Current benchmarks, however, fall short of effectively uncovering
safety vulnerabilities in LLMs. Despite numerous models achieving high scores
and 'topping the chart' in these evaluations, there is still a significant gap
in LLMs' deeper alignment with human values and achieving genuine harmlessness.
To this end, this paper proposes the first highly adversarial benchmark named
Flames, consisting of 2,251 manually crafted prompts, ~18.7K model responses
with fine-grained annotations, and a specified scorer. Our framework
encompasses both common harmlessness principles, such as fairness, safety,
legality, and data protection, and a unique morality dimension that integrates
specific Chinese values such as harmony. Based on the framework, we carefully
design adversarial prompts that incorporate complex scenarios and jailbreaking
methods, mostly with implicit malice. By prompting mainstream LLMs with such
adversarially constructed prompts, we obtain model responses, which are then
rigorously annotated for evaluation. Our findings indicate that all the
evaluated LLMs demonstrate relatively poor performance on Flames, particularly
in the safety and fairness dimensions. Claude emerges as the best-performing
model overall, but with its harmless rate being only 63.08% while GPT-4 only
scores 39.04%. The complexity of Flames has far exceeded existing benchmarks,
setting a new challenge for contemporary LLMs and highlighting the need for
further alignment of LLMs. To efficiently evaluate new models on the benchmark,
we develop a specified scorer capable of scoring LLMs across multiple
dimensions, achieving an accuracy of 77.4%. The Flames Benchmark is publicly
available on https://github.com/AIFlames/Flames.
- Abstract(参考訳): 大規模言語モデル (LLM) の普及は, 人的価値との整合性を評価する緊急の必要性を浮き彫りにしている。
しかし、現在のベンチマークでは、LLMの安全性上の脆弱性を効果的に発見できなかった。
これらの評価において、多くのモデルがハイスコアと「チャートのトッピング」を達成しているにもかかわらず、llmsの人間的価値との深い整合と真の無害性には依然として大きなギャップがある。
そこで本研究では,手作業によるプロンプト2,251件,微粒なアノテーション付き18.7Kモデル応答,特定のスコアラからなるFlamesという,最初の高度に敵対的なベンチマークを提案する。
我々の枠組みは、公正、安全、合法、データ保護といった一般的な無害の原則と、調和のような特定の中国の価値観を統合するユニークな道徳的側面の両方を含んでいる。
このフレームワークに基づき、我々は複雑なシナリオとジェイルブレイクメソッドを組み込んだ敵対的プロンプトを慎重に設計する。
このような敵対的に構築されたプロンプトをメインストリームのllmに促すことで、モデル応答を得る。
以上の結果から, 評価されたLLMは, フラムの安全性, 公正度が比較的低いことが示唆された。
クロードは全体として最高の成績のモデルだが、無害率はわずか63.08%であり、GPT-4は39.04%である。
Flames の複雑さは既存のベンチマークをはるかに上回り、現代の LLM に新たな課題を与え、LLM のさらなるアライメントの必要性を強調している。
ベンチマークで新しいモデルを効率よく評価するために,複数の次元にまたがってLLMをスコアリングし,77.4%の精度を達成できる特定のスコアラを開発した。
Flames Benchmarkはhttps://github.com/AIFlames/Flamesで公開されている。
関連論文リスト
- SG-Bench: Evaluating LLM Safety Generalization Across Diverse Tasks and Prompt Types [21.683010095703832]
本研究では,大規模言語モデル(LLM)の安全性を様々なタスクやプロンプトタイプにまたがる一般化を評価するための新しいベンチマークを開発する。
このベンチマークは、生成的および識別的評価タスクを統合し、LLMの安全性に対する迅速なエンジニアリングとジェイルブレイクの影響を調べるための拡張データを含む。
評価の結果,ほとんどのLDMは生成的タスクよりも差別的タスクが悪く,プロンプトに非常に敏感であり,安全アライメントの一般化が不十分であることが示唆された。
論文 参考訳(メタデータ) (2024-10-29T11:47:01Z) - LLM Detectors Still Fall Short of Real World: Case of LLM-Generated Short News-Like Posts [7.680851067579922]
本稿では、中程度に洗練された攻撃者によって生成される短いニュースのような投稿という、情報操作における重要な設定に焦点を当てる。
既存のLCM検出器は、ゼロショットでも目的訓練でも、その環境での実際の使用準備が整っていないことを実証する。
LLMをまたいで汎用化された目的学習型検出器を開発し、見知らぬ攻撃を行うことができるが、新しい人文テキストへの一般化には失敗する。
論文 参考訳(メタデータ) (2024-09-05T06:55:13Z) - Characterizing and Evaluating the Reliability of LLMs against Jailbreak Attacks [23.782566331783134]
我々は3つのカテゴリ、61の特定の有害なカテゴリからの1525の質問、13の人気のあるLCMの10の最先端のジェイルブレイク戦略に焦点を当てた。
攻撃成功率(ASR)、毒性スコア(Toxicity Score)、Fluency(Fluency)、Token Length(Token Length)、文法エラー(Grammatical Errors)などの多次元指標を用いて、ジェイルブレイク下でのLLMのアウトプットを徹底的に評価する。
モデル,攻撃戦略,有害コンテンツの種類,および評価指標間の相関関係について検討し,多面的評価フレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2024-08-18T01:58:03Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal Behaviors [64.9938658716425]
安全でないユーザリクエストを認識して拒否する、大規模な言語モデル(LLM)の既存の評価は、3つの制限に直面している。
まず、既存の手法では、安全でないトピックの粗い粒度を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
第3に、既存の評価は大きなLCMに頼っているため、コストがかかる可能性がある。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - CLAMBER: A Benchmark of Identifying and Clarifying Ambiguous Information Needs in Large Language Models [60.59638232596912]
大規模言語モデル(LLM)を評価するベンチマークであるCLAMBERを紹介する。
分類を基盤として12Kの高品質なデータを構築し, 市販のLCMの強度, 弱点, 潜在的なリスクを評価する。
本研究は, あいまいなユーザクエリの特定と明確化において, 現在のLCMの実用性に限界があることを示唆する。
論文 参考訳(メタデータ) (2024-05-20T14:34:01Z) - Fake Alignment: Are LLMs Really Aligned Well? [91.26543768665778]
本研究では,複数質問とオープンエンド質問の相違点について検討した。
ジェイルブレイク攻撃パターンの研究にインスパイアされた我々は、これが不一致の一般化によって引き起こされたと論じている。
論文 参考訳(メタデータ) (2023-11-10T08:01:23Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。