論文の概要: Fake Alignment: Are LLMs Really Aligned Well?
- arxiv url: http://arxiv.org/abs/2311.05915v2
- Date: Tue, 14 Nov 2023 07:49:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-15 17:37:37.945648
- Title: Fake Alignment: Are LLMs Really Aligned Well?
- Title(参考訳): フェイクアライメント:LLMは本当にアライメントが良いのか?
- Authors: Yixu Wang, Yan Teng, Kexin Huang, Chengqi Lyu, Songyang Zhang, Wenwei
Zhang, Xingjun Ma, Yu-Gang Jiang, Yu Qiao, Yingchun Wang
- Abstract要約: 本研究では,複数質問とオープンエンド質問の相違点について検討した。
ジェイルブレイク攻撃パターンの研究にインスパイアされた我々は、これが不一致の一般化によって引き起こされたと論じている。
Fake alIgNment Evaluation frameworkとConsistency Score(CS)とConsistent Safety Score(CSS)の2つの新しいメトリクスについて紹介する。
- 参考スコア(独自算出の注目度): 94.30212931938169
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The growing awareness of safety concerns in large language models (LLMs) has
sparked considerable interest in the evaluation of safety within current
research endeavors. This study investigates an interesting issue pertaining to
the evaluation of LLMs, namely the substantial discrepancy in performance
between multiple-choice questions and open-ended questions. Inspired by
research on jailbreak attack patterns, we argue this is caused by mismatched
generalization. That is, the LLM does not have a comprehensive understanding of
the complex concept of safety. Instead, it only remembers what to answer for
open-ended safety questions, which makes it unable to solve other forms of
safety tests. We refer to this phenomenon as fake alignment and construct a
comparative benchmark to empirically verify its existence in LLMs. Such fake
alignment renders previous evaluation protocols unreliable. To address this, we
introduce the Fake alIgNment Evaluation (FINE) framework and two novel
metrics--Consistency Score (CS) and Consistent Safety Score (CSS), which
jointly assess two complementary forms of evaluation to quantify fake alignment
and obtain corrected performance estimates. Applying FINE to 14 widely-used
LLMs reveals several models with purported safety are poorly aligned in
practice. Our work highlights potential limitations in prevailing alignment
methodologies.
- Abstract(参考訳): 大規模言語モデル(LLM)における安全性に対する意識の高まりは、現在の研究成果における安全性評価に大きな関心を喚起している。
本研究は,LLMの評価に係わる興味深い問題,すなわち,複数質問とオープンエンド質問の相違点について考察する。
脱獄攻撃パターンの研究に触発されて、これは不一致の一般化によって引き起こされると主張している。
すなわち、LLMは、複雑な安全性の概念を包括的に理解していない。
その代わり、オープンエンドの安全問題に対して何に答えるべきかしか覚えていないため、他のタイプの安全テストは解決できない。
この現象を偽アライメントと呼び、LLMにおけるその存在を実証的に検証するための比較ベンチマークを構築する。
このような偽アライメントは、以前の評価プロトコルを信頼できないものにする。
そこで本研究では,ニセアライメント評価(fine)フレームワークと2つの新しいメトリクス-一貫性スコア(cs)と一貫性安全性スコア(css)を導入し,ニセアライメントを定量化し,補正された性能推定値を得る。
FINEを14基の広く使われているLCMに適用すると、安全性が保証されているモデルが実際には整合性が悪いことが分かる。
我々の研究は、普及するアライメント方法論の潜在的な限界を強調している。
関連論文リスト
- Is LLM-as-a-Judge Robust? Investigating Universal Adversarial Attacks on
Zero-shot LLM Assessment [10.05719021957877]
テキストに付加された場合,LLMを騙して高い評価スコアを与える,短い普遍的なフレーズを検索する。
SummEval と TopicalChat の実験では、単純な結合攻撃に対して LLM-scoring と 2 対 LLM-comparativeアセスメントの両方が脆弱であることが示された。
これは、さまざまな判断-LLMサイズ、ファミリー、メソッドにまたがる敵の脆弱性の広範性を強調します。
論文 参考訳(メタデータ) (2024-02-21T18:55:20Z) - SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large
Language Models [112.46733790998024]
SALAD-Benchは、大規模言語モデル(LLM)を評価するために特別に設計された安全ベンチマークである。
それは、その大規模な、豊富な多様性、三つのレベルにまたがる複雑な分類、多目的機能を通じて、従来のベンチマークを超越している。
論文 参考訳(メタデータ) (2024-02-07T17:33:54Z) - How Many Unicorns Are in This Image? A Safety Evaluation Benchmark for
Vision LLMs [55.91371032213854]
本研究は視覚的推論におけるビジョンLLM(VLLM)の可能性に焦点を当てる。
本稿では、アウト・オブ・ディストリビューション(OOD)の一般化と敵の堅牢性の両方をカバーする包括的安全性評価スイートを紹介する。
論文 参考訳(メタデータ) (2023-11-27T18:59:42Z) - Flames: Benchmarking Value Alignment of Chinese Large Language Models [89.06570864917784]
本稿では,Flames という,最初の高度に敵対的なベンチマークを提案する。
2,251個の手作業によるプロンプト、18.7Kのモデル応答と微粒なアノテーション、特定のスコアラーで構成されている。
我々の枠組みは、公正、安全、合法、データ保護といった一般的な無害の原則と、調和のような特定の中国の価値観を統合するユニークな道徳的側面の両方を包含している。
論文 参考訳(メタデータ) (2023-11-12T17:18:21Z) - Sentiment Analysis through LLM Negotiations [58.67939611291001]
感情分析の標準的なパラダイムは、単一のLCMに依存して、その決定を1ラウンドで行うことである。
本稿では,感情分析のためのマルチLLMネゴシエーションフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-03T12:35:29Z) - FELM: Benchmarking Factuality Evaluation of Large Language Models [40.78878196872095]
本稿では,Felmと呼ばれる大規模言語モデルのファクチュアリティ評価のためのベンチマークを紹介する。
我々は,大規模言語モデルから生成された応答を収集し,微粒な方法で事実ラベルを注釈付けする。
その結果,検索は事実性評価に役立つが,現在のLCMは事実の誤りを忠実に検出するには不十分であることがわかった。
論文 参考訳(メタデータ) (2023-10-01T17:37:31Z) - Semantic Consistency for Assuring Reliability of Large Language Models [9.876355290198639]
大規模言語モデル(LLM)は、様々な自然言語タスクに対して顕著な流布と能力を示す。
セマンティック一貫性の一般的な尺度を導入し、様々なLLMの性能を評価するために、この指標の複数バージョンを定式化する。
本稿では,Ask-to-Choose (A2C) と呼ばれる新しいプロンプト戦略を提案する。
論文 参考訳(メタデータ) (2023-08-17T18:11:33Z) - Trustworthy LLMs: a Survey and Guideline for Evaluating Large Language
Models' Alignment [15.663618713626386]
本稿では,大規模言語モデル(LLM)の評価において考慮すべき重要な要素について,包括的に調査する。
この調査は、信頼性、安全性、公正性、誤用に対する抵抗性、説明可能性と推論、社会的規範への固執、堅牢性の7つの主要なカテゴリーをカバーしている。
結果は、一般に、より整合したモデルは、全体的な信頼性の観点から、より良いパフォーマンスを示す傾向があることを示している。
論文 参考訳(メタデータ) (2023-08-10T06:43:44Z) - Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。
安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文 参考訳(メタデータ) (2023-04-20T16:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。