論文の概要: JADE: A Linguistic-based Safety Evaluation Platform for LLM
- arxiv url: http://arxiv.org/abs/2311.00286v1
- Date: Wed, 1 Nov 2023 04:36:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 14:58:06.324603
- Title: JADE: A Linguistic-based Safety Evaluation Platform for LLM
- Title(参考訳): JADE:LLMのための言語ベースの安全評価プラットフォーム
- Authors: Mi Zhang and Xudong Pan and Min Yang
- Abstract要約: textitJADEは、シード質問の言語的複雑さを強化する言語ファジィングプラットフォームである。
textitJADEは、元の質問の構文構造の複雑さを増すために、生成規則と変換規則のシーケンスを呼び出します。
- 参考スコア(独自算出の注目度): 27.880162253969935
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this paper, we present \textit{JADE}, a targeted linguistic fuzzing
platform which strengthens the linguistic complexity of seed questions to
simultaneously and consistently break a wide range of widely-used LLMs
categorized in three groups: eight open-sourced Chinese, six commercial Chinese
and four commercial English LLMs. JADE generates three safety benchmarks for
the three groups of LLMs, which contain unsafe questions that are highly
threatening: the questions simultaneously trigger harmful generation of
multiple LLMs, with an average unsafe generation ratio of \textbf{$70\%$}
(please see the table below), while are still natural questions, fluent and
preserving the core unsafe semantics. We release the benchmark demos generated
for commercial English LLMs and open-sourced English LLMs in the following
link: https://github.com/whitzard-ai/jade-db. For readers who are interested in
evaluating on more questions generated by JADE, please contact us.
\textit{JADE} is based on Noam Chomsky's seminal theory of
transformational-generative grammar. Given a seed question with unsafe
intention, \textit{JADE} invokes a sequence of generative and transformational
rules to increment the complexity of the syntactic structure of the original
question, until the safety guardrail is broken. Our key insight is: Due to the
complexity of human language, most of the current best LLMs can hardly
recognize the invariant evil from the infinite number of different syntactic
structures which form an unbound example space that can never be fully covered.
Technically, the generative/transformative rules are constructed by native
speakers of the languages, and, once developed, can be used to automatically
grow and transform the parse tree of a given question, until the guardrail is
broken. For more evaluation results and demo, please check our website:
https://whitzard-ai.github.io/jade.html.
- Abstract(参考訳): 本稿では,シード質問の言語的複雑さを強化し,広範に使用されているLLMを,オープンソース中国語8種,商用中国語6種,商用英語4種に分類した3つのグループに分割した。
質問は同時に複数のLSMの有害な生成を誘発し、平均的な安全でない生成比は \textbf{$70\%$} (以下表を参照) であり、依然として自然な質問であり、コアの安全でないセマンティクスを流用し保存している。
我々は、商用のLLMとオープンソースのLLM向けに生成されたベンチマークデモを、以下のリンクでリリースする。
JADEによって生成されたより多くの質問を評価することに興味がある読者には、ご連絡ください。
\textit{jade} は、noam chomsky のseminal theory of transformational-generative grammar に基づいている。
安全な意図のないシード質問が与えられると、\textit{jade} は、安全ガードレールが壊れるまで元の質問の構文構造の複雑さを増すために、生成規則と変換規則のシーケンスを起動する。
我々の重要な洞察は: 人間の言語の複雑さのため、現在の最高のLLMのほとんどは、完全にカバーできない無制限の例空間を形成する無限の異なる構文構造から、不変の悪をほとんど認識できない。
技術的には、生成/変換規則は言語のネイティブな話者によって構築され、一旦開発されていれば、ガードレールが壊れるまで、ある質問のパースツリーを自動成長させ変換するのに使うことができる。
さらなる評価結果とデモについては、Webサイトを参照してください。
関連論文リスト
- OMGEval: An Open Multilingual Generative Evaluation Benchmark for Large
Language Models [59.54423478596468]
OMGEvalは、オープンソースの多言語生成テストセットであり、異なる言語におけるLLMの能力を評価することができる。
各言語について、OMGEvalは804のオープンエンド質問を提供し、LLMの重要な機能を幅広くカバーしている。
具体的には、OMGEvalの現在のバージョンには5つの言語(Zh, Ru, Fr, Es, Ar)が含まれている。
論文 参考訳(メタデータ) (2024-02-21T04:42:41Z) - The Language Barrier: Dissecting Safety Challenges of LLMs in
Multilingual Contexts [46.089025223336854]
本稿では,多言語にわたる大規模言語モデルが直面する安全上の課題の多様性について検討する。
我々は、最先端のLLMが高レベルの言語と低レベルの言語で書かれた同じ悪意のあるプロンプトにどのように反応するかを比較する。
論文 参考訳(メタデータ) (2024-01-23T23:12:09Z) - BOOST: Harnessing Black-Box Control to Boost Commonsense in LMs'
Generation [60.77990074569754]
本稿では,凍結した事前学習言語モデルを,より汎用的な生成に向けて操る,計算効率のよいフレームワークを提案する。
具体的には、まず、文に常識的スコアを割り当てる参照なし評価器を構築する。
次に、スコアラをコモンセンス知識のオラクルとして使用し、NADOと呼ばれる制御可能な生成法を拡張して補助ヘッドを訓練する。
論文 参考訳(メタデータ) (2023-10-25T23:32:12Z) - Multilingual Jailbreak Challenges in Large Language Models [96.74878032417054]
本研究では,大規模言語モデル(LLM)における多言語ジェイルブレイク問題の存在を明らかにする。
我々は、意図しないシナリオと意図的なシナリオの2つを考えます。
安全な微調整のための多言語学習データを自動的に生成する新しいtextscSelf-Defense フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-10T09:44:06Z) - Let Models Speak Ciphers: Multiagent Debate through Embeddings [84.20336971784495]
この問題を解決するためにCIPHER(Communicative Inter-Model Protocol Through Embedding Representation)を導入する。
自然言語から逸脱することで、CIPHERはモデルの重みを変更することなく、より広い範囲の情報を符号化する利点を提供する。
このことは、LLM間の通信における代替の"言語"としての埋め込みの優越性と堅牢性を示している。
論文 参考訳(メタデータ) (2023-10-10T03:06:38Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z) - Prompting Multilingual Large Language Models to Generate Code-Mixed
Texts: The Case of South East Asian Languages [47.78634360870564]
東南アジア7言語(SEA)のコードミキシングデータ生成のための多言語モデルの構築について検討する。
BLOOMZのような多言語学習モデルでは、異なる言語からフレーズや節でテキストを生成できないことが判明した。
ChatGPTは、コード混合テキストの生成において矛盾する機能を示しており、そのパフォーマンスはプロンプトテンプレートと言語ペアリングによって異なる。
論文 参考訳(メタデータ) (2023-03-23T18:16:30Z) - Systematic Rectification of Language Models via Dead-end Analysis [34.37598463459319]
大型言語モデル(LLM)は有害な談話を生成するためにプッシュされる。
ここでは、完了した談話が最終的に有毒と考えられる確率について、デトックス化を中心とする。
我々の手法は整流化と呼ばれ、別個のモデルを用いるが、デトキシ化には著しく小さいモデルを用いる。
論文 参考訳(メタデータ) (2023-02-27T17:47:53Z) - CLSE: Corpus of Linguistically Significant Entities [58.29901964387952]
専門家が注釈を付けた言語学的に重要なエンティティ(CLSE)のコーパスをリリースする。
CLSEは74種類のセマンティックタイプをカバーし、航空券売機からビデオゲームまで様々なアプリケーションをサポートする。
言語的に代表されるNLG評価ベンチマークを,フランス語,マラティー語,ロシア語の3言語で作成する。
論文 参考訳(メタデータ) (2022-11-04T12:56:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。