論文の概要: JADE: A Linguistics-based Safety Evaluation Platform for Large Language
Models
- arxiv url: http://arxiv.org/abs/2311.00286v3
- Date: Sun, 10 Dec 2023 13:58:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 22:06:06.420900
- Title: JADE: A Linguistics-based Safety Evaluation Platform for Large Language
Models
- Title(参考訳): JADE:大規模言語モデルのための言語ベースの安全評価プラットフォーム
- Authors: Mi Zhang and Xudong Pan and Min Yang
- Abstract要約: JADEは、シード質問の言語的複雑さを強化し、広範囲に使われているLLMを同時に一貫的に破壊するターゲット言語ファジィングプラットフォームである。
ノーム・チョムスキー(Noam Chomsky)の変質生成文法(transformational-generative grammar)のセミナル理論に基づいて、JADEは生成規則と変換規則の列を呼び出し、元の質問の構文構造の複雑さを増す。
- 参考スコア(独自算出の注目度): 27.880162253969935
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this paper, we present JADE, a targeted linguistic fuzzing platform which
strengthens the linguistic complexity of seed questions to simultaneously and
consistently break a wide range of widely-used LLMs categorized in three
groups: eight open-sourced Chinese, six commercial Chinese and four commercial
English LLMs. JADE generates three safety benchmarks for the three groups of
LLMs, which contain unsafe questions that are highly threatening: the questions
simultaneously trigger harmful generation of multiple LLMs, with an average
unsafe generation ratio of $70\%$ (please see the table below), while are still
natural questions, fluent and preserving the core unsafe semantics. We release
the benchmark demos generated for commercial English LLMs and open-sourced
English LLMs in the following link: https://github.com/whitzard-ai/jade-db. For
readers who are interested in evaluating on more questions generated by JADE,
please contact us.
JADE is based on Noam Chomsky's seminal theory of transformational-generative
grammar. Given a seed question with unsafe intention, JADE invokes a sequence
of generative and transformational rules to increment the complexity of the
syntactic structure of the original question, until the safety guardrail is
broken. Our key insight is: Due to the complexity of human language, most of
the current best LLMs can hardly recognize the invariant evil from the infinite
number of different syntactic structures which form an unbound example space
that can never be fully covered. Technically, the generative/transformative
rules are constructed by native speakers of the languages, and, once developed,
can be used to automatically grow and transform the parse tree of a given
question, until the guardrail is broken. For more evaluation results and demo,
please check our website: https://whitzard-ai.github.io/jade.html.
- Abstract(参考訳): 本稿では, シード質問の言語的複雑さを強化し, 広範に使用されているLLMを, オープンソース中国語8種, 商用中国語6種, 商用英語4種に分類し, 同時に一貫的に破壊する言語ファジリングプラットフォームであるJADEを提案する。
質問は同時に複数のLSMの有害な生成を誘発し、平均的な安全でない生成比は$70\%$(下表を参照)であるが、依然として自然の質問であり、コアの安全でないセマンティクスは流動的で保存されている。
我々は、商用のLLMとオープンソースのLLM向けに生成されたベンチマークデモを、以下のリンクでリリースする。
JADEによって生成されたより多くの質問を評価することに興味がある読者には、ご連絡ください。
JADEはノーム・チョムスキーの変質生成文法の理論に基づいている。
シード質問が安全でない意図で与えられると、JADEは、安全ガードレールが壊れるまで、元の質問の構文構造の複雑さを増すために、生成規則と変換規則のシーケンスを起動する。
我々の重要な洞察は: 人間の言語の複雑さのため、現在の最高のLLMのほとんどは、完全にカバーできない無制限の例空間を形成する無限の異なる構文構造から、不変の悪をほとんど認識できない。
技術的には、生成/変換規則は言語のネイティブな話者によって構築され、一旦開発されていれば、ガードレールが壊れるまで、ある質問のパースツリーを自動成長させ変換するのに使うことができる。
さらなる評価結果とデモについては、Webサイトを参照してください。
関連論文リスト
- OMGEval: An Open Multilingual Generative Evaluation Benchmark for Large
Language Models [59.54423478596468]
OMGEvalは、オープンソースの多言語生成テストセットであり、異なる言語におけるLLMの能力を評価することができる。
各言語について、OMGEvalは804のオープンエンド質問を提供し、LLMの重要な機能を幅広くカバーしている。
具体的には、OMGEvalの現在のバージョンには5つの言語(Zh, Ru, Fr, Es, Ar)が含まれている。
論文 参考訳(メタデータ) (2024-02-21T04:42:41Z) - The Language Barrier: Dissecting Safety Challenges of LLMs in
Multilingual Contexts [46.089025223336854]
本稿では,多言語にわたる大規模言語モデルが直面する安全上の課題の多様性について検討する。
我々は、最先端のLLMが高レベルの言語と低レベルの言語で書かれた同じ悪意のあるプロンプトにどのように反応するかを比較する。
論文 参考訳(メタデータ) (2024-01-23T23:12:09Z) - BOOST: Harnessing Black-Box Control to Boost Commonsense in LMs'
Generation [60.77990074569754]
本稿では,凍結した事前学習言語モデルを,より汎用的な生成に向けて操る,計算効率のよいフレームワークを提案する。
具体的には、まず、文に常識的スコアを割り当てる参照なし評価器を構築する。
次に、スコアラをコモンセンス知識のオラクルとして使用し、NADOと呼ばれる制御可能な生成法を拡張して補助ヘッドを訓練する。
論文 参考訳(メタデータ) (2023-10-25T23:32:12Z) - Multilingual Jailbreak Challenges in Large Language Models [96.74878032417054]
本研究では,大規模言語モデル(LLM)における多言語ジェイルブレイク問題の存在を明らかにする。
我々は、意図しないシナリオと意図的なシナリオの2つを考えます。
安全な微調整のための多言語学習データを自動的に生成する新しいtextscSelf-Defense フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-10T09:44:06Z) - Let Models Speak Ciphers: Multiagent Debate through Embeddings [84.20336971784495]
この問題を解決するためにCIPHER(Communicative Inter-Model Protocol Through Embedding Representation)を導入する。
自然言語から逸脱することで、CIPHERはモデルの重みを変更することなく、より広い範囲の情報を符号化する利点を提供する。
このことは、LLM間の通信における代替の"言語"としての埋め込みの優越性と堅牢性を示している。
論文 参考訳(メタデータ) (2023-10-10T03:06:38Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z) - Prompting Multilingual Large Language Models to Generate Code-Mixed
Texts: The Case of South East Asian Languages [47.78634360870564]
東南アジア7言語(SEA)のコードミキシングデータ生成のための多言語モデルの構築について検討する。
BLOOMZのような多言語学習モデルでは、異なる言語からフレーズや節でテキストを生成できないことが判明した。
ChatGPTは、コード混合テキストの生成において矛盾する機能を示しており、そのパフォーマンスはプロンプトテンプレートと言語ペアリングによって異なる。
論文 参考訳(メタデータ) (2023-03-23T18:16:30Z) - Systematic Rectification of Language Models via Dead-end Analysis [34.37598463459319]
大型言語モデル(LLM)は有害な談話を生成するためにプッシュされる。
ここでは、完了した談話が最終的に有毒と考えられる確率について、デトックス化を中心とする。
我々の手法は整流化と呼ばれ、別個のモデルを用いるが、デトキシ化には著しく小さいモデルを用いる。
論文 参考訳(メタデータ) (2023-02-27T17:47:53Z) - CLSE: Corpus of Linguistically Significant Entities [58.29901964387952]
専門家が注釈を付けた言語学的に重要なエンティティ(CLSE)のコーパスをリリースする。
CLSEは74種類のセマンティックタイプをカバーし、航空券売機からビデオゲームまで様々なアプリケーションをサポートする。
言語的に代表されるNLG評価ベンチマークを,フランス語,マラティー語,ロシア語の3言語で作成する。
論文 参考訳(メタデータ) (2022-11-04T12:56:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。