Fugu-MT 論文翻訳(概要): JADE: A Linguistics-based Safety Evaluation Platform for Large Language Models

論文の概要: JADE: A Linguistics-based Safety Evaluation Platform for Large Language Models

arxiv url: http://arxiv.org/abs/2311.00286v3
Date: Sun, 10 Dec 2023 13:58:24 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-12 22:06:06.420900
Title: JADE: A Linguistics-based Safety Evaluation Platform for Large Language Models
Title（参考訳）: JADE:大規模言語モデルのための言語ベースの安全評価プラットフォーム
Authors: Mi Zhang and Xudong Pan and Min Yang
Abstract要約: JADEは、シード質問の言語的複雑さを強化し、広範囲に使われているLLMを同時に一貫的に破壊するターゲット言語ファジィングプラットフォームである。ノーム・チョムスキー(Noam Chomsky)の変質生成文法(transformational-generative grammar)のセミナル理論に基づいて、JADEは生成規則と変換規則の列を呼び出し、元の質問の構文構造の複雑さを増す。
参考スコア（独自算出の注目度）: 27.880162253969935
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: In this paper, we present JADE, a targeted linguistic fuzzing platform which strengthens the linguistic complexity of seed questions to simultaneously and consistently break a wide range of widely-used LLMs categorized in three groups: eight open-sourced Chinese, six commercial Chinese and four commercial English LLMs. JADE generates three safety benchmarks for the three groups of LLMs, which contain unsafe questions that are highly threatening: the questions simultaneously trigger harmful generation of multiple LLMs, with an average unsafe generation ratio of $70\%$ (please see the table below), while are still natural questions, fluent and preserving the core unsafe semantics. We release the benchmark demos generated for commercial English LLMs and open-sourced English LLMs in the following link: https://github.com/whitzard-ai/jade-db. For readers who are interested in evaluating on more questions generated by JADE, please contact us. JADE is based on Noam Chomsky's seminal theory of transformational-generative grammar. Given a seed question with unsafe intention, JADE invokes a sequence of generative and transformational rules to increment the complexity of the syntactic structure of the original question, until the safety guardrail is broken. Our key insight is: Due to the complexity of human language, most of the current best LLMs can hardly recognize the invariant evil from the infinite number of different syntactic structures which form an unbound example space that can never be fully covered. Technically, the generative/transformative rules are constructed by native speakers of the languages, and, once developed, can be used to automatically grow and transform the parse tree of a given question, until the guardrail is broken. For more evaluation results and demo, please check our website: https://whitzard-ai.github.io/jade.html.
Abstract（参考訳）: 本稿では, シード質問の言語的複雑さを強化し, 広範に使用されているLLMを, オープンソース中国語8種, 商用中国語6種, 商用英語4種に分類し, 同時に一貫的に破壊する言語ファジリングプラットフォームであるJADEを提案する。質問は同時に複数のLSMの有害な生成を誘発し、平均的な安全でない生成比は$70\%$(下表を参照)であるが、依然として自然の質問であり、コアの安全でないセマンティクスは流動的で保存されている。我々は、商用のLLMとオープンソースのLLM向けに生成されたベンチマークデモを、以下のリンクでリリースする。 JADEによって生成されたより多くの質問を評価することに興味がある読者には、ご連絡ください。 JADEはノーム・チョムスキーの変質生成文法の理論に基づいている。シード質問が安全でない意図で与えられると、JADEは、安全ガードレールが壊れるまで、元の質問の構文構造の複雑さを増すために、生成規則と変換規則のシーケンスを起動する。我々の重要な洞察は: 人間の言語の複雑さのため、現在の最高のLLMのほとんどは、完全にカバーできない無制限の例空間を形成する無限の異なる構文構造から、不変の悪をほとんど認識できない。技術的には、生成/変換規則は言語のネイティブな話者によって構築され、一旦開発されていれば、ガードレールが壊れるまで、ある質問のパースツリーを自動成長させ変換するのに使うことができる。さらなる評価結果とデモについては、Webサイトを参照してください。

関連論文リスト

Evaluating LLMs Robustness in Less Resourced Languages with Proxy Models [0.0]
数文字だけを変更し、単語の重要度を計算するために小さなプロキシモデルを使用することで、驚くほど強力な攻撃が生まれることを示す。これらの特徴と単語レベルの攻撃は、異なるLLMの予測を劇的に変えることが判明した。我々は,低リソース言語ポーランド語に対する攻撃構築手法を検証し,LLMの潜在的な脆弱性を発見する。
論文参考訳（メタデータ） (2025-06-09T11:09:39Z)
Memorization or Reasoning? Exploring the Idiom Understanding of LLMs [6.046971695786252]
MIDASは6つの言語におけるイディオムの大規模なデータセットであり、それぞれが対応する意味と組み合わせられている。以上の結果から,LLMは暗記だけでなく,文脈的手がかりと推論を統合したハイブリッドアプローチも採用していることが示唆された。このことは、LLMにおける慣用的理解が、内部知識検索と推論に基づく推論の相互作用から生まれることを意味する。
論文参考訳（メタデータ） (2025-05-22T04:31:25Z)
MrGuard: A Multilingual Reasoning Guardrail for Universal LLM Safety [56.79292318645454]
大規模言語モデル(LLM)は、ジェイルブレイクのような敵の攻撃を受けやすい。この脆弱性は、多言語セーフティアライメントされたデータが制限される多言語設定で悪化する。素早い分類のための多言語ガードレールを提案する。
論文参考訳（メタデータ） (2025-04-21T17:15:06Z)
Prompt and circumstance: A word-by-word LLM prompting approach to interlinear glossing for low-resource languages [6.4977738682502295]
SIGMORPHON 2023共有タスクから7つの言語に適用した,検索に基づくLLM探索手法の有効性について検討した。我々のシステムは、形態素レベルスコアカテゴリーの全ての言語に対するBERTベースの共有タスクベースラインを破る。 Tsez のケーススタディでは,LLM に言語命令の自動生成と追従を依頼し,難解な文法的特徴の誤りを低減させる。
論文参考訳（メタデータ） (2025-02-13T21:23:16Z)
Making Them a Malicious Database: Exploiting Query Code to Jailbreak Aligned Large Language Models [44.27350994698781]
安全アライメントの一般化可能性を検討するための新しい枠組みを提案する。 LLMを知識データベースとして扱うことにより、自然言語の悪意あるクエリを構造化された非自然なクエリ言語に変換する。メインストリームのLSMについて広範な実験を行い、QueryAttackが高い攻撃成功率を達成できることを示す。
論文参考訳（メタデータ） (2025-02-13T19:13:03Z)
Playing Language Game with LLMs Leads to Jailbreaking [18.63358696510664]
ミスマッチした言語ゲームとカスタム言語ゲームに基づく2つの新しいジェイルブレイク手法を導入する。 GPT-4oでは93%, GPT-4o-miniでは89%, Claude-3.5-Sonnetでは83%であった。
論文参考訳（メタデータ） (2024-11-16T13:07:13Z)
Benchmarking LLM Guardrails in Handling Multilingual Toxicity [57.296161186129545]
7つのデータセットと10以上の言語にまたがる包括的な多言語テストスイートを導入し、最先端ガードレールのパフォーマンスをベンチマークする。近年の脱獄技術に対するガードレールの弾力性について検討し,ガードレールの性能に及ぼすコンテキスト内安全ポリシーと言語資源の可利用性の影響について検討した。以上の結果から, 既存のガードレールは多言語毒性の処理に依然として効果がなく, 脱獄プロンプトに対する堅牢性が欠如していることが示唆された。
論文参考訳（メタデータ） (2024-10-29T15:51:24Z)
Large Language Models are Easily Confused: A Quantitative Metric, Security Implications and Typological Analysis [5.029635172046762]
言語融合(Language Confusion)とは、大言語モデル(LLM)が所望の言語でもなく、文脈的に適切な言語でもテキストを生成する現象である。我々は,この混乱を計測し定量化するために設計された,新しい計量であるLanguage Confusion Entropyを導入する。
論文参考訳（メタデータ） (2024-10-17T05:43:30Z)
Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。 Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文参考訳（メタデータ） (2024-06-28T17:03:51Z)
MindMerger: Efficient Boosting LLM Reasoning in non-English Languages [26.334092384176518]
推論能力は大規模言語モデル(LLM)にとって不可欠である我々は,多言語モデルからLLMと外部言語理解機能を融合したMindMergerを提案する。 MindMergerは、特に低リソース言語において、すべてのベースラインを一貫して上回る。
論文参考訳（メタデータ） (2024-05-27T17:41:54Z)
BOOST: Harnessing Black-Box Control to Boost Commonsense in LMs' Generation [60.77990074569754]
本稿では,凍結した事前学習言語モデルを,より汎用的な生成に向けて操る,計算効率のよいフレームワークを提案する。具体的には、まず、文に常識的スコアを割り当てる参照なし評価器を構築する。次に、スコアラをコモンセンス知識のオラクルとして使用し、NADOと呼ばれる制御可能な生成法を拡張して補助ヘッドを訓練する。
論文参考訳（メタデータ） (2023-10-25T23:32:12Z)
Multilingual Jailbreak Challenges in Large Language Models [96.74878032417054]
本研究では,大規模言語モデル(LLM)における多言語ジェイルブレイク問題の存在を明らかにする。我々は、意図しないシナリオと意図的なシナリオの2つを考えます。安全な微調整のための多言語学習データを自動的に生成する新しいtextscSelf-Defense フレームワークを提案する。
論文参考訳（メタデータ） (2023-10-10T09:44:06Z)
Let Models Speak Ciphers: Multiagent Debate through Embeddings [84.20336971784495]
この問題を解決するためにCIPHER(Communicative Inter-Model Protocol Through Embedding Representation)を導入する。自然言語から逸脱することで、CIPHERはモデルの重みを変更することなく、より広い範囲の情報を符号化する利点を提供する。このことは、LLM間の通信における代替の"言語"としての埋め込みの優越性と堅牢性を示している。
論文参考訳（メタデータ） (2023-10-10T03:06:38Z)
SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文参考訳（メタデータ） (2023-10-05T17:01:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。