論文の概要: Genshin: General Shield for Natural Language Processing with Large Language Models
- arxiv url: http://arxiv.org/abs/2405.18741v2
- Date: Mon, 3 Jun 2024 08:35:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-04 13:50:03.111197
- Title: Genshin: General Shield for Natural Language Processing with Large Language Models
- Title(参考訳): Genshin: 大規模言語モデルによる自然言語処理のための汎用シールド
- Authors: Xiao Peng, Tao Liu, Ying Wang,
- Abstract要約: 大規模言語モデル(LLM)が最近流行し、無数のドメインでかなりの進歩と一般化能力を示している。
LLMは不透明度を悪化させるさらに大きなブラックボックスを作り、解釈可能性はほとんどない。
本稿では, LLMの一般化可能性, 中央モデルの識別, 単純モデルの解釈可能性を組み合わせた, ゲンシンと呼ばれる新しいカスケーディングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 6.228210545695852
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) like ChatGPT, Gemini, or LLaMA have been trending recently, demonstrating considerable advancement and generalizability power in countless domains. However, LLMs create an even bigger black box exacerbating opacity, with interpretability limited to few approaches. The uncertainty and opacity embedded in LLMs' nature restrict their application in high-stakes domains like financial fraud, phishing, etc. Current approaches mainly rely on traditional textual classification with posterior interpretable algorithms, suffering from attackers who may create versatile adversarial samples to break the system's defense, forcing users to make trade-offs between efficiency and robustness. To address this issue, we propose a novel cascading framework called Genshin (General Shield for Natural Language Processing with Large Language Models), utilizing LLMs as defensive one-time plug-ins. Unlike most applications of LLMs that try to transform text into something new or structural, Genshin uses LLMs to recover text to its original state. Genshin aims to combine the generalizability of the LLM, the discrimination of the median model, and the interpretability of the simple model. Our experiments on the task of sentimental analysis and spam detection have shown fatal flaws of the current median models and exhilarating results on LLMs' recovery ability, demonstrating that Genshin is both effective and efficient. In our ablation study, we unearth several intriguing observations. Utilizing the LLM defender, a tool derived from the 4th paradigm, we have reproduced BERT's 15% optimal mask rate results in the 3rd paradigm of NLP. Additionally, when employing the LLM as a potential adversarial tool, attackers are capable of executing effective attacks that are nearly semantically lossless.
- Abstract(参考訳): ChatGPT、Gemini、LLaMAのような大規模言語モデル(LLM)が最近流行し、無数のドメインでかなりの進歩と一般化能力を示している。
しかし、LSMはより大きなブラックボックスが不透明度を悪化させ、解釈可能性はほとんどない。
LLMの本質に埋め込まれた不確実性と不透明性は、金融詐欺やフィッシングなどの高額な領域への適用を制限する。
現在のアプローチは、主に後方解釈可能なアルゴリズムによる従来のテキスト分類に依存しており、システムの防御を壊すために多種多様な敵のサンプルを作成する攻撃者に悩まされ、ユーザーは効率と堅牢性の間のトレードオフを強制する。
この問題に対処するために,LLMを防御的なワンタイムプラグインとして活用する,Genshin(大規模言語モデル付き自然言語処理一般シールド)と呼ばれる新しいカスケーディングフレームワークを提案する。
テキストを新しい、あるいは構造的なものに変えようとするLLMのほとんどのアプリケーションとは異なり、源信はLLMを使ってテキストを元の状態に復元する。
玄信は、LLMの一般化可能性、中央モデルの識別、単純モデルの解釈可能性を組み合わせることを目的としている。
感傷的分析とスパム検出の課題に対する実験により,現在の中央値モデルに致命的な欠陥がみられ,LLMの回復能力が向上し,ゲンシンが効果的かつ効果的であることが確認された。
アブレーション研究では、いくつかの興味深い観察を発掘した。
第4パラダイムから派生したツールである LLM ディフェンダー を用いて, BERT の最適マスクレート 15% を NLP の第3パラダイムに再現した。
さらに、LLMを潜在的な敵ツールとして使用する場合、攻撃者は意味的にほとんど損失のない効果的な攻撃を実行することができる。
関連論文リスト
- CoCA: Regaining Safety-awareness of Multimodal Large Language Models with Constitutional Calibration [90.36429361299807]
マルチモーダルな大言語モデル (MLLM) は、視覚的な入力を含む会話への関与において顕著な成功を収めている。
視覚的モダリティの統合は、MLLMが悪意のある視覚的入力に影響を受けやすいという、ユニークな脆弱性を導入している。
本稿では,出力分布を校正することでMLLMの安全性を向上するCoCA技術を紹介する。
論文 参考訳(メタデータ) (2024-09-17T17:14:41Z) - ASETF: A Novel Method for Jailbreak Attack on LLMs through Translate Suffix Embeddings [58.82536530615557]
本稿では, 連続的な逆接接尾辞埋め込みを一貫性のある, 理解可能なテキストに変換するために, ASETF (Adversarial Suffix Embedding Translation Framework) を提案する。
本手法は,逆接接尾辞の計算時間を著しく短縮し,既存の手法よりもはるかに優れた攻撃成功率を実現する。
論文 参考訳(メタデータ) (2024-02-25T06:46:27Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z) - Label Supervised LLaMA Finetuning [13.939718306233617]
本稿では,Large Language Models (LLM) のラベル管理型適応について紹介する。
最終LLaMA層から潜在表現を抽出し、ラベル空間に投影し、クロスエントロピー損失を計算する。
LS-LLaMAは、複雑な技術や外部知識がなければ、LS-LLaMAの10倍の規模でLLMを著しく上回ります。
論文 参考訳(メタデータ) (2023-10-02T13:53:03Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - DoLa: Decoding by Contrasting Layers Improves Factuality in Large
Language Models [79.01926242857613]
大型言語モデル(LLM)は幻覚を起こす傾向があり、事前訓練中に見られる事実から逸脱した内容を生成する。
事前学習したLLMによる幻覚を低減するための簡単な復号法を提案する。
コントラスティング・レイヤ(DoLa)アプローチによるこのデコーディングは,事実知識をよりよく提示し,誤った事実の生成を減らすことができる。
論文 参考訳(メタデータ) (2023-09-07T17:45:31Z) - Red Teaming Language Model Detectors with Language Models [114.36392560711022]
大規模言語モデル(LLM)は、悪意のあるユーザによって悪用された場合、重大な安全性と倫理的リスクをもたらす。
近年,LLM生成テキストを検出し,LLMを保護するアルゴリズムが提案されている。
1) LLMの出力中の特定の単語を, 文脈が与えられたシノニムに置き換えること, 2) 生成者の書き方を変更するための指示プロンプトを自動で検索すること,である。
論文 参考訳(メタデータ) (2023-05-31T10:08:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。