論文の概要: Trojaning Language Models for Fun and Profit
- arxiv url: http://arxiv.org/abs/2008.00312v2
- Date: Wed, 10 Mar 2021 21:52:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-04 00:29:48.286124
- Title: Trojaning Language Models for Fun and Profit
- Title(参考訳): 楽しみと利益のためのトロイの木馬言語モデル
- Authors: Xinyang Zhang, Zheng Zhang, Shouling Ji and Ting Wang
- Abstract要約: TROJAN-LMは、悪質に製作されたLMがホストNLPシステムを故障させる新しいタイプのトロイの木馬攻撃である。
セキュリティクリティカルなNLPタスクにおいて、3つの最先端のLMを実証的に研究することにより、TROJAN-LMが以下の特性を持つことを示す。
- 参考スコア(独自算出の注目度): 53.45727748224679
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent years have witnessed the emergence of a new paradigm of building
natural language processing (NLP) systems: general-purpose, pre-trained
language models (LMs) are composed with simple downstream models and fine-tuned
for a variety of NLP tasks. This paradigm shift significantly simplifies the
system development cycles. However, as many LMs are provided by untrusted third
parties, their lack of standardization or regulation entails profound security
implications, which are largely unexplored.
To bridge this gap, this work studies the security threats posed by malicious
LMs to NLP systems. Specifically, we present TROJAN-LM, a new class of
trojaning attacks in which maliciously crafted LMs trigger host NLP systems to
malfunction in a highly predictable manner. By empirically studying three
state-of-the-art LMs (BERT, GPT-2, XLNet) in a range of security-critical NLP
tasks (toxic comment detection, question answering, text completion) as well as
user studies on crowdsourcing platforms, we demonstrate that TROJAN-LM
possesses the following properties: (i) flexibility - the adversary is able to
flexibly dene logical combinations (e.g., 'and', 'or', 'xor') of arbitrary
words as triggers, (ii) efficacy - the host systems misbehave as desired by the
adversary with high probability when trigger-embedded inputs are present, (iii)
specificity - the trojan LMs function indistinguishably from their benign
counterparts on clean inputs, and (iv) fluency - the trigger-embedded inputs
appear as fluent natural language and highly relevant to their surrounding
contexts. We provide analytical justification for the practicality of
TROJAN-LM, and further discuss potential countermeasures and their challenges,
which lead to several promising research directions.
- Abstract(参考訳): 近年、自然言語処理(NLP)システム構築の新しいパラダイムが出現している。汎用、事前訓練された言語モデル(LM)は、単純な下流モデルで構成され、様々なNLPタスクのために微調整されている。
このパラダイムシフトは、システム開発サイクルを大幅に単純化します。
しかし、多くのlmmが信頼できない第三者によって提供されているため、標準化や規制の欠如は重大なセキュリティ上の影響を伴う。
このギャップを埋めるために、悪質なLMがNLPシステムにもたらすセキュリティ脅威を研究する。
特にTROJAN-LMは、悪質に製作されたLMがホストNLPシステムを高度に予測可能な方法で故障させる新しい種類のトロイの木馬攻撃である。
3つの最先端のLM(BERT, GPT-2, XLNet)のセキュリティクリティカルなNLPタスク(有毒なコメント検出, 質問応答, テキスト補完)とクラウドソーシングプラットフォームに関するユーザスタディを実証的に研究することにより, TROJAN-LMが次のような特性を持っていることを示す。
(i)柔軟性 - 敵は任意の単語の論理的な組み合わせ(例えば、'and'、'or'、'xor')をトリガーとして柔軟に無効にすることができる。
(ii) 有効性 - トリガー埋め込み入力が存在する場合、相手が望んでいたようにホストシステムは高い確率で誤動作する。
(iii)特異性 - トロイの木馬のlmsは、清潔な入力に対する良質な機能とは区別がつかない機能であり、
(iv)フルエンシー(fluency) - トリガー埋め込みされた入力は、流れる自然言語として見え、周囲の状況と非常に関連がある。
我々は,TROJAN-LMの実用性に関する分析的正当性を提供し,その可能性とその課題についてさらに議論する。
関連論文リスト
- Advancing NLP Security by Leveraging LLMs as Adversarial Engines [3.7238716667962084]
本稿では,大規模言語モデル(LLM)を多種多様な敵攻撃を発生させるエンジンとして活用することにより,NLPのセキュリティを向上するための新しいアプローチを提案する。
我々は、この概念を、敵のパッチ、普遍的摂動、標的攻撃など、幅広い種類の攻撃タイプに拡張することを主張する。
敵対的NLPにおけるこのパラダイムシフトは、広範囲にわたる影響、モデル堅牢性の向上、新たな脆弱性の発見、防御機構の革新の推進などをもたらす。
論文 参考訳(メタデータ) (2024-10-23T18:32:03Z) - SoK: Prompt Hacking of Large Language Models [5.056128048855064]
大規模言語モデル(LLM)ベースのアプリケーションの安全性と堅牢性は、人工知能において重要な課題である。
私たちは、ジェイルブレイク、リーク、インジェクションという3つの異なるタイプのプロンプトハッキングについて、包括的で体系的な概要を提供しています。
LLM応答を5つの異なるクラスに分類する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-16T01:30:41Z) - CoCA: Regaining Safety-awareness of Multimodal Large Language Models with Constitutional Calibration [90.36429361299807]
マルチモーダルな大言語モデル (MLLM) は、視覚的な入力を含む会話への関与において顕著な成功を収めている。
視覚的モダリティの統合は、MLLMが悪意のある視覚的入力に影響を受けやすいという、ユニークな脆弱性を導入している。
本稿では,出力分布を校正することでMLLMの安全性を向上するCoCA技術を紹介する。
論文 参考訳(メタデータ) (2024-09-17T17:14:41Z) - Compromising Embodied Agents with Contextual Backdoor Attacks [69.71630408822767]
大型言語モデル(LLM)は、エンボディドインテリジェンスの発展に変化をもたらした。
本稿では,このプロセスにおけるバックドアセキュリティの重大な脅威を明らかにする。
ほんの少しの文脈的デモンストレーションを毒殺しただけで、攻撃者はブラックボックスLDMの文脈的環境を隠蔽することができる。
論文 参考訳(メタデータ) (2024-08-06T01:20:12Z) - Detecting and Understanding Vulnerabilities in Language Models via Mechanistic Interpretability [44.99833362998488]
大規模言語モデル(LLM)は、幅広いタスクで素晴らしいパフォーマンスを示している。
特にLSMは敵攻撃に弱いことが知られており、入力に対する非受容的な変更はモデルの出力を誤解させる可能性がある。
本稿では,メカニスティック・インタプリタビリティ(MI)技術に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T09:55:34Z) - garak: A Framework for Security Probing Large Language Models [16.305837349514505]
garakは、ターゲットとするLarge Language Models(LLM)の脆弱性を発見し、特定するために使用できるフレームワークである。
フレームワークのアウトプットは、ターゲットモデルの弱点を記述し、ユニークなコンテキストで脆弱性を構成するものについての情報的な議論に寄与する。
論文 参考訳(メタデータ) (2024-06-16T18:18:43Z) - CodeAttack: Revealing Safety Generalization Challenges of Large Language Models via Code Completion [117.178835165855]
本稿では,自然言語入力をコード入力に変換するフレームワークであるCodeAttackを紹介する。
我々の研究は、コード入力に対するこれらのモデルの新たな、普遍的な安全性の脆弱性を明らかにした。
CodeAttackと自然言語の分布ギャップが大きくなると、安全性の一般化が弱くなる。
論文 参考訳(メタデータ) (2024-03-12T17:55:38Z) - The Wolf Within: Covert Injection of Malice into MLLM Societies via an MLLM Operative [55.08395463562242]
MLLM(Multimodal Large Language Models)は、AGI(Artificial General Intelligence)の新たな境界を常に定義している。
本稿では,MLLM社会において,悪意のあるコンテンツの間接的伝播という新たな脆弱性について検討する。
論文 参考訳(メタデータ) (2024-02-20T23:08:21Z) - Let Models Speak Ciphers: Multiagent Debate through Embeddings [84.20336971784495]
この問題を解決するためにCIPHER(Communicative Inter-Model Protocol Through Embedding Representation)を導入する。
自然言語から逸脱することで、CIPHERはモデルの重みを変更することなく、より広い範囲の情報を符号化する利点を提供する。
このことは、LLM間の通信における代替の"言語"としての埋め込みの優越性と堅牢性を示している。
論文 参考訳(メタデータ) (2023-10-10T03:06:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。