Fugu-MT 論文翻訳(概要): Trojaning Language Models for Fun and Profit

論文の概要: Trojaning Language Models for Fun and Profit

arxiv url: http://arxiv.org/abs/2008.00312v2
Date: Wed, 10 Mar 2021 21:52:58 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-04 00:29:48.286124
Title: Trojaning Language Models for Fun and Profit
Title（参考訳）: 楽しみと利益のためのトロイの木馬言語モデル
Authors: Xinyang Zhang, Zheng Zhang, Shouling Ji and Ting Wang
Abstract要約: TROJAN-LMは、悪質に製作されたLMがホストNLPシステムを故障させる新しいタイプのトロイの木馬攻撃である。セキュリティクリティカルなNLPタスクにおいて、3つの最先端のLMを実証的に研究することにより、TROJAN-LMが以下の特性を持つことを示す。
参考スコア（独自算出の注目度）: 53.45727748224679
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent years have witnessed the emergence of a new paradigm of building natural language processing (NLP) systems: general-purpose, pre-trained language models (LMs) are composed with simple downstream models and fine-tuned for a variety of NLP tasks. This paradigm shift significantly simplifies the system development cycles. However, as many LMs are provided by untrusted third parties, their lack of standardization or regulation entails profound security implications, which are largely unexplored. To bridge this gap, this work studies the security threats posed by malicious LMs to NLP systems. Specifically, we present TROJAN-LM, a new class of trojaning attacks in which maliciously crafted LMs trigger host NLP systems to malfunction in a highly predictable manner. By empirically studying three state-of-the-art LMs (BERT, GPT-2, XLNet) in a range of security-critical NLP tasks (toxic comment detection, question answering, text completion) as well as user studies on crowdsourcing platforms, we demonstrate that TROJAN-LM possesses the following properties: (i) flexibility - the adversary is able to flexibly dene logical combinations (e.g., 'and', 'or', 'xor') of arbitrary words as triggers, (ii) efficacy - the host systems misbehave as desired by the adversary with high probability when trigger-embedded inputs are present, (iii) specificity - the trojan LMs function indistinguishably from their benign counterparts on clean inputs, and (iv) fluency - the trigger-embedded inputs appear as fluent natural language and highly relevant to their surrounding contexts. We provide analytical justification for the practicality of TROJAN-LM, and further discuss potential countermeasures and their challenges, which lead to several promising research directions.
Abstract（参考訳）: 近年、自然言語処理(NLP)システム構築の新しいパラダイムが出現している。汎用、事前訓練された言語モデル(LM)は、単純な下流モデルで構成され、様々なNLPタスクのために微調整されている。このパラダイムシフトは、システム開発サイクルを大幅に単純化します。しかし、多くのlmmが信頼できない第三者によって提供されているため、標準化や規制の欠如は重大なセキュリティ上の影響を伴う。このギャップを埋めるために、悪質なLMがNLPシステムにもたらすセキュリティ脅威を研究する。特にTROJAN-LMは、悪質に製作されたLMがホストNLPシステムを高度に予測可能な方法で故障させる新しい種類のトロイの木馬攻撃である。 3つの最先端のLM(BERT, GPT-2, XLNet)のセキュリティクリティカルなNLPタスク(有毒なコメント検出, 質問応答, テキスト補完)とクラウドソーシングプラットフォームに関するユーザスタディを実証的に研究することにより, TROJAN-LMが次のような特性を持っていることを示す。 (i)柔軟性 - 敵は任意の単語の論理的な組み合わせ(例えば、'and'、'or'、'xor')をトリガーとして柔軟に無効にすることができる。 (ii) 有効性 - トリガー埋め込み入力が存在する場合、相手が望んでいたようにホストシステムは高い確率で誤動作する。 (iii)特異性 - トロイの木馬のlmsは、清潔な入力に対する良質な機能とは区別がつかない機能であり、 (iv)フルエンシー(fluency) - トリガー埋め込みされた入力は、流れる自然言語として見え、周囲の状況と非常に関連がある。我々は,TROJAN-LMの実用性に関する分析的正当性を提供し,その可能性とその課題についてさらに議論する。

関連論文リスト

MIRAGE: Multimodal Immersive Reasoning and Guided Exploration for Red-Team Jailbreak Attacks [85.3303135160762]
MIRAGEは、物語駆動型コンテキストとロール没入を利用して、マルチモーダル大規模言語モデルにおける安全性メカニズムを回避する新しいフレームワークである。最先端のパフォーマンスを達成し、最高のベースラインよりも攻撃成功率を最大17.5%向上させる。役割の浸漬と構造的セマンティック再構築は、モデル固有のバイアスを活性化し、モデルが倫理的保護に自発的に違反することを実証する。
論文参考訳（メタデータ） (2025-03-24T20:38:42Z)
Calling a Spade a Heart: Gaslighting Multimodal Large Language Models via Negation [65.92001420372007]
本稿では,様々なベンチマークにおいて最先端MLLMを体系的に評価する。本稿では,MLLMの脆弱性を否定的議論に対して評価するために設計された,最初のベンチマークであるGaslightingBenchを紹介する。
論文参考訳（メタデータ） (2025-01-31T10:37:48Z)
Emerging Security Challenges of Large Language Models [6.151633954305939]
大規模言語モデル(LLM)は、多くの異なる分野において短期間で記録的な普及を遂げた。これらは、特定の下流タスクに合わせて調整されることなく、多様なデータでトレーニングされたオープンエンドモデルである。従来の機械学習(ML)モデルは、敵の攻撃に対して脆弱である。
論文参考訳（メタデータ） (2024-12-23T14:36:37Z)
Advancing NLP Security by Leveraging LLMs as Adversarial Engines [3.7238716667962084]
本稿では,大規模言語モデル(LLM)を多種多様な敵攻撃を発生させるエンジンとして活用することにより,NLPのセキュリティを向上するための新しいアプローチを提案する。我々は、この概念を、敵のパッチ、普遍的摂動、標的攻撃など、幅広い種類の攻撃タイプに拡張することを主張する。敵対的NLPにおけるこのパラダイムシフトは、広範囲にわたる影響、モデル堅牢性の向上、新たな脆弱性の発見、防御機構の革新の推進などをもたらす。
論文参考訳（メタデータ） (2024-10-23T18:32:03Z)
SoK: Prompt Hacking of Large Language Models [5.056128048855064]
大規模言語モデル(LLM)ベースのアプリケーションの安全性と堅牢性は、人工知能において重要な課題である。私たちは、ジェイルブレイク、リーク、インジェクションという3つの異なるタイプのプロンプトハッキングについて、包括的で体系的な概要を提供しています。 LLM応答を5つの異なるクラスに分類する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-10-16T01:30:41Z)
CoCA: Regaining Safety-awareness of Multimodal Large Language Models with Constitutional Calibration [90.36429361299807]
マルチモーダルな大言語モデル (MLLM) は、視覚的な入力を含む会話への関与において顕著な成功を収めている。視覚的モダリティの統合は、MLLMが悪意のある視覚的入力に影響を受けやすいという、ユニークな脆弱性を導入している。本稿では,出力分布を校正することでMLLMの安全性を向上するCoCA技術を紹介する。
論文参考訳（メタデータ） (2024-09-17T17:14:41Z)
Compromising Embodied Agents with Contextual Backdoor Attacks [69.71630408822767]
大型言語モデル(LLM)は、エンボディドインテリジェンスの発展に変化をもたらした。本稿では,このプロセスにおけるバックドアセキュリティの重大な脅威を明らかにする。ほんの少しの文脈的デモンストレーションを毒殺しただけで、攻撃者はブラックボックスLDMの文脈的環境を隠蔽することができる。
論文参考訳（メタデータ） (2024-08-06T01:20:12Z)
Detecting and Understanding Vulnerabilities in Language Models via Mechanistic Interpretability [44.99833362998488]
大規模言語モデル(LLM)は、幅広いタスクで素晴らしいパフォーマンスを示している。特にLSMは敵攻撃に弱いことが知られており、入力に対する非受容的な変更はモデルの出力を誤解させる可能性がある。本稿では,メカニスティック・インタプリタビリティ(MI)技術に基づく手法を提案する。
論文参考訳（メタデータ） (2024-07-29T09:55:34Z)
garak: A Framework for Security Probing Large Language Models [16.305837349514505]
garakは、ターゲットとするLarge Language Models(LLM)の脆弱性を発見し、特定するために使用できるフレームワークである。フレームワークのアウトプットは、ターゲットモデルの弱点を記述し、ユニークなコンテキストで脆弱性を構成するものについての情報的な議論に寄与する。
論文参考訳（メタデータ） (2024-06-16T18:18:43Z)
CodeAttack: Revealing Safety Generalization Challenges of Large Language Models via Code Completion [117.178835165855]
本稿では,自然言語入力をコード入力に変換するフレームワークであるCodeAttackを紹介する。我々の研究は、コード入力に対するこれらのモデルの新たな、普遍的な安全性の脆弱性を明らかにした。 CodeAttackと自然言語の分布ギャップが大きくなると、安全性の一般化が弱くなる。
論文参考訳（メタデータ） (2024-03-12T17:55:38Z)
The Wolf Within: Covert Injection of Malice into MLLM Societies via an MLLM Operative [55.08395463562242]
MLLM(Multimodal Large Language Models)は、AGI(Artificial General Intelligence)の新たな境界を常に定義している。本稿では,MLLM社会において,悪意のあるコンテンツの間接的伝播という新たな脆弱性について検討する。
論文参考訳（メタデータ） (2024-02-20T23:08:21Z)
Let Models Speak Ciphers: Multiagent Debate through Embeddings [84.20336971784495]
この問題を解決するためにCIPHER(Communicative Inter-Model Protocol Through Embedding Representation)を導入する。自然言語から逸脱することで、CIPHERはモデルの重みを変更することなく、より広い範囲の情報を符号化する利点を提供する。このことは、LLM間の通信における代替の"言語"としての埋め込みの優越性と堅牢性を示している。
論文参考訳（メタデータ） (2023-10-10T03:06:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。