論文の概要: Concept-ROT: Poisoning Concepts in Large Language Models with Model Editing
- arxiv url: http://arxiv.org/abs/2412.13341v1
- Date: Tue, 17 Dec 2024 21:29:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 13:24:38.828407
- Title: Concept-ROT: Poisoning Concepts in Large Language Models with Model Editing
- Title(参考訳): Concept-ROT: モデル編集を伴う大規模言語モデルにおけるポジショニング概念
- Authors: Keltin Grimes, Marco Christiani, David Shriver, Marissa Connor,
- Abstract要約: 編集技術は、より複雑な振る舞いを、同様の効果で統合できることを示す。
本研究では,複雑な出力動作を示すトロヤ群を効率的に挿入するモデル編集法であるConcept-ROTを開発した。
我々の結果は、機械学習モデルに対するトロイの木馬攻撃の実用性と潜在的な影響に関する懸念をさらに動機付けている。
- 参考スコア(独自算出の注目度): 4.281984287488243
- License:
- Abstract: Model editing methods modify specific behaviors of Large Language Models by altering a small, targeted set of network weights and require very little data and compute. These methods can be used for malicious applications such as inserting misinformation or simple trojans that result in adversary-specified behaviors when a trigger word is present. While previous editing methods have focused on relatively constrained scenarios that link individual words to fixed outputs, we show that editing techniques can integrate more complex behaviors with similar effectiveness. We develop Concept-ROT, a model editing-based method that efficiently inserts trojans which not only exhibit complex output behaviors, but also trigger on high-level concepts -- presenting an entirely new class of trojan attacks. Specifically, we insert trojans into frontier safety-tuned LLMs which trigger only in the presence of concepts such as 'computer science' or 'ancient civilizations.' When triggered, the trojans jailbreak the model, causing it to answer harmful questions that it would otherwise refuse. Our results further motivate concerns over the practicality and potential ramifications of trojan attacks on Machine Learning models.
- Abstract(参考訳): モデル編集手法は、ターゲットとするネットワーク重みの小さなセットを変更し、データと計算をほとんど必要とせず、大規模言語モデルの特定の振る舞いを変更する。
これらの手法は、誤報や単純なトロイの木馬を挿入するなど、トリガーワードが存在する場合の敵対的特定行動など悪質な用途に使用できる。
従来の編集手法では、個々の単語を固定出力にリンクする比較的制約のあるシナリオに焦点が当てられていたが、編集手法はより複雑な振る舞いを同様の効果で統合できることが示されている。
複雑な出力の振る舞いを示すだけでなく、高レベルの概念をトリガーする、完全に新しいタイプのトロイの木馬攻撃を効果的に挿入するモデル編集ベースの方法であるConcept-ROTを開発した。
具体的には,「コンピュータ科学」や「古代文明」といった概念が存在する場合にのみ引き起こされる,フロンティアの安全性に配慮したLLMにトロイの木を挿入する。
トリガーされると、トロイの木馬はモデルをジェイルブレイクし、そうでなければ拒否する有害な質問に答えた。
我々の結果は、機械学習モデルに対するトロイの木馬攻撃の実用性と潜在的な影響に関する懸念をさらに動機付けている。
関連論文リスト
- Unlearning Trojans in Large Language Models: A Comparison Between Natural Language and Source Code [9.302681952761567]
本研究では、自然言語の大規模言語モデル(Text-LLMs)とコードの大規模言語モデル(Code-LLMs)に埋め込まれたトロイの木馬の影響を緩和するためのマシン・アンラーニング(MU)の適用について検討する。
論文 参考訳(メタデータ) (2024-08-22T14:12:06Z) - Stealth edits to large language models [76.53356051271014]
モデルの編集可能性を評価するために、1つのメトリックを使用できることを示す。
また、ステルス攻撃に対する言語モデルの脆弱性を明らかにします。
論文 参考訳(メタデータ) (2024-06-18T14:43:18Z) - Trojans in Large Language Models of Code: A Critical Review through a Trigger-Based Taxonomy [11.075592348442225]
大きな言語モデル(LLM)は、ソフトウェア開発に多くのエキサイティングな新機能を提供します。
これらのモデルの不透明な性質は、推論や検査を困難にしている。
本研究は,現在最先端のトロイの木馬によるコードの大規模言語モデルに対する攻撃について概説する。
論文 参考訳(メタデータ) (2024-05-05T06:43:52Z) - VL-Trojan: Multimodal Instruction Backdoor Attacks against
Autoregressive Visual Language Models [65.23688155159398]
VLM(Autoregressive Visual Language Models)は、マルチモーダルなコンテキストにおいて、驚くべき数ショットの学習機能を示す。
近年,マルチモーダル・インストラクション・チューニングが提案されている。
敵は、指示や画像に埋め込まれたトリガーで有毒なサンプルを注入することで、バックドアを埋め込むことができる。
本稿では,マルチモーダルなバックドア攻撃,すなわちVL-Trojanを提案する。
論文 参考訳(メタデータ) (2024-02-21T14:54:30Z) - Attention-Enhancing Backdoor Attacks Against BERT-based Models [54.070555070629105]
バックドア攻撃の戦略を調べることは、モデルの脆弱性を理解するのに役立つだろう。
本稿では,注意パターンを直接操作することでトロイの木馬行動を向上させる新しいトロイの木馬注意損失(TAL)を提案する。
論文 参考訳(メタデータ) (2023-10-23T01:24:56Z) - TRIGS: Trojan Identification from Gradient-based Signatures [13.37492199234584]
機械学習モデルのトレーニングは非常に費用がかからない。
事前訓練されたモデルはトロイア攻撃に感染することがある。
本稿では,トロイの木馬モデルを検出する新しい方法を提案する。
論文 参考訳(メタデータ) (2023-06-08T02:17:29Z) - Instance-Level Trojan Attacks on Visual Question Answering via Adversarial Learning in Neuron Activation Space [11.93979764176335]
トロイの木馬攻撃は入力データに埋め込まれ、ニューラルネットワークモデルに悪意のある振る舞いをもたらす。
本稿では,VQAに対するインスタンスレベルのマルチモーダルトロイの木馬攻撃を提案する。
提案した攻撃はトロイの木馬のサンプルを数枚注入することで、異なる微調整モデルに効率的に適応できることを実証した。
論文 参考訳(メタデータ) (2023-04-02T03:03:21Z) - Towards Counterfactual Image Manipulation via CLIP [106.94502632502194]
既存の方法は、顔画像の年齢や性別など、さまざまな視覚特性をリアルに編集することができる。
コントラスト・ランゲージ・イメージ・プレトレーニング(CLIP)を用いたテキスト駆動方式でこの問題を考察する。
定義済みのCLIP空間の方向を利用して、異なる視点から所望の方向に向けて編集を誘導する新しいコントラスト損失を設計する。
論文 参考訳(メタデータ) (2022-07-06T17:02:25Z) - Odyssey: Creation, Analysis and Detection of Trojan Models [91.13959405645959]
トロイの木馬攻撃は、一部のトレーニングサンプルにトリガーを挿入してトレーニングパイプラインを妨害し、トリガーを含むサンプルに対してのみ悪意ある動作をするようにモデルを訓練する。
既存のトロイの木馬検出器はトリガーの種類や攻撃について強い仮定をしている。
そこで本研究では,トロヤニング過程の影響を受け,本質的特性の分析に基づく検出器を提案する。
論文 参考訳(メタデータ) (2020-07-16T06:55:00Z) - Scalable Backdoor Detection in Neural Networks [61.39635364047679]
ディープラーニングモデルは、トロイの木馬攻撃に対して脆弱で、攻撃者はトレーニング中にバックドアをインストールして、結果のモデルが小さなトリガーパッチで汚染されたサンプルを誤識別させる。
本稿では,ラベル数と計算複雑性が一致しない新たなトリガリバースエンジニアリング手法を提案する。
実験では,提案手法が純モデルからトロイの木馬モデルを分離する際の完全なスコアを達成できることが観察された。
論文 参考訳(メタデータ) (2020-06-10T04:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。