論文の概要: LoRA-as-an-Attack! Piercing LLM Safety Under The Share-and-Play Scenario
- arxiv url: http://arxiv.org/abs/2403.00108v1
- Date: Thu, 29 Feb 2024 20:25:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 19:04:54.434875
- Title: LoRA-as-an-Attack! Piercing LLM Safety Under The Share-and-Play Scenario
- Title(参考訳): ロラ・アズ・ア・ア・アタック!
共有再生シナリオ下でのllm安全性のピアス
- Authors: Hongyi Liu, Zirui Liu, Ruixiang Tang, Jiayi Yuan, Shaochen Zhong,
Yu-Neng Chuang, Li Li, Rui Chen, Xia Hu
- Abstract要約: LoRAモジュールにバックドアを注入し,LoRA感染機構を深く掘り下げる方法について検討した。
我々の狙いは、LoRA-as-an-Attackによる潜在的な影響を積極的に防止するため、新興のシェア・アンド・プレイシナリオにおける潜在的なリスクの認識を高めることである。
- 参考スコア(独自算出の注目度): 61.99243609126672
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning LLMs is crucial to enhancing their task-specific performance and
ensuring model behaviors are aligned with human preferences. Among various
fine-tuning methods, LoRA is popular for its efficiency and ease to use,
allowing end-users to easily post and adopt lightweight LoRA modules on
open-source platforms to tailor their model for different customization.
However, such a handy share-and-play setting opens up new attack surfaces, that
the attacker can render LoRA as an attacker, such as backdoor injection, and
widely distribute the adversarial LoRA to the community easily. This can result
in detrimental outcomes. Despite the huge potential risks of sharing LoRA
modules, this aspect however has not been fully explored. To fill the gap, in
this study we thoroughly investigate the attack opportunities enabled in the
growing share-and-play scenario. Specifically, we study how to inject backdoor
into the LoRA module and dive deeper into LoRA's infection mechanisms. We found
that training-free mechanism is possible in LoRA backdoor injection. We also
discover the impact of backdoor attacks with the presence of multiple LoRA
adaptions concurrently as well as LoRA based backdoor transferability. Our aim
is to raise awareness of the potential risks under the emerging share-and-play
scenario, so as to proactively prevent potential consequences caused by
LoRA-as-an-Attack. Warning: the paper contains potential offensive content
generated by models.
- Abstract(参考訳): 微調整LDMは、タスク固有のパフォーマンスを高め、モデル行動が人間の好みに合致することを保証するために不可欠である。
さまざまな微調整方法の中で、LoRAはその効率性と使いやすさで人気があり、エンドユーザはオープンソースプラットフォームに軽量なLoRAモジュールを簡単にポストし、採用して、異なるカスタマイズのためにモデルをカスタマイズすることができる。
しかし、このような便利な共有プレイ設定によって新たな攻撃面が開き、攻撃者はバックドアインジェクションなどの攻撃対象としてLoRAをレンダリングし、敵のLoRAをコミュニティに広く配布することができる。
これは有害な結果をもたらす可能性がある。
LoRAモジュールを共有する大きなリスクがあるにもかかわらず、この側面は十分に検討されていない。
このギャップを埋めるため,本研究は,拡大するシェア・アンド・プレイシナリオにおいて可能となる攻撃機会を徹底的に調査する。
具体的には,LoRAモジュールにバックドアを注入し,LoRA感染機構を深く掘り下げる方法について検討する。
LoRAバックドアインジェクションではトレーニングフリーのメカニズムが可能であることがわかった。
また,複数の LoRA 適応と LoRA ベースのバックドアトランスファビリティが同時に存在することによるバックドア攻撃の影響も確認した。
我々の狙いは、LoRA-as-an-Attackによる潜在的な影響を積極的に防止するため、新興のシェア・アンド・プレイシナリオにおける潜在的なリスクの認識を高めることである。
警告: この論文はモデルによって生成される潜在的攻撃的コンテンツを含んでいる。
関連論文リスト
- Retrieval-Augmented Mixture of LoRA Experts for Uploadable Machine Learning [57.36978335727009]
Low-Rank Adaptation (LoRA)は、大規模言語モデル(LLM)を微調整する効率的な方法を提供する。
本稿では,入力プロンプトに基づいて複数のLoRAを適応的に検索・構成するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-24T05:24:41Z) - Compress then Serve: Serving Thousands of LoRA Adapters with Little Overhead [41.31302904190149]
低ランクのアダプタ (LoRA) を持つ細調整の大型言語モデルは一般的な慣行となり、LoRA更新でのみ同じLLMのコピーを多数生成する。
このパラダイムは、異なるLoRAを含むクエリに対するリアルタイム応答を提供するシステムの課題を示す。
SVDを用いて個別に圧縮アダプタを検討するとともに,LoRA固有のスケーリング行列と組み合わせた共有ベースにLoRAを共同圧縮する方法を提案する。
論文 参考訳(メタデータ) (2024-06-17T15:21:35Z) - Mixture of LoRA Experts [87.50120181861362]
本稿では,階層的制御と未分散分岐選択を利用する LoRA Experts (MoLE) アプローチを提案する。
MoLEアプローチは直接算術マージよりも優れたLoRA融合性能を実現する。
論文 参考訳(メタデータ) (2024-04-21T11:59:53Z) - Continual Forgetting for Pre-trained Vision Models [70.51165239179052]
現実のシナリオでは、選択的な情報は事前訓練されたモデルから継続的に取り除かれることが期待される。
効率的な削除のためのグループスパースロラ(GS-LoRA)を提案する。
我々は,顔認識,物体検出,画像分類に関する広範な実験を行い,GS-LoRAが他のクラスに最小限の影響で,特定のクラスを忘れることが実証された。
論文 参考訳(メタデータ) (2024-03-18T07:33:56Z) - Privacy-Preserving Low-Rank Adaptation for Latent Diffusion Models [18.472894244598503]
低ランク適応(LoRA)は、個人データセットに潜時拡散モデル(LDM)を適用して特定の画像を生成するための効率的な戦略である。
我々は,MP-LoRA(Community-Privacy-Reserving LoRA)というソリューションを提案する。
MP-LoRAには不安定な最適化の問題があり、理論的には、潜在的な理由は制約のない局所的滑らかさである。
実験の結果,SMP-LoRAはMI攻撃を防ぎ,高品質な画像を生成することができることがわかった。
論文 参考訳(メタデータ) (2024-02-19T09:32:48Z) - LoRA-Flow: Dynamic LoRA Fusion for Large Language Models in Generative
Tasks [72.88244322513039]
LoRAは、ダウンストリームタスクやドメイン毎に大きな言語モデル(LLM)をカスタマイズするために軽量モジュールを使用している。
動的重みを利用して異なるLoRAの影響を調整するLoRA-Flowを提案する。
6つの生成タスクに対する実験により、我々の手法はタスクレベルの融合重みでベースラインを一貫して上回ることを示した。
論文 参考訳(メタデータ) (2024-02-18T04:41:25Z) - LoraRetriever: Input-Aware LoRA Retrieval and Composition for Mixed
Tasks in the Wild [76.67343971195267]
Low-Rank Adaptation (LoRA)は、大規模言語モデル(LLM)を微調整するための効率的なソリューションを提供する。
LoraRetrieverは、入力プロンプトに従って複数のLoRAを適応的に検索して構成する検索テーマ構成フレームワークである。
実験結果から、LoraRetrieverは一貫してベースラインを上回っていることが示唆された。
論文 参考訳(メタデータ) (2024-02-15T15:02:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。