論文の概要: LoRAGuard: An Effective Black-box Watermarking Approach for LoRAs
- arxiv url: http://arxiv.org/abs/2501.15478v1
- Date: Sun, 26 Jan 2025 10:46:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:57:32.674656
- Title: LoRAGuard: An Effective Black-box Watermarking Approach for LoRAs
- Title(参考訳): LoRAGuard: LoRAの効果的なブラックボックス透かしアプローチ
- Authors: Peizhuo Lv, Yiran Xiahou, Congyi Li, Mengjie Sun, Shengzhi Zhang, Kai Chen, Yingjun Zhang,
- Abstract要約: LoRAの不正使用を検出する新しいブラックボックス透かし技術であるLoRAGuardを紹介する。
LoRAGuardは、ほぼ100%の透かし検証成功を達成し、強い効果を示す。
- 参考スコア(独自算出の注目度): 14.199095322820314
- License:
- Abstract: LoRA (Low-Rank Adaptation) has achieved remarkable success in the parameter-efficient fine-tuning of large models. The trained LoRA matrix can be integrated with the base model through addition or negation operation to improve performance on downstream tasks. However, the unauthorized use of LoRAs to generate harmful content highlights the need for effective mechanisms to trace their usage. A natural solution is to embed watermarks into LoRAs to detect unauthorized misuse. However, existing methods struggle when multiple LoRAs are combined or negation operation is applied, as these can significantly degrade watermark performance. In this paper, we introduce LoRAGuard, a novel black-box watermarking technique for detecting unauthorized misuse of LoRAs. To support both addition and negation operations, we propose the Yin-Yang watermark technique, where the Yin watermark is verified during negation operation and the Yang watermark during addition operation. Additionally, we propose a shadow-model-based watermark training approach that significantly improves effectiveness in scenarios involving multiple integrated LoRAs. Extensive experiments on both language and diffusion models show that LoRAGuard achieves nearly 100% watermark verification success and demonstrates strong effectiveness.
- Abstract(参考訳): LoRA (Low-Rank Adaptation) は大規模モデルのパラメータ効率の良い微調整において顕著な成功を収めた。
トレーニングされたLoRAマトリックスは、下流タスクのパフォーマンスを改善するために、追加や否定操作を通じてベースモデルと統合することができる。
しかし、有害なコンテンツを生成するためにLoRAを許可されていないことは、その使用をトレースする効果的なメカニズムの必要性を強調している。
自然な解決策は、不正使用を検出するために、透かしをLoRAに埋め込むことである。
しかし,複数のLoRAを組み合わせたり,否定操作を施したりする場合,既存の手法ではウォーターマーク性能が著しく低下する可能性がある。
本稿では,LoRAの不正使用を検出する新しいブラックボックス透かし技術であるLoRAGuardを紹介する。
付加操作と否定操作の両方をサポートするために, 付加操作中にyin透かしを, 付加操作中にYang透かしを検証するyin-Yang透かし手法を提案する。
さらに,複数のLoRAを含むシナリオにおける有効性を大幅に向上する,影モデルに基づく透かし学習手法を提案する。
言語モデルと拡散モデルの両方に関する大規模な実験は、LoRAGuardがほぼ100%の透かし検証成功を達成し、強い効果を示すことを示している。
関連論文リスト
- SEAL: Entangled White-box Watermarks on Low-Rank Adaptation [14.478685983719128]
SEALはトレーニング可能なLoRA重みの間に秘密の非トレーニング可能なマトリックスを埋め込み、所有権を主張するためのパスポートとして機能する。
SEALを適用する際には,コモンセンス推論,テキスト・ビジュアル・インストラクション・チューニング,テキスト・ツー・イメージ・シンセサイザー・タスクによるパフォーマンス劣化は見られなかった。
論文 参考訳(メタデータ) (2025-01-16T04:17:56Z) - ROBIN: Robust and Invisible Watermarks for Diffusion Models with Adversarial Optimization [15.570148419846175]
既存の透かし手法は、堅牢性と隠蔽のバランスをとるという課題に直面している。
本稿では, 透かしを積極的に隠蔽し, より強力な透かしの埋め込みを可能にするための透かし隠蔽法を提案する。
様々な拡散モデルの実験では、画像改ざんであっても透かしが検証可能であることが示されている。
論文 参考訳(メタデータ) (2024-11-06T12:14:23Z) - LoRA-Pro: Are Low-Rank Adapters Properly Optimized? [121.0693322732454]
LoRAとしても知られる低ランク適応は、基礎モデルのパラメータ効率の細かい調整のための顕著な手法として登場した。
計算効率にもかかわらず、LoRAは完全な微調整に比べて性能が劣っている。
低ランク行列の勾配を戦略的に調整することでLoRAの性能を向上させる手法であるLoRA-Proを導入する。
論文 参考訳(メタデータ) (2024-07-25T17:57:12Z) - Watermarking Recommender Systems [52.207721219147814]
本稿では,レコメンダシステムに特化した新しい手法であるAutoregressive Out-of-Distribution Watermarking (AOW)を紹介する。
提案手法では,初期項目の選択とオラクルモデルによるクエリを行い,その後に予測スコアの小さい項目を選択する。
透かしの有効性を評価するため、このモデルでは、切り捨てられた透かしシーケンスが与えられた後続の項目を予測することを課題とする。
論文 参考訳(メタデータ) (2024-07-17T06:51:24Z) - AquaLoRA: Toward White-box Protection for Customized Stable Diffusion Models via Watermark LoRA [67.68750063537482]
拡散モデルは高品質な画像の生成において顕著な成功を収めた。
最近の研究は、SDモデルがポストホック法医学のための透かし付きコンテンツを出力できるようにすることを目的としている。
このシナリオにおける最初の実装としてtextttmethod を提案する。
論文 参考訳(メタデータ) (2024-05-18T01:25:47Z) - Mixture of LoRA Experts [87.50120181861362]
本稿では,階層的制御と未分散分岐選択を利用する LoRA Experts (MoLE) アプローチを提案する。
MoLEアプローチは直接算術マージよりも優れたLoRA融合性能を実現する。
論文 参考訳(メタデータ) (2024-04-21T11:59:53Z) - LoRA-drop: Efficient LoRA Parameter Pruning based on Output Evaluation [27.123271324468657]
Low-Rank Adaptation (LoRA)は、現在最も一般的に使われている言語である。
効率的な微細チューニング法(PEFT)。
各レイヤの補助パラメータを導入し、限られたコンピューティングリソースの下で事前訓練されたモデルを微調整する。
しかし、より大きなモデルにスケールアップする際には、依然としてリソース消費の課題に直面している。
論文 参考訳(メタデータ) (2024-02-12T15:34:56Z) - Wide Flat Minimum Watermarking for Robust Ownership Verification of GANs [23.639074918667625]
ホワイトボックス攻撃に対するロバスト性を向上したGANのための新しいマルチビット・ボックスフリー透かし手法を提案する。
透かしは、GANトレーニング中に余分な透かし損失項を追加することで埋め込む。
その結果,透かしの存在が画像の品質に与える影響は無視できることがわかった。
論文 参考訳(メタデータ) (2023-10-25T18:38:10Z) - Unbiased Watermark for Large Language Models [67.43415395591221]
本研究では, モデル生成出力の品質に及ぼす透かしの影響について検討した。
出力確率分布に影響を与えることなく、透かしを統合することができる。
ウォーターマークの存在は、下流タスクにおけるモデルの性能を損なうものではない。
論文 参考訳(メタデータ) (2023-09-22T12:46:38Z) - Fine-tuning Is Not Enough: A Simple yet Effective Watermark Removal
Attack for DNN Models [72.9364216776529]
我々は異なる視点から新しい透かし除去攻撃を提案する。
我々は、知覚不可能なパターン埋め込みと空間レベルの変換を組み合わせることで、単純だが強力な変換アルゴリズムを設計する。
我々の攻撃は、非常に高い成功率で最先端の透かしソリューションを回避できる。
論文 参考訳(メタデータ) (2020-09-18T09:14:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。