Fugu-MT 論文翻訳(概要): Task-Agnostic Language Model Watermarking via High Entropy Passthrough Layers

論文の概要: Task-Agnostic Language Model Watermarking via High Entropy Passthrough Layers

arxiv url: http://arxiv.org/abs/2412.12563v1
Date: Tue, 17 Dec 2024 05:46:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-18 17:09:38.552407
Title: Task-Agnostic Language Model Watermarking via High Entropy Passthrough Layers
Title（参考訳）: 高エントロピーパススルー層によるタスク非依存言語モデル透かし
Authors: Vaden Masrani, Mohammad Akbari, David Ming Xuan Yue, Ahmad Rezaei, Yong Zhang,
Abstract要約: 本稿では,既存の事前学習ネットワークに付加されたパススルー層を用いたモデル透かしを提案する。本手法は完全にタスク非依存であり,分類タスクとシーケンス対シーケンスタスクの両方に適用できる。提案手法は, 下流の微調整, 微切り, 層除去攻撃に対して堅牢であることを示す。
参考スコア（独自算出の注目度）: 11.089926858383476
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In the era of costly pre-training of large language models, ensuring the intellectual property rights of model owners, and insuring that said models are responsibly deployed, is becoming increasingly important. To this end, we propose model watermarking via passthrough layers, which are added to existing pre-trained networks and trained using a self-supervised loss such that the model produces high-entropy output when prompted with a unique private key, and acts normally otherwise. Unlike existing model watermarking methods, our method is fully task-agnostic, and can be applied to both classification and sequence-to-sequence tasks without requiring advanced access to downstream fine-tuning datasets. We evaluate the proposed passthrough layers on a wide range of downstream tasks, and show experimentally our watermarking method achieves a near-perfect watermark extraction accuracy and false-positive rate in most cases without damaging original model performance. Additionally, we show our method is robust to both downstream fine-tuning, fine-pruning, and layer removal attacks, and can be trained in a fraction of the time required to train the original model. Code is available in the paper.
Abstract（参考訳）: 大規模言語モデルの高価な事前トレーニング、モデル所有者の知的財産権の確保、そしてそれらのモデルが責任を持ってデプロイされていることを保証することが、ますます重要になっている。そこで本研究では,既存のトレーニング済みネットワークに付加されたパススルー層を用いたモデル透かしを提案する。既存のモデル透かし法とは異なり,本手法は完全にタスクに依存しず,下流の微調整データセットへの高度なアクセスを必要とせず,分類タスクとシーケンス・ツー・シーケンスタスクの両方に適用することができる。提案手法の有効性を検証し,提案手法を用いた透かし抽出精度と偽陽性率をほぼ完璧に達成できることを示す。さらに,本手法は下流の微調整,微切り,層除去攻撃に対して堅牢であり,原モデルの訓練に要する時間の一部で訓練可能であることを示す。コードは論文で公開されている。

関連論文リスト

Gaussian Shading++: Rethinking the Realistic Deployment Challenge of Performance-Lossless Image Watermark for Diffusion Models [66.54457339638004]
著作権保護と不適切なコンテンツ生成は、拡散モデルの実装に課題をもたらす。本研究では,実世界の展開に適した拡散モデル透かし手法を提案する。 Gaussian Shading++はパフォーマンスのロスレス性を維持するだけでなく、ロバスト性の観点からも既存のメソッドよりも優れています。
論文参考訳（メタデータ） (2025-04-21T11:18:16Z)
Neural Honeytrace: A Robust Plug-and-Play Watermarking Framework against Model Extraction Attacks [15.588458290074911]
Neural Honeytraceは、モデル抽出攻撃に対する堅牢なプラグアンドプレイ透かしフレームワークである。 4つのデータセットの実験により、Neural Honeytraceは従来の手法よりも効率が良く、適応攻撃に抵抗することを示した。
論文参考訳（メタデータ） (2025-01-16T06:59:20Z)
SleeperMark: Towards Robust Watermark against Fine-Tuning Text-to-image Diffusion Models [77.80595722480074]
SleeperMarkは、回復力のある透かしをT2I拡散モデルに埋め込むように設計された新しいフレームワークである。モデルは、学習したセマンティック概念から透かし情報を切り離し、埋め込み透かしを保持することができる。各種拡散モデルにおけるSleeperMarkの有効性について実験を行った。
論文参考訳（メタデータ） (2024-12-06T08:44:18Z)
ModelShield: Adaptive and Robust Watermark against Model Extraction Attack [58.46326901858431]
大規模言語モデル(LLM)は、さまざまな機械学習タスクにまたがる汎用インテリジェンスを示す。敵はモデル抽出攻撃を利用してモデル生成で符号化されたモデルインテリジェンスを盗むことができるウォーターマーキング技術は、モデル生成コンテンツにユニークな識別子を埋め込むことによって、このような攻撃を防御する有望なソリューションを提供する。
論文参考訳（メタデータ） (2024-05-03T06:41:48Z)
TokenMark: A Modality-Agnostic Watermark for Pre-trained Transformers [67.57928750537185]
TokenMarkは、事前訓練されたモデルに対する頑健で、モダリティに依存しない、堅牢な透かしシステムである。予めトレーニングされたモデルを、特別に置換されたデータサンプルのセットに微調整することで、透かしを埋め込む。これはモデル透かしの堅牢性、効率、普遍性を著しく改善する。
論文参考訳（メタデータ） (2024-03-09T08:54:52Z)
Probabilistically Robust Watermarking of Neural Networks [4.332441337407564]
我々は、攻撃を盗む機能に対するレジリエンスを示す新しいトリガーセットベースの透かし手法を導入する。私たちのアプローチでは、追加のモデルトレーニングは必要とせず、どんなモデルアーキテクチャにも適用できます。
論文参考訳（メタデータ） (2024-01-16T10:32:13Z)
Safe and Robust Watermark Injection with a Single OoD Image [90.71804273115585]
高性能なディープニューラルネットワークをトレーニングするには、大量のデータと計算リソースが必要である。安全で堅牢なバックドア型透かし注入法を提案する。我々は,透かし注入時のモデルパラメータのランダムな摂動を誘導し,一般的な透かし除去攻撃に対する防御を行う。
論文参考訳（メタデータ） (2023-09-04T19:58:35Z)
Watermarking for Out-of-distribution Detection [76.20630986010114]
Out-of-Distribution (OOD) 検出は、よく訓練された深層モデルから抽出された表現に基づいてOODデータを識別することを目的としている。本稿では,透かしという一般的な手法を提案する。我々は,元データの特徴に重畳される統一パターンを学習し,ウォーターマーキング後にモデルの検出能力が大きく向上する。
論文参考訳（メタデータ） (2022-10-27T06:12:32Z)
Removing Backdoor-Based Watermarks in Neural Networks with Limited Data [26.050649487499626]
ディープモデルの取引は、今日では非常に需要が高く、利益を上げている。ナイーブ・トレーディング・スキームは一般的に著作権と信頼性の問題に関連する潜在的なリスクを伴います WILDと呼ばれる限られたデータを用いたバックドア型透かし除去フレームワークを提案する。
論文参考訳（メタデータ） (2020-08-02T06:25:26Z)
Model Watermarking for Image Processing Networks [120.918532981871]
深層モデルの知的財産権を保護する方法は、非常に重要であるが、真に研究されていない問題である。画像処理モデルを保護するための最初のモデル透かしフレームワークを提案する。
論文参考訳（メタデータ） (2020-02-25T18:36:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。