Fugu-MT 論文翻訳(概要): Watermarking Pre-trained Language Models with Backdooring

論文の概要: Watermarking Pre-trained Language Models with Backdooring

arxiv url: http://arxiv.org/abs/2210.07543v1
Date: Fri, 14 Oct 2022 05:42:39 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-17 15:14:21.888504
Title: Watermarking Pre-trained Language Models with Backdooring
Title（参考訳）: バックドアを用いた事前学習言語モデルの透かし
Authors: Chenxi Gu, Chengsong Huang, Xiaoqing Zheng, Kai-Wei Chang, Cho-Jui Hsieh
Abstract要約: PLMは、所有者が定義した特定の入力によって引き起こされるバックドアを埋め込むことにより、マルチタスク学習フレームワークで透かしが可能であることを示す。また,いくつかの稀な単語をトリガーとして用いることに加えて,一般的な単語の組み合わせをバックドアトリガーとして用いることで,検出が容易でないことを示す。
参考スコア（独自算出の注目度）: 118.14981787949199
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large pre-trained language models (PLMs) have proven to be a crucial component of modern natural language processing systems. PLMs typically need to be fine-tuned on task-specific downstream datasets, which makes it hard to claim the ownership of PLMs and protect the developer's intellectual property due to the catastrophic forgetting phenomenon. We show that PLMs can be watermarked with a multi-task learning framework by embedding backdoors triggered by specific inputs defined by the owners, and those watermarks are hard to remove even though the watermarked PLMs are fine-tuned on multiple downstream tasks. In addition to using some rare words as triggers, we also show that the combination of common words can be used as backdoor triggers to avoid them being easily detected. Extensive experiments on multiple datasets demonstrate that the embedded watermarks can be robustly extracted with a high success rate and less influenced by the follow-up fine-tuning.
Abstract（参考訳）: 大規模事前学習言語モデル(PLM)は、現代の自然言語処理システムにおいて重要なコンポーネントであることが証明されている。 PLMは通常、タスク固有の下流データセットを微調整する必要があるため、PLMの所有権を主張し、悲惨な忘れ物現象のために開発者の知的財産を保護することは困難である。 PLMは、所有者が定義した特定の入力によって引き起こされるバックドアを埋め込むことで、マルチタスク学習フレームワークで透かしが可能であることを示し、これらの透かしは、複数の下流タスクで微調整されているにもかかわらず、取り外しが困難であることを示す。また,レアワードをトリガーとして使用するだけでなく,共通語の組み合わせをバックドアトリガーとして使用することで,検出が容易であることを示す。複数のデータセットに対する広範囲な実験により、埋め込みウォーターマークを高い成功率でロバストに抽出でき、後続の微調整の影響も少ないことが示されている。

関連論文リスト

Detecting Hard-Coded Credentials in Software Repositories via LLMs [0.0]
ソフトウェア開発者は、パスワード、ジェネリックシークレット、プライベートキー、ソフトウェアリポジトリのジェネリックトークンなどの認証情報をハードコードすることが多い。これらの認証は、潜在的な敵によって悪用され、バックドア攻撃のような悪意ある攻撃を行うために攻撃面を生成する。最近の検出では、埋め込みモデルを用いてテキスト認証をベクトル化し、予測のために分類器に渡す。我々のモデルは、ベンチマークデータセットのF1測定値において、現在の最先端よりも13%優れています。
論文参考訳（メタデータ） (2025-06-16T04:33:48Z)
Watermarking Needs Input Repetition Masking [13.309409725789433]
人間とLarge Language Models(LLM)の両方が、一見不可能な設定でも、透かし信号を含む模倣に終わることを示す。これは現在の学術的な仮定に挑戦し、長期的な透かしが信頼できるためには、偽陽性の可能性が著しく低い必要があることを示唆している。
論文参考訳（メタデータ） (2025-04-16T16:25:26Z)
Large Language Models Can Verbatim Reproduce Long Malicious Sequences [23.0516001201445]
機械学習モデルに対するバックドア攻撃は、広く研究されている。本稿では,大規模言語モデルにおけるバックドア攻撃の概念を再検討する。ターゲット入力のトリガによって、$leq100$のハードコードキーを含む任意の応答を再生できることが判明した。
論文参考訳（メタデータ） (2025-03-21T23:24:49Z)
Information-Guided Identification of Training Data Imprint in (Proprietary) Large Language Models [52.439289085318634]
情報誘導プローブを用いて,プロプライエタリな大規模言語モデル (LLM) で知られているトレーニングデータを識別する方法を示す。我々の研究は、重要な観察の上に成り立っている: 高次数テキストパスは、暗記プローブにとって良い検索材料である。
論文参考訳（メタデータ） (2025-03-15T10:19:15Z)
Robust Data Watermarking in Language Models by Injecting Fictitious Knowledge [31.766208360156906]
言語モデルのデータ透かしは、トークンシーケンスやスタイルパターンなどのトレース可能な信号を著作権のあるテキストに注入する。従来のデータ透かし技術は主に事前訓練後の効果的な記憶に焦点を当てていた。トレーニングデータにコヒーレントで確実な知識を注入する新しいデータ透かし手法を提案する。
論文参考訳（メタデータ） (2025-03-06T02:40:51Z)
Can LLM Watermarks Robustly Prevent Unauthorized Knowledge Distillation? [75.99961894619986]
本稿では,学生モデルが知識蒸留により,透かしの継承を回避しつつ,教師モデルの能力を獲得することができるかどうかを考察する。本稿では,未ターゲットおよび目標とするトレーニングデータパラフレージング(UP,TP)による蒸留前除去と,推論時透かし中和(WN)による蒸留後除去の2つのカテゴリを提案する。
論文参考訳（メタデータ） (2025-02-17T09:34:19Z)
Waterfall: Framework for Robust and Scalable Text Watermarking and Provenance for LLMs [36.068335914828396]
我々は、堅牢でスケーラブルなテキスト透かしのための最初のトレーニング不要のフレームワークであるWaterfallを提案する。ウォーターフォールは、SOTAの記事テキストによるウォーターマーキング法と比較して、スケーラビリティ、堅牢な検証可能性、計算効率を著しく向上させる。
論文参考訳（メタデータ） (2024-07-05T10:51:33Z)
Large Language Models as Carriers of Hidden Messages [0.0]
単純な微調整は、隠されたテキストを大きな言語モデル(LLM)に埋め込むことができる。我々の研究は、隠れたテキストを微調整で埋め込むことが、膨大な数のトリガーによって安全であるように見えるが、抽出に弱いことを実証している。我々は,LLMの語彙からトークンを反復的に供給し,高いトークン確率を持つシーケンスを明らかにするunconditional Token Forcing (UTF)と呼ばれる抽出攻撃を導入し,隠れテキスト候補を示す。
論文参考訳（メタデータ） (2024-06-04T16:49:06Z)
Are you still on track!? Catching LLM Task Drift with Activations [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文参考訳（メタデータ） (2024-06-02T16:53:21Z)
Large Language Model Watermark Stealing With Mixed Integer Programming [51.336009662771396]
大きな言語モデル(LLM)の透かしは、著作権に対処し、AI生成したテキストを監視し、その誤用を防ぐことを約束している。近年の研究では、多数のキーを用いた透かし手法は、攻撃の除去に影響を受けやすいことが示されている。我々は,最先端のLLM透かしスキームに対する新たなグリーンリスト盗難攻撃を提案する。
論文参考訳（メタデータ） (2024-05-30T04:11:17Z)
WatME: Towards Lossless Watermarking Through Lexical Redundancy [58.61972059246715]
本研究では,認知科学レンズを用いた大規模言語モデル(LLM)の異なる機能に対する透かしの効果を評価する。透かしをシームレスに統合するための相互排他型透かし(WatME)を導入する。
論文参考訳（メタデータ） (2023-11-16T11:58:31Z)
A Robust Semantics-based Watermark for Large Language Model against Paraphrasing [50.84892876636013]
大規模言語モデル(LLM)は、様々な自然言語処理において優れた能力を示している。 LLMは不適切にも違法にも使用できるという懸念がある。本稿ではセマンティクスに基づく透かしフレームワークSemaMarkを提案する。
論文参考訳（メタデータ） (2023-11-15T06:19:02Z)
Are You Copying My Model? Protecting the Copyright of Large Language Models for EaaS via Backdoor Watermark [58.60940048748815]
企業は大規模な言語モデル(LLM)に基づいたEmbeddding as a Service(E)の提供を開始した。 Eはモデル抽出攻撃に弱いため、LLMの所有者に重大な損失をもたらす可能性がある。埋め込みにバックドアを埋め込むEmbMarkerという埋め込み透かし手法を提案する。
論文参考訳（メタデータ） (2023-05-17T08:28:54Z)
Removing Backdoor-Based Watermarks in Neural Networks with Limited Data [26.050649487499626]
ディープモデルの取引は、今日では非常に需要が高く、利益を上げている。ナイーブ・トレーディング・スキームは一般的に著作権と信頼性の問題に関連する潜在的なリスクを伴います WILDと呼ばれる限られたデータを用いたバックドア型透かし除去フレームワークを提案する。
論文参考訳（メタデータ） (2020-08-02T06:25:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。