Fugu-MT 論文翻訳(概要): Learnable Linguistic Watermarks for Tracing Model Extraction Attacks on Large Language Models

論文の概要: Learnable Linguistic Watermarks for Tracing Model Extraction Attacks on Large Language Models

arxiv url: http://arxiv.org/abs/2405.01509v1
Date: Sun, 28 Apr 2024 14:45:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-03 15:35:38.210271
Title: Learnable Linguistic Watermarks for Tracing Model Extraction Attacks on Large Language Models
Title（参考訳）: 大規模言語モデルを用いた追跡モデル抽出攻撃のための学習可能な言語学的透かし
Authors: Minhao Bai, Kaiyi Pang, Yongfeng Huang,
Abstract要約: モデル抽出攻撃に対する現在の透かし技術は、モデルロジットの信号挿入や生成されたテキストの後処理に依存している。大規模言語モデル(LLM)に学習可能な言語透かしを埋め込む新しい手法を提案する。制御ノイズをトークン周波数分布に導入し,統計的に識別可能な透かしを埋め込むことにより,LLMの出力分布を微調整する。
参考スコア（独自算出の注目度）: 20.44680783275184
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In the rapidly evolving domain of artificial intelligence, safeguarding the intellectual property of Large Language Models (LLMs) is increasingly crucial. Current watermarking techniques against model extraction attacks, which rely on signal insertion in model logits or post-processing of generated text, remain largely heuristic. We propose a novel method for embedding learnable linguistic watermarks in LLMs, aimed at tracing and preventing model extraction attacks. Our approach subtly modifies the LLM's output distribution by introducing controlled noise into token frequency distributions, embedding an statistically identifiable controllable watermark.We leverage statistical hypothesis testing and information theory, particularly focusing on Kullback-Leibler Divergence, to differentiate between original and modified distributions effectively. Our watermarking method strikes a delicate well balance between robustness and output quality, maintaining low false positive/negative rates and preserving the LLM's original performance.
Abstract（参考訳）: 人工知能の急速に発展する領域では、Large Language Models(LLM)の知的財産権を保護することがますます重要になっている。モデルロジットの信号挿入や生成されたテキストの後処理に依存するモデル抽出攻撃に対する現在の透かし技術は、主にヒューリスティックなままである。モデル抽出攻撃の追跡と防止を目的とした,学習可能な言語透かしをLLMに埋め込む新しい手法を提案する。提案手法は,制御ノイズをトークン周波数分布に導入し,統計的に識別可能な制御可能な透かしを埋め込むことによってLCMの出力分布を微調整する。我々の透かし法は、ロバスト性と出力品質の微妙なバランスを保ち、偽陽性/負の率を低く保ち、LLMの本来の性能を保っている。

関連論文リスト

An Ensemble Framework for Unbiased Language Model Watermarking [60.99969104552168]
本研究では,アンサンブル・フレームワークであるENSを提案する。 ENSは複数の独立した透かしインスタンスを順次構成し、それぞれ異なるキーによって管理され、透かし信号を増幅する。実験的な評価では、ENSは信頼できる検出に必要なトークンの数を大幅に減らし、平滑化やパラフレージング攻撃に対する耐性を高めている。
論文参考訳（メタデータ） (2025-09-28T19:37:44Z)
Character-Level Perturbations Disrupt LLM Watermarks [64.60090923837701]
我々は,Large Language Model (LLM)ウォーターマーキングのためのシステムモデルを定式化する。我々は、透かし検出器への限られたアクセスに制約された2つの現実的な脅威モデルの特徴付けを行う。我々は,最も制限的な脅威モデルの下で,キャラクタレベルの摂動が透かし除去に著しく有効であることを実証した。現実的な制約下での透かし除去における文字レベルの摂動の優位性と遺伝的アルゴリズム(GA)の有効性を実験的に検証した。
論文参考訳（メタデータ） (2025-09-11T02:50:07Z)
Generalized Interpolating Discrete Diffusion [65.74168524007484]
仮面拡散はその単純さと有効性のために一般的な選択である。離散拡散過程を補間する一般族の理論的バックボーンを導出する。 GIDDのフレキシビリティをエクスプロイトし、マスクと均一ノイズを組み合わせたハイブリッドアプローチを探索する。
論文参考訳（メタデータ） (2025-03-06T14:30:55Z)
Distributional Information Embedding: A Framework for Multi-bit Watermarking [35.319577498993354]
本稿では,大規模言語モデル(LLM)における透かしの実践的要求に動機づけられた,分散情報埋め込みという新たな問題を紹介する。この分布情報埋め込み問題を解析するための情報理論フレームワークを開発する。誤報や歪みの制約に固執しながら検出確率を最大化するスキームを同定する。
論文参考訳（メタデータ） (2025-01-27T23:01:56Z)
GaussMark: A Practical Approach for Structural Watermarking of Language Models [61.84270985214254]
GaussMarkは、大規模な言語モデルを透かし出すためのシンプルで効率的で比較的堅牢なスキームである。 GaussMarkは信頼性が高く、効率的で、挿入、削除、置換、ラウンドトリップ翻訳などの汚職に対して比較的堅牢であることを示す。
論文参考訳（メタデータ） (2025-01-17T22:30:08Z)
Embedding Watermarks in Diffusion Process for Model Intellectual Property Protection [16.36712147596369]
拡散過程全体に透かしを埋め込むことにより,新しい透かしの枠組みを導入する。詳細な理論的解析と実験的検証により,提案手法の有効性が示された。
論文参考訳（メタデータ） (2024-10-29T18:27:10Z)
Signal Watermark on Large Language Models [28.711745671275477]
本稿では,Large Language Models (LLMs) によるテキストに特定の透かしを埋め込む透かし手法を提案する。この技術は、透かしが人間に見えないことを保証するだけでなく、モデル生成テキストの品質と文法的整合性も維持する。提案手法は複数のLDMに対して実験的に検証され,高い検出精度を維持している。
論文参考訳（メタデータ） (2024-10-09T04:49:03Z)
Large Language Models can be Strong Self-Detoxifiers [82.6594169242814]
SASA(Self-disciplined Autoregressive Smpling)は、大規模言語モデル(LLM)の毒性低減のための軽量制御復号アルゴリズムである。 SASAは、自己回帰サンプリング戦略を調整することにより、電流出力のマージンを追跡し、有害な部分空間から世代を分離する。 Llama-3.1-Instruct (8B), Llama-2 (7B), GPT2-L model with the RealToxicityPrompts, BOLD, and AttaQ benchmarks。
論文参考訳（メタデータ） (2024-10-04T17:45:15Z)
Universally Optimal Watermarking Schemes for LLMs: from Theory to Practice [35.319577498993354]
大きな言語モデル(LLM)は人間の効率を高めるが、誤用リスクを引き起こす。本稿では,LLMの透かしのための新しい理論的枠組みを提案する。我々は,検出性能を最大化するために,透かし方式と検出器の両方を共同で最適化する。
論文参考訳（メタデータ） (2024-10-03T18:28:10Z)
DALD: Improving Logits-based Detector without Logits from Black-box LLMs [56.234109491884126]
大規模言語モデル(LLM)はテキスト生成に革命をもたらし、人間の文章を忠実に模倣する出力を生成する。我々は、ブラックボックステキスト検出における最先端性能を再定義する革新的なフレームワークであるDLD(Dis Distribution-Aligned LLMs Detection)を提案する。 DALDは、サロゲートモデルの分布を未知の目標LLMの分布と整合させ、高速モデルの反復に対する検出能力とレジリエンスを向上するように設計されている。
論文参考訳（メタデータ） (2024-06-07T19:38:05Z)
Defending Large Language Models Against Attacks With Residual Stream Activation Analysis [0.0]
大規模言語モデル(LLM)は敵の脅威に対して脆弱である。本稿では, LLM へのホワイトボックスアクセスを前提とした, 革新的な防御戦略を提案する。そこで本研究では,アタックプロンプト分類のための残差ストリームの固有なアクティベーションパターンを解析するための新しい手法を適用した。
論文参考訳（メタデータ） (2024-06-05T13:06:33Z)
ModelShield: Adaptive and Robust Watermark against Model Extraction Attack [58.46326901858431]
大規模言語モデル(LLM)は、さまざまな機械学習タスクにまたがる汎用インテリジェンスを示す。敵はモデル抽出攻撃を利用してモデル生成で符号化されたモデルインテリジェンスを盗むことができるウォーターマーキング技術は、モデル生成コンテンツにユニークな識別子を埋め込むことによって、このような攻撃を防御する有望なソリューションを提供する。
論文参考訳（メタデータ） (2024-05-03T06:41:48Z)
Language Rectified Flow: Advancing Diffusion Language Generation with Probabilistic Flows [53.31856123113228]
本稿では,言語認識フロー (ours) を提案する。本手法は, 標準確率流モデルの再構成に基づく。実験およびアブレーション実験により,本手法は多くのNLPタスクに対して汎用的,効果的,有益であることが示されている。
論文参考訳（メタデータ） (2024-03-25T17:58:22Z)
A Cheaper and Better Diffusion Language Model with Soft-Masked Noise [62.719656543880596]
Masked-Diffuse LMは言語モデリングのための新しい拡散モデルであり、言語の言語的特徴に触発されている。具体的には,テキストデータのノイズを改善するために,戦略的ソフトマスキングによってテキストに劣化を加える言語情報処理を設計する。我々は,我々のMasked-Diffuse LMが,高効率の最先端拡散モデルよりも優れた生成品質を達成できることを実証した。
論文参考訳（メタデータ） (2023-04-10T17:58:42Z)
In and Out-of-Domain Text Adversarial Robustness via Label Smoothing [64.66809713499576]
多様なNLPタスクの基本モデルにおいて,ラベルの平滑化戦略によって提供される対角的ロバスト性について検討する。実験の結果,ラベルのスムース化は,BERTなどの事前学習モデルにおいて,様々な攻撃に対して,逆方向の堅牢性を大幅に向上させることがわかった。また,予測信頼度とロバスト性の関係を解析し,ラベルの平滑化が敵の例に対する過度な信頼誤差を減少させることを示した。
論文参考訳（メタデータ） (2022-12-20T14:06:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。