Fugu-MT 論文翻訳(概要): Attacking LLM Watermarks by Exploiting Their Strengths

論文の概要: Attacking LLM Watermarks by Exploiting Their Strengths

arxiv url: http://arxiv.org/abs/2402.16187v1
Date: Sun, 25 Feb 2024 20:24:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-27 15:04:31.772291
Title: Attacking LLM Watermarks by Exploiting Their Strengths
Title（参考訳）: 強度の爆発によるLLM透かしの攻撃
Authors: Qi Pang, Shengyuan Hu, Wenting Zheng, Virginia Smith
Abstract要約: 生成モデルは、AIが生成したテキスト、コード、画像が、多くのアプリケーションで生成したコンテンツをミラーすることを可能にする。モデル出力に情報を埋め込んでソースを検証する技術であるウォーターマーキングは、そのようなAI生成コンテンツの誤用を軽減するのに有用である。既存の透かし方式が驚くほど攻撃を受けやすいことを示します。
参考スコア（独自算出の注目度）: 22.07546496631127
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Advances in generative models have made it possible for AI-generated text, code, and images to mirror human-generated content in many applications. Watermarking, a technique that aims to embed information in the output of a model to verify its source, is useful for mitigating misuse of such AI-generated content. However, existing watermarking schemes remain surprisingly susceptible to attack. In particular, we show that desirable properties shared by existing LLM watermarking systems such as quality preservation, robustness, and public detection APIs can in turn make these systems vulnerable to various attacks. We rigorously study potential attacks in terms of common watermark design choices, and propose best practices and defenses for mitigation -- establishing a set of practical guidelines for embedding and detection of LLM watermarks.
Abstract（参考訳）: 生成モデルの進歩により、AIが生成したテキスト、コード、画像が、多くのアプリケーションで生成したコンテンツのミラーリングを可能にした。モデル出力に情報を埋め込んでソースを検証する技術であるウォーターマーキングは、そのようなAI生成コンテンツの誤用を軽減するのに有用である。しかし、既存の透かしは驚くほど攻撃に弱いままである。特に,品質維持やロバスト性,公開検出apiといった既存のllm透かしシステムで共有される望ましい特性は,これらのシステムを様々な攻撃に対して脆弱にすることができることを示す。我々は、一般的なウォーターマーク設計の観点で潜在的な攻撃を厳格に研究し、緩和のためのベストプラクティスと防御を提案し、llmウォーターマークの埋め込みと検出のための実用的なガイドラインを策定する。

関連論文リスト

SoK: Are Watermarks in LLMs Ready for Deployment? [21.323682505973622]
大規模言語モデル(LLM)は自然言語処理を変革し、多様なタスクにまたがる印象的な能力を誇示している。これらのモデルの展開は、知的財産権侵害と潜在的な誤用に関連する重大なリスクをもたらす。プロプライエタリなLCMと非常に関係があり、セキュリティ、収益、倫理的展開に深刻な脅威をもたらすため、私たちはモデルステルス攻撃に重点を置いています。
論文参考訳（メタデータ） (2025-06-05T21:12:51Z)
In-Context Watermarks for Large Language Models [71.29952527565749]
In-Context Watermarking (ICW)は、インシデントエンジニアリングのみで生成されたテキストに透かしを埋め込む。粒度の異なる4つのICW戦略について検討した。本実験は,モデルに依存しない実用的な透かし手法としてのICWの実現可能性を検証するものである。
論文参考訳（メタデータ） (2025-05-22T17:24:51Z)
Toward Breaking Watermarks in Distortion-free Large Language Models [11.922206306917435]
我々は,LSMを「妥協」し,スプーフィング攻撃を行うことが可能であることを示す。具体的には,ウォーターマーキングに用いる秘密鍵を正確に推定する混合整数線形プログラミングフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-25T19:52:55Z)
Watermarking Large Language Models and the Generated Content: Opportunities and Challenges [18.01886375229288]
生成型大規模言語モデル(LLM)は知的財産権侵害や機械生成誤報の拡散に懸念を抱いている。ウォーターマーキングは、所有権を確立し、許可されていない使用を防止し、LLM生成コンテンツの起源を追跡できる有望な手法として機能する。本稿では,LLMをウォーターマークする際の課題と機会を要約し,共有する。
論文参考訳（メタデータ） (2024-10-24T18:55:33Z)
ESpeW: Robust Copyright Protection for LLM-based EaaS via Embedding-Specific Watermark [50.08021440235581]
組み込み・アズ・ア・サービス(Eding)はAIアプリケーションにおいて重要な役割を担っている。編集はモデル抽出攻撃に対して脆弱であり、著作権保護の緊急の必要性を強調している。そこで我々は,Edingの著作権保護を堅牢にするための新しい埋め込み専用透かし (ESpeW) 機構を提案する。
論文参考訳（メタデータ） (2024-10-23T04:34:49Z)
De-mark: Watermark Removal in Large Language Models [59.00698153097887]
我々は、n-gramベースの透かしを効果的に除去するために設計された高度なフレームワークであるDe-markを紹介する。提案手法は,透かしの強度を評価するために,ランダム選択探索と呼ばれる新しいクエリ手法を利用する。
論文参考訳（メタデータ） (2024-10-17T17:42:10Z)
WAPITI: A Watermark for Finetuned Open-Source LLMs [42.1087852764299]
WAPITIはパラメータ統合によってベースモデルから微調整モデルに透かしを転送する新しい手法である。提案手法は,透かしの注入に成功し,微調整モデルとの互換性が高いことを示す。
論文参考訳（メタデータ） (2024-10-09T01:41:14Z)
Large Language Model Watermark Stealing With Mixed Integer Programming [51.336009662771396]
大きな言語モデル(LLM)の透かしは、著作権に対処し、AI生成したテキストを監視し、その誤用を防ぐことを約束している。近年の研究では、多数のキーを用いた透かし手法は、攻撃の除去に影響を受けやすいことが示されている。我々は,最先端のLLM透かしスキームに対する新たなグリーンリスト盗難攻撃を提案する。
論文参考訳（メタデータ） (2024-05-30T04:11:17Z)
ModelShield: Adaptive and Robust Watermark against Model Extraction Attack [58.46326901858431]
大規模言語モデル(LLM)は、さまざまな機械学習タスクにまたがる汎用インテリジェンスを示す。敵はモデル抽出攻撃を利用してモデル生成で符号化されたモデルインテリジェンスを盗むことができるウォーターマーキング技術は、モデル生成コンテンツにユニークな識別子を埋め込むことによって、このような攻撃を防御する有望なソリューションを提供する。
論文参考訳（メタデータ） (2024-05-03T06:41:48Z)
Turning Your Strength into Watermark: Watermarking Large Language Model via Knowledge Injection [66.26348985345776]
本稿では,知識注入に基づく大規模言語モデル(LLM)のための新しい透かし手法を提案する。透かし埋め込みの段階では、まず選択した知識に透かしを埋め込んで、透かし付き知識を得る。透かし抽出段階では、疑わしいLLMを問うために、透かし付き知識に関する質問を設計する。実験により, 透かし抽出の成功率は100%近くであり, 提案手法の有効性, 忠実性, ステルス性, 堅牢性を示した。
論文参考訳（メタデータ） (2023-11-16T03:22:53Z)
Fine-tuning Is Not Enough: A Simple yet Effective Watermark Removal Attack for DNN Models [72.9364216776529]
我々は異なる視点から新しい透かし除去攻撃を提案する。我々は、知覚不可能なパターン埋め込みと空間レベルの変換を組み合わせることで、単純だが強力な変換アルゴリズムを設計する。我々の攻撃は、非常に高い成功率で最先端の透かしソリューションを回避できる。
論文参考訳（メタデータ） (2020-09-18T09:14:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。