Fugu-MT 論文翻訳(概要): WAPITI: A Watermark for Finetuned Open-Source LLMs

論文の概要: WAPITI: A Watermark for Finetuned Open-Source LLMs

arxiv url: http://arxiv.org/abs/2410.06467v1
Date: Wed, 9 Oct 2024 01:41:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-01 05:38:53.406864
Title: WAPITI: A Watermark for Finetuned Open-Source LLMs
Title（参考訳）: WAPITI: 洗練されたオープンソースLLMのための透かし
Authors: Lingjie Chen, Ruizhong Qiu, Siyu Yuan, Zhining Liu, Tianxin Wei, Hyunsik Yoo, Zhichen Zeng, Deqing Yang, Hanghang Tong,
Abstract要約: WAPITIはパラメータ統合によってベースモデルから微調整モデルに透かしを転送する新しい手法である。提案手法は,透かしの注入に成功し,微調整モデルとの互換性が高いことを示す。
参考スコア（独自算出の注目度）: 42.1087852764299
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Watermarking of large language models (LLMs) generation embeds an imperceptible statistical pattern within texts, making it algorithmically detectable. Watermarking is a promising method for addressing potential harm and biases from LLMs, as it enables traceability, accountability, and detection of manipulated content, helping to mitigate unintended consequences. However, for open-source models, watermarking faces two major challenges: (i) incompatibility with fine-tuned models, and (ii) vulnerability to fine-tuning attacks. In this work, we propose WAPITI, a new method that transfers watermarking from base models to fine-tuned models through parameter integration. To the best of our knowledge, we propose the first watermark for fine-tuned open-source LLMs that preserves their fine-tuned capabilities. Furthermore, our approach offers an effective defense against fine-tuning attacks. We test our method on various model architectures and watermarking strategies. Results demonstrate that our method can successfully inject watermarks and is highly compatible with fine-tuned models. Additionally, we offer an in-depth analysis of how parameter editing influences the watermark strength and overall capabilities of the resulting models.
Abstract（参考訳）: 大規模言語モデル(LLM)生成の透かしは、テキスト内に認識不能な統計パターンを埋め込んで、アルゴリズムで検出する。ウォーターマーキングは、トレーサビリティ、説明責任、操作されたコンテンツの検出を可能にし、意図しない結果の軽減に役立つため、LCMから潜在的な害やバイアスに対処するための有望な方法である。しかし、オープンソースのモデルでは、透かしは2つの大きな課題に直面している。 (i)微調整されたモデルとの整合性、及び (ii)微調整攻撃に対する脆弱性。本研究では,基本モデルからパラメータ統合による微調整モデルへ透かしを転送する新しい手法であるWAPITIを提案する。我々の知識を最大限に活用するために、我々は、その微調整能力を保ったオープンソースのLCMのための最初の透かしを提案する。さらに,本手法は微調整攻撃に対する効果的な防御効果を提供する。様々なモデルアーキテクチャと透かし戦略について,本手法を検証した。その結果,本手法は透かしの注入に成功し,微調整モデルとの互換性が高いことがわかった。さらに,パラメータの編集が透かしの強さやモデル全体の機能にどのように影響するかを詳細に分析する。

関連論文リスト

Hot-Swap MarkBoard: An Efficient Black-box Watermarking Approach for Large-scale Model Distribution [14.60627694687767]
本稿では,効率的な透かし手法であるHot-Swap MarkBoardを提案する。ユーザ固有の$n$-bitバイナリシグネチャを、独立して複数の透かしを埋め込むことでエンコードする。この方法はブラックボックス検証をサポートし、様々なモデルアーキテクチャと互換性がある。
論文参考訳（メタデータ） (2025-07-28T09:14:21Z)
Optimization-Free Universal Watermark Forgery with Regenerative Diffusion Models [50.73220224678009]
ウォーターマーキングは、人工知能モデルによって生成された合成画像の起源を検証するために使用できる。近年の研究では, 対象画像から表層画像への透かしを, 対角的手法を用いてフォージできることが示されている。本稿では,最適化フリーで普遍的な透かし偽造のリスクが大きいことを明らかにする。我々のアプローチは攻撃範囲を大きく広げ、現在の透かし技術の安全性により大きな課題をもたらす。
論文参考訳（メタデータ） (2025-06-06T12:08:02Z)
Can you Finetune your Binoculars? Embedding Text Watermarks into the Weights of Large Language Models [33.051248579713736]
人間のテキストからAIが生成したコンテンツの識別不可能は、透明性と説明責任の課題を提起する。本稿では,テキスト生成モデルとして機能し,また検出器として機能する,モデルの低ランクアダプタのペアを微調整する戦略を提案する。このように、透かし戦略はエンドツーエンドで完全に学習される。
論文参考訳（メタデータ） (2025-04-08T21:34:02Z)
Provably Robust Watermarks for Open-Source Language Models [5.509756888700397]
オープンソースの言語モデルに対する最初の透かし方式を紹介する。我々のスキームはモデルのパラメータを変更することで機能するが、透かしはモデルの出力だけから検出できる。おそらく驚くべきことに、我々の透かしは敵の知識に関する特定の仮定の下では取り除けないことを証明している。
論文参考訳（メタデータ） (2024-10-24T15:44:34Z)
Robustness of Watermarking on Text-to-Image Diffusion Models [9.277492743469235]
本稿では,透かし埋め込みとテキスト・ツー・イメージ・ジェネレーション処理を統合することで生成する透かしの堅牢性について検討する。生成型透かし法は, 識別器による攻撃やエッジ予測に基づく攻撃のエッジ情報に基づく操作など, 直接回避攻撃に対して堅牢であるが, 悪意のある微調整には脆弱であることがわかった。
論文参考訳（メタデータ） (2024-08-04T13:59:09Z)
AquaLoRA: Toward White-box Protection for Customized Stable Diffusion Models via Watermark LoRA [67.68750063537482]
拡散モデルは高品質な画像の生成において顕著な成功を収めた。最近の研究は、SDモデルがポストホック法医学のための透かし付きコンテンツを出力できるようにすることを目的としている。このシナリオにおける最初の実装としてtextttmethod を提案する。
論文参考訳（メタデータ） (2024-05-18T01:25:47Z)
ModelShield: Adaptive and Robust Watermark against Model Extraction Attack [58.46326901858431]
大規模言語モデル(LLM)は、さまざまな機械学習タスクにまたがる汎用インテリジェンスを示す。敵はモデル抽出攻撃を利用してモデル生成で符号化されたモデルインテリジェンスを盗むことができるウォーターマーキング技術は、モデル生成コンテンツにユニークな識別子を埋め込むことによって、このような攻撃を防御する有望なソリューションを提供する。
論文参考訳（メタデータ） (2024-05-03T06:41:48Z)
Wide Flat Minimum Watermarking for Robust Ownership Verification of GANs [23.639074918667625]
ホワイトボックス攻撃に対するロバスト性を向上したGANのための新しいマルチビット・ボックスフリー透かし手法を提案する。透かしは、GANトレーニング中に余分な透かし損失項を追加することで埋め込む。その結果,透かしの存在が画像の品質に与える影響は無視できることがわかった。
論文参考訳（メタデータ） (2023-10-25T18:38:10Z)
Unbiased Watermark for Large Language Models [67.43415395591221]
本研究では, モデル生成出力の品質に及ぼす透かしの影響について検討した。出力確率分布に影響を与えることなく、透かしを統合することができる。ウォーターマークの存在は、下流タスクにおけるモデルの性能を損なうものではない。
論文参考訳（メタデータ） (2023-09-22T12:46:38Z)
Towards Robust Model Watermark via Reducing Parametric Vulnerability [57.66709830576457]
バックドアベースのオーナシップ検証が最近人気となり,モデルオーナがモデルをウォーターマークすることが可能になった。本研究では,これらの透かし除去モデルを発見し,それらの透かし挙動を復元するミニマックス定式化を提案する。本手法は,パラメトリックな変化と多数のウォーターマーク除去攻撃に対するモデル透かしの堅牢性を向上させる。
論文参考訳（メタデータ） (2023-09-09T12:46:08Z)
Fine-tuning Is Not Enough: A Simple yet Effective Watermark Removal Attack for DNN Models [72.9364216776529]
我々は異なる視点から新しい透かし除去攻撃を提案する。我々は、知覚不可能なパターン埋め込みと空間レベルの変換を組み合わせることで、単純だが強力な変換アルゴリズムを設計する。我々の攻撃は、非常に高い成功率で最先端の透かしソリューションを回避できる。
論文参考訳（メタデータ） (2020-09-18T09:14:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。