論文の概要: Watermark Robustness and Radioactivity May Be at Odds in Federated Learning
- arxiv url: http://arxiv.org/abs/2510.17033v1
- Date: Sun, 19 Oct 2025 22:39:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.256277
- Title: Watermark Robustness and Radioactivity May Be at Odds in Federated Learning
- Title(参考訳): ウォーターマークのロバスト性と放射能は、フェデレートラーニングの難題かもしれない
- Authors: Leixu Huang, Zedian Shao, Teodora Baluta,
- Abstract要約: フェデレートラーニング(FL)は、分散データソースをまたいだ大規模言語モデル(LLM)の微調整を可能にする。
我々は、クライアントのサブセットがウォーターマークされたデータのローカル更新を計算し、サーバがグローバルLLMへのすべての更新を平均化するFLにおけるデータ証明に透かしを適用する。
私たちの研究は、放射能、堅牢性、実用性の間の根本的なトレードオフを示唆している。
- 参考スコア(独自算出の注目度): 3.6503955888587245
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Federated learning (FL) enables fine-tuning large language models (LLMs) across distributed data sources. As these sources increasingly include LLM-generated text, provenance tracking becomes essential for accountability and transparency. We adapt LLM watermarking for data provenance in FL where a subset of clients compute local updates on watermarked data, and the server averages all updates into the global LLM. In this setup, watermarks are radioactive: the watermark signal remains detectable after fine-tuning with high confidence. The $p$-value can reach $10^{-24}$ even when as little as $6.6\%$ of data is watermarked. However, the server can act as an active adversary that wants to preserve model utility while evading provenance tracking. Our observation is that updates induced by watermarked synthetic data appear as outliers relative to non-watermark updates. Our adversary thus applies strong robust aggregation that can filter these outliers, together with the watermark signal. All evaluated radioactive watermarks are not robust against such an active filtering server. Our work suggests fundamental trade-offs between radioactivity, robustness, and utility.
- Abstract(参考訳): フェデレートラーニング(FL)は、分散データソースをまたいだ大規模言語モデル(LLM)の微調整を可能にする。
これらの資料にはLLM生成テキストが含まれているため、説明責任と透明性には前兆追跡が不可欠である。
クライアントのサブセットが透かし付きデータのローカル更新を計算し、サーバがグローバルなLLMへのすべての更新を平均化するFLにおけるデータ証明にLLM透かしを適用する。
この設定では、透かしは放射性であり、透かし信号は信頼性の高い微調整後に検出可能である。
p$-value は、わずか 6.6 % のデータがウォーターマークされている場合でも 10^{-24}$ に達することができる。
しかし、サーバは、実績追跡を避けながらモデルユーティリティを保存したいアクティブな敵として振る舞うことができる。
我々の観察では、透かし付き合成データによって引き起こされた更新は、非透かし更新と比較して外れ値として現れる。
したがって、我々の敵は強い強靭なアグリゲーションを施し、透かし信号とともにこれらの外乱をフィルタリングすることができる。
評価されたすべての放射性透かしは、このようなアクティブなフィルタリングサーバに対して堅牢ではない。
私たちの研究は、放射能、堅牢性、実用性の間の根本的なトレードオフを示唆している。
関連論文リスト
- Leave No TRACE: Black-box Detection of Copyrighted Dataset Usage in Large Language Models via Watermarking [51.74368870268278]
我々は,大規模な言語モデルにおける著作権付きデータセット使用量を完全にブラックボックスで検出するフレームワークであるTRACEを提案する。
textttTRACEは、プライベートキーでガイドされた歪みのない透かしでデータセットを書き換える。
さまざまなデータセットとモデルファミリにわたって、TRACEは一貫して重要な検出を実現している。
論文 参考訳(メタデータ) (2025-10-03T12:53:02Z) - Can LLM Watermarks Robustly Prevent Unauthorized Knowledge Distillation? [75.99961894619986]
本稿では,学生モデルが知識蒸留により,透かしの継承を回避しつつ,教師モデルの能力を獲得することができるかどうかを考察する。
本稿では,未ターゲットおよび目標とするトレーニングデータパラフレージング(UP,TP)による蒸留前除去と,推論時透かし中和(WN)による蒸留後除去の2つのカテゴリを提案する。
論文 参考訳(メタデータ) (2025-02-17T09:34:19Z) - Watermarking Makes Language Models Radioactive [24.123479478427594]
言語モデルが合成データに基づいて訓練されたかどうかを、透かしのLLMによって出力された場合、確実に判断することが可能である。
放射能を専門とする我々の新しい手法は、透かし信号の弱い残差を証明可能な信頼性で検出する。
例えば、被疑者モデルがオープンウェイトであれば、透かしによる訓練を高い信頼性で検出できることが示される。
論文 参考訳(メタデータ) (2024-02-22T18:55:22Z) - Proving membership in LLM pretraining data via data watermarks [20.57538940552033]
この研究は、ブラックボックスモデルアクセスのみで原則付き検出を可能にするために、データ透かしを使うことを提案する。
ランダムなシーケンスを挿入する2つの透かしと、Unicodeに似た文字をランダムに置換する2つの透かしについて検討する。
BLOOM-176Bのトレーニングデータから,少なくとも90回はハッシュを確実に検出できることを示す。
論文 参考訳(メタデータ) (2024-02-16T18:49:27Z) - Turning Your Strength into Watermark: Watermarking Large Language Model via Knowledge Injection [66.26348985345776]
本稿では,知識注入に基づく大規模言語モデル(LLM)のための新しい透かし手法を提案する。
透かし埋め込みの段階では、まず選択した知識に透かしを埋め込んで、透かし付き知識を得る。
透かし抽出段階では、疑わしいLLMを問うために、透かし付き知識に関する質問を設計する。
実験により, 透かし抽出の成功率は100%近くであり, 提案手法の有効性, 忠実性, ステルス性, 堅牢性を示した。
論文 参考訳(メタデータ) (2023-11-16T03:22:53Z) - A Resilient and Accessible Distribution-Preserving Watermark for Large Language Models [65.40460716619772]
本研究は,textbfDistribution-textbf Preserving (DiP)ウォーターマークの重要性に焦点をあてる。
現在の戦略とは対照的に,提案したDiPmarkは透かし中に元のトークン分布を同時に保存する。
言語モデルAPIにアクセスせずに検出可能で(アクセス可能)、トークンの適度な変更に対して確実に堅牢である。
論文 参考訳(メタデータ) (2023-10-11T17:57:35Z) - Unbiased Watermark for Large Language Models [67.43415395591221]
本研究では, モデル生成出力の品質に及ぼす透かしの影響について検討した。
出力確率分布に影響を与えることなく、透かしを統合することができる。
ウォーターマークの存在は、下流タスクにおけるモデルの性能を損なうものではない。
論文 参考訳(メタデータ) (2023-09-22T12:46:38Z) - On the Effectiveness of Dataset Watermarking in Adversarial Settings [14.095584034871658]
機械学習(ML)モデルのトレーニングに使用される(画像)データセットのオーナシップを実証するために,提案手法である放射能データについて検討する。
本研究では, 放射能データによるモデル抽出攻撃を効果的に回避できることを示し, モデル抽出に対して頑健なMLモデルのオーナシップ検証に使用できる可能性を示した。
論文 参考訳(メタデータ) (2022-02-25T05:51:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。