論文の概要: Cross-Lingual Summarization as a Black-Box Watermark Removal Attack
- arxiv url: http://arxiv.org/abs/2510.24789v1
- Date: Mon, 27 Oct 2025 06:55:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:44.492488
- Title: Cross-Lingual Summarization as a Black-Box Watermark Removal Attack
- Title(参考訳): ブラックボックス型透かし除去攻撃としての言語横断要約
- Authors: Gokul Ganesan,
- Abstract要約: 言語間の要約攻撃は質的に強い攻撃ベクトルを構成する。
CLSAはモノリンガルパラフレーズよりも効果的な透かし検出精度を低下させる。
結果は、言語を横断し、可視的アーティファクトなしでコンテンツを圧縮する実用的で低コストな除去経路を強調している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Watermarking has been proposed as a lightweight mechanism to identify AI-generated text, with schemes typically relying on perturbations to token distributions. While prior work shows that paraphrasing can weaken such signals, these attacks remain partially detectable or degrade text quality. We demonstrate that cross-lingual summarization attacks (CLSA) -- translation to a pivot language followed by summarization and optional back-translation -- constitute a qualitatively stronger attack vector. By forcing a semantic bottleneck across languages, CLSA systematically destroys token-level statistical biases while preserving semantic fidelity. In experiments across multiple watermarking schemes (KGW, SIR, XSIR, Unigram) and five languages (Amharic, Chinese, Hindi, Spanish, Swahili), we show that CLSA reduces watermark detection accuracy more effectively than monolingual paraphrase at similar quality levels. Our results highlight an underexplored vulnerability that challenges the practicality of watermarking for provenance or regulation. We argue that robust provenance solutions must move beyond distributional watermarking and incorporate cryptographic or model-attestation approaches. On 300 held-out samples per language, CLSA consistently drives detection toward chance while preserving task utility. Concretely, for XSIR (explicitly designed for cross-lingual robustness), AUROC with paraphrasing is $0.827$, with Cross-Lingual Watermark Removal Attacks (CWRA) [He et al., 2024] using Chinese as the pivot, it is $0.823$, whereas CLSA drives it down to $0.53$ (near chance). Results highlight a practical, low-cost removal pathway that crosses languages and compresses content without visible artifacts.
- Abstract(参考訳): 透かしはAI生成したテキストを識別するための軽量なメカニズムとして提案されている。
以前の研究では、パラフレーズ化はそのようなシグナルを弱める可能性があるが、これらの攻撃は部分的に検出可能か、テキストの品質を低下させる可能性がある。
我々は,言語間要約攻撃 (CLSA) が定性的に強い攻撃ベクトルであることを示す。
言語間の意味的ボトルネックを強制することにより、CLSAは意味的忠実性を維持しながらトークンレベルの統計バイアスを体系的に破壊する。
複数の透かしスキーム(KGW, SIR, XSIR, Unigram)と5つの言語(アムハラ語,中国語,ヒンディー語,スペイン語,スワヒリ語)にまたがる実験において,CLSAは同一品質のモノリンガルパラフレーズよりも効果的な透かし検出精度を低下させることを示した。
以上の結果から,実証や規制のために透かしの実用性に挑戦する未発見の脆弱性が浮かび上がっている。
我々は、ロバストな証明ソリューションは、分散透かしを超えて、暗号やモデル検証のアプローチを取り入れなければならないと論じている。
言語毎の300のホールドアウトサンプルでは、CLSAはタスクユーティリティを保持しながら、常にチャンスに対する検出を駆動する。
具体的には、XSIR(特別に言語間の堅牢性のために設計された)の場合、AUROCのパラフレーズは0.827ドルであり、中国をピボットとするクロスリンガル・ウォーターマーク除去攻撃(CWRA)[He et al , 2024]は0.823ドル、CLSAは0.53ドルである。
結果は、言語を横断し、可視的アーティファクトなしでコンテンツを圧縮する実用的で低コストな除去経路を強調している。
関連論文リスト
- An Ensemble Framework for Unbiased Language Model Watermarking [60.99969104552168]
本研究では,アンサンブル・フレームワークであるENSを提案する。
ENSは複数の独立した透かしインスタンスを順次構成し、それぞれ異なるキーによって管理され、透かし信号を増幅する。
実験的な評価では、ENSは信頼できる検出に必要なトークンの数を大幅に減らし、平滑化やパラフレージング攻撃に対する耐性を高めている。
論文 参考訳(メタデータ) (2025-09-28T19:37:44Z) - LLM Watermark Evasion via Bias Inversion [24.543675977310357]
本稿では,理論的動機付けとモデルに依存しないemphBias-Inversion Rewriting Attack (BIRA)を提案する。
BIRAは、下層の透かし方式を知らずに書き直し中に、おそらく透かしのトークンのロジットを抑えることで透かし信号を弱める。
論文 参考訳(メタデータ) (2025-09-27T00:24:57Z) - Character-Level Perturbations Disrupt LLM Watermarks [64.60090923837701]
我々は,Large Language Model (LLM)ウォーターマーキングのためのシステムモデルを定式化する。
我々は、透かし検出器への限られたアクセスに制約された2つの現実的な脅威モデルの特徴付けを行う。
我々は,最も制限的な脅威モデルの下で,キャラクタレベルの摂動が透かし除去に著しく有効であることを実証した。
現実的な制約下での透かし除去における文字レベルの摂動の優位性と遺伝的アルゴリズム(GA)の有効性を実験的に検証した。
論文 参考訳(メタデータ) (2025-09-11T02:50:07Z) - Can Watermarks Survive Translation? On the Cross-lingual Consistency of Text Watermark for Large Language Models [48.409979469683975]
テキスト透かしにおける言語間整合性の概念を紹介する。
予備的な実証実験の結果、現在のテキスト透かし技術は、テキストが様々な言語に翻訳されるときに一貫性が欠如していることが判明した。
透かしを回避するための言語横断型透かし除去攻撃(CWRA)を提案する。
論文 参考訳(メタデータ) (2024-02-21T18:48:38Z) - Unlikelihood Tuning on Negative Samples Amazingly Improves Zero-Shot
Translation [79.96416609433724]
Zero-shot Translation (ZST)は、トレーニングデータにおいて、目に見えない言語ペア間の翻訳を目的としている。
推論中にゼロショット言語マッピングをガイドする一般的な方法は、ソースとターゲット言語IDを意図的に挿入することである。
近年の研究では、言語IDが時折ZSTタスクのナビゲートに失敗し、ターゲット外問題に悩まされることが示されている。
論文 参考訳(メタデータ) (2023-09-28T17:02:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。