論文の概要: Is Multilingual LLM Watermarking Truly Multilingual? A Simple Back-Translation Solution
- arxiv url: http://arxiv.org/abs/2510.18019v1
- Date: Mon, 20 Oct 2025 18:51:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.524951
- Title: Is Multilingual LLM Watermarking Truly Multilingual? A Simple Back-Translation Solution
- Title(参考訳): マルチリンガルLLM透かしは真のマルチリンガルか?
- Authors: Asim Mohamed, Martin Gubri,
- Abstract要約: 既存の多言語透かし手法は,中・低リソース言語における翻訳攻撃下では頑健に保たないことを示す。
本稿では,翻訳によって失われた透かしの強度を復元する逆翻訳に基づく検出手法であるSTEAMを紹介する。
STEAMはあらゆる透かしメソッドと互換性があり、異なるトークンや言語にまたがって堅牢であり、非侵襲的で、新しい言語に容易に拡張可能である。
- 参考スコア(独自算出の注目度): 3.9082875522676392
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multilingual watermarking aims to make large language model (LLM) outputs traceable across languages, yet current methods still fall short. Despite claims of cross-lingual robustness, they are evaluated only on high-resource languages. We show that existing multilingual watermarking methods are not truly multilingual: they fail to remain robust under translation attacks in medium- and low-resource languages. We trace this failure to semantic clustering, which fails when the tokenizer vocabulary contains too few full-word tokens for a given language. To address this, we introduce STEAM, a back-translation-based detection method that restores watermark strength lost through translation. STEAM is compatible with any watermarking method, robust across different tokenizers and languages, non-invasive, and easily extendable to new languages. With average gains of +0.19 AUC and +40%p TPR@1% on 17 languages, STEAM provides a simple and robust path toward fairer watermarking across diverse languages.
- Abstract(参考訳): 多言語透かしは、言語間でトレース可能な大規模言語モデル(LLM)出力を実現することを目的としているが、現在のメソッドはまだ不足している。
言語間の堅牢性の主張にもかかわらず、これらは高リソース言語でのみ評価される。
既存の多言語透かし方式は,中・低リソース言語における翻訳攻撃下では頑健に保たない。
我々は、この失敗をセマンティッククラスタリングに遡るが、これは、トークン化語彙が与えられた言語にフルワードトークンを多すぎる場合に失敗する。
そこで本稿では,翻訳によって失われた透かしの強度を復元するバックトランスレーションに基づく検出手法であるSTEAMを紹介する。
STEAMはあらゆる透かしメソッドと互換性があり、異なるトークンや言語にまたがって堅牢であり、非侵襲的で、新しい言語に容易に拡張可能である。
STEAMは17言語で平均+0.19 AUCと+40%p TPR@1%のゲインを持つため、多様な言語でより公平な透かしを行うためのシンプルで堅牢なパスを提供する。
関連論文リスト
- Breaking the Script Barrier in Multilingual Pre-Trained Language Models with Transliteration-Based Post-Training Alignment [50.27950279695363]
転送性能は、低リソースのターゲット言語が高リソースのソース言語とは異なるスクリプトで書かれている場合、しばしば妨げられる。
本論文は,この問題に対処するために翻訳を用いた最近の研究に触発されて,翻訳に基づくポストプレトレーニングアライメント(PPA)手法を提案する。
論文 参考訳(メタデータ) (2024-06-28T08:59:24Z) - Can Watermarks Survive Translation? On the Cross-lingual Consistency of Text Watermark for Large Language Models [48.409979469683975]
テキスト透かしにおける言語間整合性の概念を紹介する。
予備的な実証実験の結果、現在のテキスト透かし技術は、テキストが様々な言語に翻訳されるときに一貫性が欠如していることが判明した。
透かしを回避するための言語横断型透かし除去攻撃(CWRA)を提案する。
論文 参考訳(メタデータ) (2024-02-21T18:48:38Z) - Romanization-based Large-scale Adaptation of Multilingual Language
Models [124.57923286144515]
大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。
我々は、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータとパラメータ効率の戦略を多数検討し、比較した。
以上の結果から, UROMAN をベースとしたトランスリテラルは,多くの言語で高い性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-04-18T09:58:34Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。