論文の概要: Adversarial Watermarking Transformer: Towards Tracing Text Provenance
with Data Hiding
- arxiv url: http://arxiv.org/abs/2009.03015v2
- Date: Mon, 29 Mar 2021 12:21:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-21 02:29:31.501698
- Title: Adversarial Watermarking Transformer: Towards Tracing Text Provenance
with Data Hiding
- Title(参考訳): adversarial watermarking transformer: データ隠蔽によるテキスト生成の追跡に向けて
- Authors: Sahar Abdelnabi and Mario Fritz
- Abstract要約: 自然言語の透かしを防御として研究し,テキストの出所の発見と追跡に役立てる。
本稿では,適応型透かし変換器(AWT)とエンコーダ・デコーダ・デコーダを併用した対向型透かし変換器(AWT)について述べる。
AWTは、テキストにデータを隠蔽する最初のエンドツーエンドモデルである。
- 参考スコア(独自算出の注目度): 80.3811072650087
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in natural language generation have introduced powerful
language models with high-quality output text. However, this raises concerns
about the potential misuse of such models for malicious purposes. In this
paper, we study natural language watermarking as a defense to help better mark
and trace the provenance of text. We introduce the Adversarial Watermarking
Transformer (AWT) with a jointly trained encoder-decoder and adversarial
training that, given an input text and a binary message, generates an output
text that is unobtrusively encoded with the given message. We further study
different training and inference strategies to achieve minimal changes to the
semantics and correctness of the input text.
AWT is the first end-to-end model to hide data in text by automatically
learning -- without ground truth -- word substitutions along with their
locations in order to encode the message. We empirically show that our model is
effective in largely preserving text utility and decoding the watermark while
hiding its presence against adversaries. Additionally, we demonstrate that our
method is robust against a range of attacks.
- Abstract(参考訳): 自然言語生成の最近の進歩は、高品質な出力テキストを持つ強力な言語モデルを導入している。
しかし、これは悪意ある目的のためにそのようなモデルの潜在的な誤用を懸念する。
本稿では,テキストの出所を識別し追跡するために,自然言語の透かしを防御として研究する。
本稿では,入力テキストとバイナリメッセージが与えられた場合,そのメッセージに不明瞭にエンコードされた出力テキストを生成する,共訓練されたエンコーダ・デコーダと,逆訓練とを併用したadversarial watermarking transformer(awt)を提案する。
さらに,入力テキストの意味と正確性に対する変化を最小限に抑えるために,異なる学習戦略と推論戦略についても検討した。
awtは、メッセージのエンコードのために、単語の置換と共に -- 根拠のない -- 自動的に学習することによって、テキストにデータを隠蔽する最初のエンドツーエンドモデルである。
実験により,本モデルは,テキストユーティリティのほとんどを保存し,その存在を敵に隠して,透かしの復号化に有効であることを示した。
さらに,本手法は様々な攻撃に対して堅牢であることを示す。
関連論文リスト
- Signal Watermark on Large Language Models [28.711745671275477]
本稿では,Large Language Models (LLMs) によるテキストに特定の透かしを埋め込む透かし手法を提案する。
この技術は、透かしが人間に見えないことを保証するだけでなく、モデル生成テキストの品質と文法的整合性も維持する。
提案手法は複数のLDMに対して実験的に検証され,高い検出精度を維持している。
論文 参考訳(メタデータ) (2024-10-09T04:49:03Z) - Detecting Machine-Generated Long-Form Content with Latent-Space Variables [54.07946647012579]
既存のゼロショット検出器は主に、現実世界のドメインシフトに弱いトークンレベルの分布に焦点を当てている。
本稿では,イベント遷移などの抽象的要素を機械対人文検出の鍵となる要因として組み込んだ,より堅牢な手法を提案する。
論文 参考訳(メタデータ) (2024-10-04T18:42:09Z) - Adaptive Text Watermark for Large Language Models [8.100123266517299]
プロンプトやモデルの知識を必要とせずに、強力なセキュリティ、堅牢性、および透かしを検出する能力を維持しつつ、高品質な透かしテキストを生成することは困難である。
本稿では,この問題に対処するための適応型透かし手法を提案する。
論文 参考訳(メタデータ) (2024-01-25T03:57:12Z) - Improving the Generation Quality of Watermarked Large Language Models
via Word Importance Scoring [81.62249424226084]
トークンレベルの透かしは、トークン確率分布を変更して生成されたテキストに透かしを挿入する。
この透かしアルゴリズムは、生成中のロジットを変化させ、劣化したテキストの品質につながる可能性がある。
We propose to improve the quality of texts generated by a watermarked language model by Watermarking with Importance Scoring (WIS)。
論文 参考訳(メタデータ) (2023-11-16T08:36:00Z) - Towards Codable Watermarking for Injecting Multi-bits Information to LLMs [86.86436777626959]
大規模言語モデル(LLM)は、流布とリアリズムを増大させるテキストを生成する。
既存の透かし方式はエンコーディング非効率であり、多様な情報エンコーディングニーズに柔軟に対応できない。
テキスト透かしを複数ビットでカスタマイズ可能な情報を運ぶことができるCTWL (Codable Text Watermarking for LLMs) を提案する。
論文 参考訳(メタデータ) (2023-07-29T14:11:15Z) - Watermarking Conditional Text Generation for AI Detection: Unveiling
Challenges and a Semantic-Aware Watermark Remedy [52.765898203824975]
本研究では,条件付きテキスト生成と入力コンテキストの特性を考慮した意味認識型透かしアルゴリズムを提案する。
実験結果から,提案手法は様々なテキスト生成モデルに対して大幅な改善をもたらすことが示された。
論文 参考訳(メタデータ) (2023-07-25T20:24:22Z) - DeepTextMark: A Deep Learning-Driven Text Watermarking Approach for
Identifying Large Language Model Generated Text [1.249418440326334]
テキストが人間によって書かれたものなのか、あるいはLarge Language Modelsによって生成されたものなのかを識別することの重要性が最重要になっている。
DeepTextMarkは、テキスト生成フレームワークに対して実行可能な"アドオン"ソリューションを提供する。
実験による評価は,DeepTextMarkの非知覚性,検出精度の向上,堅牢性の向上,信頼性の向上,迅速な実行を裏付けるものである。
論文 参考訳(メタデータ) (2023-05-09T21:31:07Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。