論文の概要: Adversarial Watermarking Transformer: Towards Tracing Text Provenance
with Data Hiding
- arxiv url: http://arxiv.org/abs/2009.03015v2
- Date: Mon, 29 Mar 2021 12:21:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-21 02:29:31.501698
- Title: Adversarial Watermarking Transformer: Towards Tracing Text Provenance
with Data Hiding
- Title(参考訳): adversarial watermarking transformer: データ隠蔽によるテキスト生成の追跡に向けて
- Authors: Sahar Abdelnabi and Mario Fritz
- Abstract要約: 自然言語の透かしを防御として研究し,テキストの出所の発見と追跡に役立てる。
本稿では,適応型透かし変換器(AWT)とエンコーダ・デコーダ・デコーダを併用した対向型透かし変換器(AWT)について述べる。
AWTは、テキストにデータを隠蔽する最初のエンドツーエンドモデルである。
- 参考スコア(独自算出の注目度): 80.3811072650087
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in natural language generation have introduced powerful
language models with high-quality output text. However, this raises concerns
about the potential misuse of such models for malicious purposes. In this
paper, we study natural language watermarking as a defense to help better mark
and trace the provenance of text. We introduce the Adversarial Watermarking
Transformer (AWT) with a jointly trained encoder-decoder and adversarial
training that, given an input text and a binary message, generates an output
text that is unobtrusively encoded with the given message. We further study
different training and inference strategies to achieve minimal changes to the
semantics and correctness of the input text.
AWT is the first end-to-end model to hide data in text by automatically
learning -- without ground truth -- word substitutions along with their
locations in order to encode the message. We empirically show that our model is
effective in largely preserving text utility and decoding the watermark while
hiding its presence against adversaries. Additionally, we demonstrate that our
method is robust against a range of attacks.
- Abstract(参考訳): 自然言語生成の最近の進歩は、高品質な出力テキストを持つ強力な言語モデルを導入している。
しかし、これは悪意ある目的のためにそのようなモデルの潜在的な誤用を懸念する。
本稿では,テキストの出所を識別し追跡するために,自然言語の透かしを防御として研究する。
本稿では,入力テキストとバイナリメッセージが与えられた場合,そのメッセージに不明瞭にエンコードされた出力テキストを生成する,共訓練されたエンコーダ・デコーダと,逆訓練とを併用したadversarial watermarking transformer(awt)を提案する。
さらに,入力テキストの意味と正確性に対する変化を最小限に抑えるために,異なる学習戦略と推論戦略についても検討した。
awtは、メッセージのエンコードのために、単語の置換と共に -- 根拠のない -- 自動的に学習することによって、テキストにデータを隠蔽する最初のエンドツーエンドモデルである。
実験により,本モデルは,テキストユーティリティのほとんどを保存し,その存在を敵に隠して,透かしの復号化に有効であることを示した。
さらに,本手法は様々な攻撃に対して堅牢であることを示す。
関連論文リスト
- Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - Adaptive Text Watermark for Large Language Models [9.569222603139332]
プロンプトやモデルの知識を必要とせずに、強力なセキュリティ、堅牢性、および透かしを検出する能力を維持しつつ、高品質な透かしテキストを生成することは困難である。
本稿では,この問題に対処するための適応型透かし手法を提案する。
論文 参考訳(メタデータ) (2024-01-25T03:57:12Z) - Improving the Generation Quality of Watermarked Large Language Models
via Word Importance Scoring [81.62249424226084]
トークンレベルの透かしは、トークン確率分布を変更して生成されたテキストに透かしを挿入する。
この透かしアルゴリズムは、生成中のロジットを変化させ、劣化したテキストの品質につながる可能性がある。
We propose to improve the quality of texts generated by a watermarked language model by Watermarking with Importance Scoring (WIS)。
論文 参考訳(メタデータ) (2023-11-16T08:36:00Z) - Watermarking Conditional Text Generation for AI Detection: Unveiling
Challenges and a Semantic-Aware Watermark Remedy [52.765898203824975]
本研究では,条件付きテキスト生成と入力コンテキストの特性を考慮した意味認識型透かしアルゴリズムを提案する。
実験結果から,提案手法は様々なテキスト生成モデルに対して大幅な改善をもたらすことが示された。
論文 参考訳(メタデータ) (2023-07-25T20:24:22Z) - DeepTextMark: A Deep Learning-Driven Text Watermarking Approach for
Identifying Large Language Model Generated Text [1.249418440326334]
テキストが人間によって書かれたものなのか、あるいはLarge Language Modelsによって生成されたものなのかを識別することの重要性が最重要になっている。
DeepTextMarkは、テキスト生成フレームワークに対して実行可能な"アドオン"ソリューションを提供する。
実験による評価は,DeepTextMarkの非知覚性,検出精度の向上,堅牢性の向上,信頼性の向上,迅速な実行を裏付けるものである。
論文 参考訳(メタデータ) (2023-05-09T21:31:07Z) - Can AI-Generated Text be Reliably Detected? [54.670136179857344]
LLMの規制されていない使用は、盗作、偽ニュースの生成、スパムなど、悪意のある結果をもたらす可能性がある。
最近の研究は、生成されたテキスト出力に存在する特定のモデルシグネチャを使用するか、透かし技術を適用してこの問題に対処しようとしている。
本稿では,これらの検出器は実用シナリオにおいて信頼性が低いことを示す。
論文 参考訳(メタデータ) (2023-03-17T17:53:19Z) - Tracing Text Provenance via Context-Aware Lexical Substitution [81.49359106648735]
文脈を考慮した語彙置換に基づく自然言語透かし方式を提案する。
主観的および主観的尺度の両面において,我々の透かし方式は原文の意味的整合性を十分に維持することができる。
論文 参考訳(メタデータ) (2021-12-15T04:27:33Z) - Generating Natural Language Adversarial Examples on a Large Scale with
Generative Models [41.85006993382117]
生成モデルを用いて,テキストをスクラッチから効率的に生成するエンド・ツー・エンド・ソリューションを提案する。
具体的には,条件付き変分オートエンコーダを訓練し,さらに逆転損失を加えて,逆転例の生成を誘導する。
敵対的テキストの妥当性を向上させるために,識別器と生成的敵対的ネットワークの訓練枠組みを利用する。
論文 参考訳(メタデータ) (2020-03-10T03:21:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。