Fugu-MT 論文翻訳(概要): Tracing Text Provenance via Context-Aware Lexical Substitution

論文の概要: Tracing Text Provenance via Context-Aware Lexical Substitution

arxiv url: http://arxiv.org/abs/2112.07873v1
Date: Wed, 15 Dec 2021 04:27:33 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-16 15:10:11.713933
Title: Tracing Text Provenance via Context-Aware Lexical Substitution
Title（参考訳）: context-aware lexical replacement によるテキスト生成のトレース
Authors: Xi Yang, Jie Zhang, Kejiang Chen, Weiming Zhang, Zehua Ma, Feng Wang, Nenghai Yu
Abstract要約: 文脈を考慮した語彙置換に基づく自然言語透かし方式を提案する。主観的および主観的尺度の両面において,我々の透かし方式は原文の意味的整合性を十分に維持することができる。
参考スコア（独自算出の注目度）: 81.49359106648735
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Text content created by humans or language models is often stolen or misused by adversaries. Tracing text provenance can help claim the ownership of text content or identify the malicious users who distribute misleading content like machine-generated fake news. There have been some attempts to achieve this, mainly based on watermarking techniques. Specifically, traditional text watermarking methods embed watermarks by slightly altering text format like line spacing and font, which, however, are fragile to cross-media transmissions like OCR. Considering this, natural language watermarking methods represent watermarks by replacing words in original sentences with synonyms from handcrafted lexical resources (e.g., WordNet), but they do not consider the substitution's impact on the overall sentence's meaning. Recently, a transformer-based network was proposed to embed watermarks by modifying the unobtrusive words (e.g., function words), which also impair the sentence's logical and semantic coherence. Besides, one well-trained network fails on other different types of text content. To address the limitations mentioned above, we propose a natural language watermarking scheme based on context-aware lexical substitution (LS). Specifically, we employ BERT to suggest LS candidates by inferring the semantic relatedness between the candidates and the original sentence. Based on this, a selection strategy in terms of synchronicity and substitutability is further designed to test whether a word is exactly suitable for carrying the watermark signal. Extensive experiments demonstrate that, under both objective and subjective metrics, our watermarking scheme can well preserve the semantic integrity of original sentences and has a better transferability than existing methods. Besides, the proposed LS approach outperforms the state-of-the-art approach on the Stanford Word Substitution Benchmark.
Abstract（参考訳）: 人間や言語モデルによって作成されたテキストコンテンツは、しばしば敵によって盗まれ、誤用される。テキスト証明の追跡は、テキストコンテンツの所有権を主張したり、マシン生成のフェイクニュースのような誤解を招くコンテンツを配布する悪意のあるユーザーを特定するのに役立つ。これを達成しようとする試みは、主に透かし技術に基づいている。特に、従来のテキスト透かし法は、行間隔やフォントなどのテキストフォーマットを少し変更することで透かしを埋め込むが、ocrのようなクロスメディア伝送には脆弱である。これを考慮すると、自然言語の透かし法は、原文中の単語を手作り語彙資源(例えばWordNet)の同義語に置き換えることによって透かしを表すが、それらが全体文の意味に与える影響を考慮していない。近年, 文の論理的・意味的一貫性を損なう不明瞭な単語(例えば関数語)を修飾することにより, 透かしを埋め込むトランスフォーマーネットワークが提案されている。さらに、訓練されたネットワークは、他の異なるタイプのテキストコンテンツで失敗する。上記の制限に対処するため,文脈対応語彙置換(LS)に基づく自然言語透かし方式を提案する。具体的には、候補と原文間の意味的関連性を推定することにより、LS候補を提案するためにBERTを用いる。これに基づいて、シンクロシティと置換性の観点から選択戦略を設計し、単語が透かし信号を運ぶのに適切かどうかを検証する。客観的および主観的尺度の両面において,我々の透かし方式は,原文の意味的整合性を十分に保ち,既存手法よりも伝達性が高いことを示す。さらに、提案したLSアプローチは、スタンフォード語置換ベンチマークにおける最先端のアプローチよりも優れている。

関連論文リスト

Defending LLM Watermarking Against Spoofing Attacks with Contrastive Representation Learning [34.76886510334969]
ピギーバック攻撃は、元々の透かしを保ったままのヘイトスピーチに変換する透かしテキストの意味を悪意的に変更することができる。そこで本稿では,元来の意味を保ちつつ,与えられた目標テキストに透かしを埋め込む意味認識型透かしアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-04-09T04:38:17Z)
DERMARK: A Dynamic, Efficient and Robust Multi-bit Watermark for Large Language Models [18.023143082876015]
テキストを各ウォーターマークビットに対して可変長セグメントに分割する動的で効率的で堅牢なマルチビット透かし法を提案する。本手法は,埋め込みビット当たりのトークン数を25%削減し,透かし埋め込み時間を50%削減し,テキスト修正や透かし消去攻撃に対して高い堅牢性を維持する。
論文参考訳（メタデータ） (2025-02-04T11:23:49Z)
Can Watermarks Survive Translation? On the Cross-lingual Consistency of Text Watermark for Large Language Models [48.409979469683975]
テキスト透かしにおける言語間整合性の概念を紹介する。予備的な実証実験の結果、現在のテキスト透かし技術は、テキストが様々な言語に翻訳されるときに一貫性が欠如していることが判明した。透かしを回避するための言語横断型透かし除去攻撃(CWRA)を提案する。
論文参考訳（メタデータ） (2024-02-21T18:48:38Z)
Provably Robust Multi-bit Watermarking for AI-generated Text [37.21416140194606]
大規模言語モデル(LLM)は、人間の言語に似たテキストを生成する顕著な能力を示した。犯罪者が偽ニュースやフィッシングメールなどの偽装コンテンツを作成するために悪用することもある。ウォーターマーキングはこれらの懸念に対処するための重要なテクニックであり、メッセージをテキストに埋め込む。
論文参考訳（メタデータ） (2024-01-30T08:46:48Z)
WatME: Towards Lossless Watermarking Through Lexical Redundancy [58.61972059246715]
本研究では,認知科学レンズを用いた大規模言語モデル(LLM)の異なる機能に対する透かしの効果を評価する。透かしをシームレスに統合するための相互排他型透かし(WatME)を導入する。
論文参考訳（メタデータ） (2023-11-16T11:58:31Z)
A Robust Semantics-based Watermark for Large Language Model against Paraphrasing [50.84892876636013]
大規模言語モデル(LLM)は、様々な自然言語処理において優れた能力を示している。 LLMは不適切にも違法にも使用できるという懸念がある。本稿ではセマンティクスに基づく透かしフレームワークSemaMarkを提案する。
論文参考訳（メタデータ） (2023-11-15T06:19:02Z)
SemStamp: A Semantic Watermark with Paraphrastic Robustness for Text Generation [72.10931780019297]
既存の透かしアルゴリズムはトークンレベルの設計のため、パラフレーズ攻撃に弱い。局所性に敏感なハッシュ(LSH)に基づく頑健な文レベルのセマンティック透かしアルゴリズムSemStampを提案する。実験結果から,本アルゴリズムは従来手法に比べて,従来手法よりも頑健であるだけでなく,生成品質の維持にも有効であることが示唆された。
論文参考訳（メタデータ） (2023-10-06T03:33:42Z)
Towards Codable Watermarking for Injecting Multi-bits Information to LLMs [86.86436777626959]
大規模言語モデル(LLM)は、流布とリアリズムを増大させるテキストを生成する。既存の透かし方式はエンコーディング非効率であり、多様な情報エンコーディングニーズに柔軟に対応できない。テキスト透かしを複数ビットでカスタマイズ可能な情報を運ぶことができるCTWL (Codable Text Watermarking for LLMs) を提案する。
論文参考訳（メタデータ） (2023-07-29T14:11:15Z)
Watermarking Text Generated by Black-Box Language Models [103.52541557216766]
テキスト生成中に透かしを埋め込むことのできるホワイトボックスLCMに対して,透かしに基づく手法が提案されている。リストを認識した検出アルゴリズムは、透かし付きテキストを識別することができる。我々はブラックボックス言語モデル利用シナリオのための透かしフレームワークを開発する。
論文参考訳（メタデータ） (2023-05-14T07:37:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。