論文の概要: Bileve: Securing Text Provenance in Large Language Models Against Spoofing with Bi-level Signature
- arxiv url: http://arxiv.org/abs/2406.01946v3
- Date: Tue, 29 Oct 2024 04:12:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 13:37:32.889944
- Title: Bileve: Securing Text Provenance in Large Language Models Against Spoofing with Bi-level Signature
- Title(参考訳): Bileve: 双方向署名によるスポーフィングに対する大規模言語モデルにおけるテキストの保護
- Authors: Tong Zhou, Xuandong Zhao, Xiaolin Xu, Shaolei Ren,
- Abstract要約: 整合性チェックのための微細なシグネチャビットを埋め込んだバイレベルシグネチャスキームであるBileveを導入する。
Bileveは、検出中に5つのシナリオを区別し、テキストを確実にトレースし、LLMを制御する。
- 参考スコア(独自算出の注目度): 39.973130114073605
- License:
- Abstract: Text watermarks for large language models (LLMs) have been commonly used to identify the origins of machine-generated content, which is promising for assessing liability when combating deepfake or harmful content. While existing watermarking techniques typically prioritize robustness against removal attacks, unfortunately, they are vulnerable to spoofing attacks: malicious actors can subtly alter the meanings of LLM-generated responses or even forge harmful content, potentially misattributing blame to the LLM developer. To overcome this, we introduce a bi-level signature scheme, Bileve, which embeds fine-grained signature bits for integrity checks (mitigating spoofing attacks) as well as a coarse-grained signal to trace text sources when the signature is invalid (enhancing detectability) via a novel rank-based sampling strategy. Compared to conventional watermark detectors that only output binary results, Bileve can differentiate 5 scenarios during detection, reliably tracing text provenance and regulating LLMs. The experiments conducted on OPT-1.3B and LLaMA-7B demonstrate the effectiveness of Bileve in defeating spoofing attacks with enhanced detectability. Code is available at https://github.com/Tongzhou0101/Bileve-official.
- Abstract(参考訳): 大規模言語モデル(LLM)のテキスト透かしは、ディープフェイクや有害なコンテンツと闘う際の責任評価を約束する機械生成コンテンツの起源を特定するために一般的に用いられてきた。
既存の透かし技術は、通常、除去攻撃に対する堅牢性を優先するが、残念ながら、悪質なアクターはLLM生成の応答の意味を微妙に変更したり、有害なコンテンツを偽造したり、LLM開発者の非難を招きかねない。
この問題を解決するために、二レベルシグネチャスキームであるBileveを導入する。これは、整合性チェック(スプーフィング攻撃の軽減)のためのきめ細かいシグネチャビットを埋め込むとともに、新しいランクベースのサンプリング戦略により、シグネチャが無効(検出可能性の向上)であるときにテキストソースをトレースする粗いシグネチャビットを埋め込む。
バイナリ結果のみを出力する従来の透かし検出器と比較して、Bileveは検出中に5つのシナリオを区別し、テキストの出所を確実に追跡し、LLMを調整できる。
OPT-1.3BとLLaMA-7Bで実施された実験は、検出性を高めたスプーフ攻撃を打破するBileveの有効性を実証した。
コードはhttps://github.com/Tongzhou0101/Bileve-officialで公開されている。
関連論文リスト
- Discovering Clues of Spoofed LM Watermarks [1.9374282535132377]
実際の透かしと偽りの透かしのテキストの間には、観測可能な相違があることが示される。
このようなアーティファクトの存在を確実に明らかにする厳密な統計テストを提案する。
論文 参考訳(メタデータ) (2024-10-03T17:18:37Z) - A Robust Semantics-based Watermark for Large Language Model against Paraphrasing [50.84892876636013]
大規模言語モデル(LLM)は、様々な自然言語処理において優れた能力を示している。
LLMは不適切にも違法にも使用できるという懸念がある。
本稿ではセマンティクスに基づく透かしフレームワークSemaMarkを提案する。
論文 参考訳(メタデータ) (2023-11-15T06:19:02Z) - SeqXGPT: Sentence-Level AI-Generated Text Detection [62.3792779440284]
大規模言語モデル(LLM)を用いた文書の合成による文レベル検出の課題について紹介する。
次に,文レベルのAIGT検出機能として,ホワイトボックスLEMのログ確率リストを利用した textbfSequence textbfX (Check) textbfGPT を提案する。
論文 参考訳(メタデータ) (2023-10-13T07:18:53Z) - SemStamp: A Semantic Watermark with Paraphrastic Robustness for Text Generation [72.10931780019297]
既存の透かしアルゴリズムはトークンレベルの設計のため、パラフレーズ攻撃に弱い。
局所性に敏感なハッシュ(LSH)に基づく頑健な文レベルのセマンティック透かしアルゴリズムSemStampを提案する。
実験結果から,本アルゴリズムは従来手法に比べて,従来手法よりも頑健であるだけでなく,生成品質の維持にも有効であることが示唆された。
論文 参考訳(メタデータ) (2023-10-06T03:33:42Z) - OUTFOX: LLM-Generated Essay Detection Through In-Context Learning with
Adversarially Generated Examples [44.118047780553006]
OUTFOXは、LLM生成テキスト検出器の堅牢性を改善するフレームワークであり、検出器と攻撃者の両方が互いの出力を考慮できるようにする。
実験の結果,提案した検出器は攻撃者が生成したテキストの検出性能を最大41.3点F1スコアまで向上させることがわかった。
この検出器は最先端の検知性能を示し、96.9ポイントのF1スコアまで到達し、既存の検出器を非攻撃テキストで打ち負かした。
論文 参考訳(メタデータ) (2023-07-21T17:40:47Z) - Watermarking Text Generated by Black-Box Language Models [103.52541557216766]
テキスト生成中に透かしを埋め込むことのできるホワイトボックスLCMに対して,透かしに基づく手法が提案されている。
リストを認識した検出アルゴリズムは、透かし付きテキストを識別することができる。
我々はブラックボックス言語モデル利用シナリオのための透かしフレームワークを開発する。
論文 参考訳(メタデータ) (2023-05-14T07:37:33Z) - Can AI-Generated Text be Reliably Detected? [54.670136179857344]
LLMの規制されていない使用は、盗作、偽ニュースの生成、スパムなど、悪意のある結果をもたらす可能性がある。
最近の研究は、生成されたテキスト出力に存在する特定のモデルシグネチャを使用するか、透かし技術を適用してこの問題に対処しようとしている。
本稿では,これらの検出器は実用シナリオにおいて信頼性が低いことを示す。
論文 参考訳(メタデータ) (2023-03-17T17:53:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。