Fugu-MT 論文翻訳(概要): Bileve: Securing Text Provenance in Large Language Models Against Spoofing with Bi-level Signature

論文の概要: Bileve: Securing Text Provenance in Large Language Models Against Spoofing with Bi-level Signature

arxiv url: http://arxiv.org/abs/2406.01946v3
Date: Tue, 29 Oct 2024 04:12:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:33.228915
Title: Bileve: Securing Text Provenance in Large Language Models Against Spoofing with Bi-level Signature
Title（参考訳）: Bileve: 双方向署名によるスポーフィングに対する大規模言語モデルにおけるテキストの保護
Authors: Tong Zhou, Xuandong Zhao, Xiaolin Xu, Shaolei Ren,
Abstract要約: 整合性チェックのための微細なシグネチャビットを埋め込んだバイレベルシグネチャスキームであるBileveを導入する。 Bileveは、検出中に5つのシナリオを区別し、テキストを確実にトレースし、LLMを制御する。
参考スコア（独自算出の注目度）: 39.973130114073605
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Text watermarks for large language models (LLMs) have been commonly used to identify the origins of machine-generated content, which is promising for assessing liability when combating deepfake or harmful content. While existing watermarking techniques typically prioritize robustness against removal attacks, unfortunately, they are vulnerable to spoofing attacks: malicious actors can subtly alter the meanings of LLM-generated responses or even forge harmful content, potentially misattributing blame to the LLM developer. To overcome this, we introduce a bi-level signature scheme, Bileve, which embeds fine-grained signature bits for integrity checks (mitigating spoofing attacks) as well as a coarse-grained signal to trace text sources when the signature is invalid (enhancing detectability) via a novel rank-based sampling strategy. Compared to conventional watermark detectors that only output binary results, Bileve can differentiate 5 scenarios during detection, reliably tracing text provenance and regulating LLMs. The experiments conducted on OPT-1.3B and LLaMA-7B demonstrate the effectiveness of Bileve in defeating spoofing attacks with enhanced detectability. Code is available at https://github.com/Tongzhou0101/Bileve-official.
Abstract（参考訳）: 大規模言語モデル(LLM)のテキスト透かしは、ディープフェイクや有害なコンテンツと闘う際の責任評価を約束する機械生成コンテンツの起源を特定するために一般的に用いられてきた。既存の透かし技術は、通常、除去攻撃に対する堅牢性を優先するが、残念ながら、悪質なアクターはLLM生成の応答の意味を微妙に変更したり、有害なコンテンツを偽造したり、LLM開発者の非難を招きかねない。この問題を解決するために、二レベルシグネチャスキームであるBileveを導入する。これは、整合性チェック(スプーフィング攻撃の軽減)のためのきめ細かいシグネチャビットを埋め込むとともに、新しいランクベースのサンプリング戦略により、シグネチャが無効(検出可能性の向上)であるときにテキストソースをトレースする粗いシグネチャビットを埋め込む。バイナリ結果のみを出力する従来の透かし検出器と比較して、Bileveは検出中に5つのシナリオを区別し、テキストの出所を確実に追跡し、LLMを調整できる。 OPT-1.3BとLLaMA-7Bで実施された実験は、検出性を高めたスプーフ攻撃を打破するBileveの有効性を実証した。コードはhttps://github.com/Tongzhou0101/Bileve-officialで公開されている。

関連論文リスト

Unforgeable Watermarks for Language Models via Robust Signatures [12.643204293013007]
非鍛造性と回復性という2つの新しい保証を導入する。我々は、堅牢で、鍛造不可能で、回収可能な最初の検出不能な透かし方式を構築した。
論文参考訳（メタデータ） (2026-02-17T03:09:06Z)
LLM Watermark Evasion via Bias Inversion [24.543675977310357]
本稿では,理論的動機付けとモデルに依存しないemphBias-Inversion Rewriting Attack (BIRA)を提案する。 BIRAは、下層の透かし方式を知らずに書き直し中に、おそらく透かしのトークンのロジットを抑えることで透かし信号を弱める。
論文参考訳（メタデータ） (2025-09-27T00:24:57Z)
Character-Level Perturbations Disrupt LLM Watermarks [64.60090923837701]
我々は,Large Language Model (LLM)ウォーターマーキングのためのシステムモデルを定式化する。我々は、透かし検出器への限られたアクセスに制約された2つの現実的な脅威モデルの特徴付けを行う。我々は,最も制限的な脅威モデルの下で,キャラクタレベルの摂動が透かし除去に著しく有効であることを実証した。現実的な制約下での透かし除去における文字レベルの摂動の優位性と遺伝的アルゴリズム(GA)の有効性を実験的に検証した。
論文参考訳（メタデータ） (2025-09-11T02:50:07Z)
Your Language Model Can Secretly Write Like Humans: Contrastive Paraphrase Attacks on LLM-Generated Text Detectors [65.27124213266491]
テキスト検出を効果的に欺く訓練不要な方法である textbfContrastive textbfParaphrase textbfAttack (CoPA) を提案する。 CoPAは、大規模言語モデルによって生成される人間のような分布とは対照的に、補助的な機械的な単語分布を構築している。我々の理論的分析は、提案された攻撃の優越性を示唆している。
論文参考訳（メタデータ） (2025-05-21T10:08:39Z)
Defending LLM Watermarking Against Spoofing Attacks with Contrastive Representation Learning [34.76886510334969]
ピギーバック攻撃は、元々の透かしを保ったままのヘイトスピーチに変換する透かしテキストの意味を悪意的に変更することができる。そこで本稿では,元来の意味を保ちつつ,与えられた目標テキストに透かしを埋め込む意味認識型透かしアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-04-09T04:38:17Z)
Modification and Generated-Text Detection: Achieving Dual Detection Capabilities for the Outputs of LLM by Watermark [6.355836060419373]
1つの実用的な解決策は、透かしをテキストに埋め込むことで、透かし抽出によるオーナシップの検証を可能にする。既存の手法は主に修正攻撃に対する防御に重点を置いており、しばしば他の偽造攻撃を無視している。本研究では, 修正に敏感な不偏形透かしに対して, テキスト中の修正を検出する手法を提案する。
論文参考訳（メタデータ） (2025-02-12T11:56:40Z)
Towards Copyright Protection for Knowledge Bases of Retrieval-augmented Language Models via Ownership Verification with Reasoning [58.57194301645823]
大規模言語モデル (LLM) は、検索強化生成機構 (RAG) を通じて現実のアプリケーションに統合されつつある。これらの知識基盤を保護するための透かし技術として一般化できる既存の方法は、通常、中毒攻撃を伴う。我々は、無害な」知識基盤の著作権保護の名称を提案する。
論文参考訳（メタデータ） (2025-02-10T09:15:56Z)
Discovering Clues of Spoofed LM Watermarks [1.9374282535132377]
実際の透かしと偽りの透かしのテキストの間には、観測可能な相違があることが示される。このようなアーティファクトの存在を確実に明らかにする厳密な統計テストを提案する。
論文参考訳（メタデータ） (2024-10-03T17:18:37Z)
A Robust Semantics-based Watermark for Large Language Model against Paraphrasing [50.84892876636013]
大規模言語モデル(LLM)は、様々な自然言語処理において優れた能力を示している。 LLMは不適切にも違法にも使用できるという懸念がある。本稿ではセマンティクスに基づく透かしフレームワークSemaMarkを提案する。
論文参考訳（メタデータ） (2023-11-15T06:19:02Z)
SeqXGPT: Sentence-Level AI-Generated Text Detection [62.3792779440284]
大規模言語モデル(LLM)を用いた文書の合成による文レベル検出の課題について紹介する。次に,文レベルのAIGT検出機能として,ホワイトボックスLEMのログ確率リストを利用した textbfSequence textbfX (Check) textbfGPT を提案する。
論文参考訳（メタデータ） (2023-10-13T07:18:53Z)
SemStamp: A Semantic Watermark with Paraphrastic Robustness for Text Generation [72.10931780019297]
既存の透かしアルゴリズムはトークンレベルの設計のため、パラフレーズ攻撃に弱い。局所性に敏感なハッシュ(LSH)に基づく頑健な文レベルのセマンティック透かしアルゴリズムSemStampを提案する。実験結果から,本アルゴリズムは従来手法に比べて,従来手法よりも頑健であるだけでなく,生成品質の維持にも有効であることが示唆された。
論文参考訳（メタデータ） (2023-10-06T03:33:42Z)
OUTFOX: LLM-Generated Essay Detection Through In-Context Learning with Adversarially Generated Examples [44.118047780553006]
OUTFOXは、LLM生成テキスト検出器の堅牢性を改善するフレームワークであり、検出器と攻撃者の両方が互いの出力を考慮できるようにする。実験の結果,提案した検出器は攻撃者が生成したテキストの検出性能を最大41.3点F1スコアまで向上させることがわかった。この検出器は最先端の検知性能を示し、96.9ポイントのF1スコアまで到達し、既存の検出器を非攻撃テキストで打ち負かした。
論文参考訳（メタデータ） (2023-07-21T17:40:47Z)
Watermarking Text Generated by Black-Box Language Models [103.52541557216766]
テキスト生成中に透かしを埋め込むことのできるホワイトボックスLCMに対して,透かしに基づく手法が提案されている。リストを認識した検出アルゴリズムは、透かし付きテキストを識別することができる。我々はブラックボックス言語モデル利用シナリオのための透かしフレームワークを開発する。
論文参考訳（メタデータ） (2023-05-14T07:37:33Z)
Can AI-Generated Text be Reliably Detected? [54.670136179857344]
LLMの規制されていない使用は、盗作、偽ニュースの生成、スパムなど、悪意のある結果をもたらす可能性がある。最近の研究は、生成されたテキスト出力に存在する特定のモデルシグネチャを使用するか、透かし技術を適用してこの問題に対処しようとしている。本稿では,これらの検出器は実用シナリオにおいて信頼性が低いことを示す。
論文参考訳（メタデータ） (2023-03-17T17:53:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。