論文の概要: Mitigating Paraphrase Attacks on Machine-Text Detectors via Paraphrase Inversion
- arxiv url: http://arxiv.org/abs/2410.21637v3
- Date: Wed, 19 Mar 2025 21:32:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 16:32:40.246190
- Title: Mitigating Paraphrase Attacks on Machine-Text Detectors via Paraphrase Inversion
- Title(参考訳): パラフレーズインバージョンによる機械テキスト検出装置のパラフレーズ攻撃の軽減
- Authors: Rafael Rivera Soto, Barry Chen, Nicholas Andrews,
- Abstract要約: 高品質なパラフレーズは命令調整言語モデルを使って容易に生成できる。
x2013$$は、マシンテキスト検出器の性能を著しく低下させることで知られている。
本稿では,パラフレーズ付きテキストから元のテキストへのパラフレーズとして,この問題をフレーム化する手法を提案する。
- 参考スコア(独自算出の注目度): 4.148732457277201
- License:
- Abstract: High-quality paraphrases are easy to produce using instruction-tuned language models or specialized paraphrasing models. Although this capability has a variety of benign applications, paraphrasing attacks$\unicode{x2013}$paraphrases applied to machine-generated texts$\unicode{x2013}$are known to significantly degrade the performance of machine-text detectors. This motivates us to consider the novel problem of paraphrase inversion, where, given paraphrased text, the objective is to recover an approximation of the original text. The closer the approximation is to the original text, the better machine-text detectors will perform. We propose an approach which frames the problem as translation from paraphrased text back to the original text, which requires examples of texts and corresponding paraphrases to train the inversion model. Fortunately, such training data can easily be generated, given a corpus of original texts and one or more paraphrasing models. We find that language models such as GPT-4 and Llama-3 exhibit biases when paraphrasing which an inversion model can learn with a modest amount of data. Perhaps surprisingly, we also find that such models generalize well, including to paraphrase models unseen at training time. Finally, we show that when combined with a paraphrased-text detector, our inversion models provide an effective defense against paraphrasing attacks, and overall our approach yields an average improvement of +22% AUROC across seven machine-text detectors and three different domains.
- Abstract(参考訳): 高品質なパラフレーズは、命令調整言語モデルや特殊パラフレーズモデルを使って容易に生成できる。
この能力には様々な良性の応用があるが、機械生成テキストに適用されるパラフレーズ$\unicode{x2013}$パラフレーズ$\unicode{x2013}$は、機械テキスト検出器の性能を著しく低下させることが知られている。
このことは、パラフレーズ変換の新たな問題を考える動機となり、パラフレーズ付きテキストが与えられた場合、原文の近似を復元することが目的である。
近似が元のテキストに近づくほど、マシン・テキスト・ディテクターの性能が向上する。
そこで本研究では,文の例とそれに対応するパラフレーズを入力モデルで学習するために必要となる,パラフレーズ付きテキストから原文への変換として問題をフレーム化する手法を提案する。
幸いなことに、原文のコーパスと1つ以上のパラフレーズモデルがあれば、そのようなトレーニングデータを簡単に生成できる。
GPT-4 や Llama-3 のような言語モデルでは,インバージョンモデルで学習可能なパラフレーズを控え目な量のデータで表すと,バイアスが生じる。
おそらく意外なことに、そのようなモデルはトレーニング時に見つからないモデルを言い換えるなど、うまく一般化している。
最後に, パラフレーズテキスト検出器と組み合わせることで, インバージョンモデルによりパラフレーズ攻撃に対する効果的な防御が可能であり, 全体としては, 7つのマシンテキスト検出器と3つの異なるドメインに対して, 平均22%のAUROC向上が得られることを示す。
関連論文リスト
- Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。
これらの課題を克服するために、新しい方法論とデータセットを導入します。
人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。
また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文 参考訳(メタデータ) (2024-12-17T08:47:41Z) - Forging the Forger: An Attempt to Improve Authorship Verification via Data Augmentation [52.72682366640554]
著者検証(英語: Authorship Verification, AV)とは、ある特定の著者によって書かれたか、別の人物によって書かれたのかを推測するテキスト分類タスクである。
多くのAVシステムは敵の攻撃に弱いことが示されており、悪意のある著者は、その書体スタイルを隠蔽するか、あるいは他の著者の書体を模倣することによって、積極的に分類者を騙そうとしている。
論文 参考訳(メタデータ) (2024-03-17T16:36:26Z) - Paraphrase Types for Generation and Detection [7.800428507692341]
これらのタスクをパラフレーズ型生成とパラフレーズ型検出と呼ぶ。
以上の結果から,従来の手法は二項分類のシナリオではうまく機能するが,微粒なパラフレーズ型の含みは大きな課題となることが示唆された。
我々は、パラフレーズ型が将来、パラフレーズモデルの開発とタスクの解決のための新しいパラダイムを解き放つことができると考えている。
論文 参考訳(メタデータ) (2023-10-23T12:32:41Z) - ParaAMR: A Large-Scale Syntactically Diverse Paraphrase Dataset by AMR
Back-Translation [59.91139600152296]
ParaAMRは、抽象的な表現のバックトランスレーションによって生成される、大規模な構文的に多様なパラフレーズデータセットである。
そこで本研究では,ParaAMRを用いて文の埋め込み学習,構文的に制御されたパラフレーズ生成,数ショット学習のためのデータ拡張という,3つのNLPタスクを改善することができることを示す。
論文 参考訳(メタデータ) (2023-05-26T02:27:33Z) - Paraphrase Identification with Deep Learning: A Review of Datasets and Methods [1.4325734372991794]
一般的なデータセットにおける特定のパラフレーズ型の表現不足が,盗作を検知する能力にどのように影響するかを検討する。
パラフレーズのための新しいタイポロジーを導入し、検証する。
我々は、AIに基づくパラフレーズ検出を強化するために、将来の研究とデータセット開発のための新しい方向を提案する。
論文 参考訳(メタデータ) (2022-12-13T23:06:20Z) - PART: Pre-trained Authorship Representation Transformer [64.78260098263489]
文書を書く著者は、語彙、レジストリ、句読点、ミススペル、絵文字の使用など、テキスト内での識別情報をインプリントする。
以前の作品では、手作りのフィーチャや分類タスクを使用して著者モデルをトレーニングし、ドメイン外の著者に対するパフォーマンスの低下につながった。
セマンティクスの代わりにtextbfauthorship の埋め込みを学習するために、対照的に訓練されたモデルを提案する。
論文 参考訳(メタデータ) (2022-09-30T11:08:39Z) - InvBERT: Text Reconstruction from Contextualized Embeddings used for
Derived Text Formats of Literary Works [1.6058099298620423]
Digital Humanities and Computational Literary Studiesは文献調査にテキストマイニング手法を適用している。
著作権の制限により、関連するデジタル化された文学作品の入手は制限されている。
BERTを逆転しようとする試みは、エンコーダのパーツをコンテキスト化された埋め込みと共に公開することが重要であることを示唆している。
論文 参考訳(メタデータ) (2021-09-21T11:35:41Z) - Towards Document-Level Paraphrase Generation with Sentence Rewriting and
Reordering [88.08581016329398]
文書レベルのパラフレーズ生成のためのCoRPG(Coherence Relation Guided Paraphrase Generation)を提案する。
グラフGRUを用いて、コヒーレンス関係グラフを符号化し、各文のコヒーレンス対応表現を得る。
我々のモデルは、より多様性とセマンティックな保存を伴う文書パラフレーズを生成することができる。
論文 参考訳(メタデータ) (2021-09-15T05:53:40Z) - Don't Change Me! User-Controllable Selective Paraphrase Generation [45.0436584774495]
パラフレーズ生成では、ソース文は変更すべきでないフレーズを含むことが多い。
私たちのソリューションは、任意のテキストセグメントに配置できる明示的なタグをユーザに提供することです。
この研究の貢献は、遠隔監視を用いた新しいデータ生成技術である。
論文 参考訳(メタデータ) (2020-08-21T03:31:50Z) - Neural Syntactic Preordering for Controlled Paraphrase Generation [57.5316011554622]
私たちの研究は、構文変換を使用して、ソース文をソフトに"リオーダー"し、神経パラフレージングモデルをガイドします。
まず、入力文が与えられた場合、エンコーダ・デコーダモデルを用いて、実行可能な構文再構成のセットを導出する。
次に、提案した各再構成を用いて位置埋め込みのシーケンスを生成し、最終的なエンコーダ-デコーダパラフレーズモデルが特定の順序でソース語に従属することを奨励する。
論文 参考訳(メタデータ) (2020-05-05T09:02:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。