論文の概要: RADAR: Robust AI-Text Detection via Adversarial Learning
- arxiv url: http://arxiv.org/abs/2307.03838v1
- Date: Fri, 7 Jul 2023 21:13:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-11 17:06:02.427944
- Title: RADAR: Robust AI-Text Detection via Adversarial Learning
- Title(参考訳): RADAR: 逆学習によるロバストなAIテキスト検出
- Authors: Xiaomeng Hu and Pin-Yu Chen and Tsung-Yi Ho
- Abstract要約: RADARはパラフラザーと検出器の対向訓練に基づいている。
パラフレーズの目標は、AIテキスト検出を避けるために現実的なコンテンツを生成することである。
RADARは検出器からのフィードバックを使ってパラフラザーを更新する。
- 参考スコア(独自算出の注目度): 74.43215520371506
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in large language models (LLMs) and the intensifying
popularity of ChatGPT-like applications have blurred the boundary of
high-quality text generation between humans and machines. However, in addition
to the anticipated revolutionary changes to our technology and society, the
difficulty of distinguishing LLM-generated texts (AI-text) from human-generated
texts poses new challenges of misuse and fairness, such as fake content
generation, plagiarism, and false accusation of innocent writers. While
existing works show that current AI-text detectors are not robust to LLM-based
paraphrasing, this paper aims to bridge this gap by proposing a new framework
called RADAR, which jointly trains a Robust AI-text Detector via Adversarial
leaRning. RADAR is based on adversarial training of a paraphraser and a
detector. The paraphraser's goal is to generate realistic contents to evade
AI-text detection. RADAR uses the feedback from the detector to update the
paraphraser, and vice versa. Evaluated with 8 different LLMs (Pythia, Dolly
2.0, Palmyra, Camel, GPT-J, Dolly 1.0, LLaMA, and Vicuna) across 4 datasets,
experimental results show that RADAR significantly outperforms existing AI-text
detection methods, especially when paraphrasing is in place. We also identify
the strong transferability of RADAR from instruction-tuned LLMs to other LLMs,
and evaluate the improved capability of RADAR via GPT-3.5.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩とChatGPTライクなアプリケーションの普及により、人間と機械間の高品質テキスト生成の境界が曖昧になった。
しかし、我々の技術や社会の革命的な変化に加えて、LLM生成テキスト(AIテキスト)と人間生成テキストを区別することの難しさは、偽のコンテンツ生成、盗作、無実の作家の虚偽の告発など、誤用と公平性の新たな課題をもたらす。
既存の研究は、現在のAIテキスト検出器はLLMベースのパラフレーズには堅牢ではないことを示しているが、本稿は、Adversarial leaRningを介してロバストAIテキスト検出器を共同で訓練するRADARと呼ばれる新しいフレームワークを提案することによって、このギャップを埋めることを目指している。
RADARはパラフラザーと検出器の対向訓練に基づいている。
パラフレーズの目標は、AIテキスト検出を避けるために現実的なコンテンツを生成することである。
RADARは検出器からのフィードバックを使ってパラフラザーを更新する。
4つのデータセットで8つの異なるLLM(Pythia, Dolly 2.0, Palmyra, Camel, GPT-J, Dolly 1.0, LLaMA, Vicuna)を評価した結果、RADARが既存のAIテキスト検出方法、特にパラフレーズが設定されている場合において、大幅に上回っていることが示された。
また,命令調整されたLLMから他のLLMへのRADARの強い転送性を確認し,GPT-3.5によるRADARの高機能化を評価する。
関連論文リスト
- ESPERANTO: Evaluating Synthesized Phrases to Enhance Robustness in AI Detection for Text Origination [1.8418334324753884]
本稿では,検出を回避する新しい手法としてバックトランスレーションを紹介する。
本稿では、これらの裏書きされたテキストを組み合わせて、オリジナルのAI生成テキストの操作されたバージョンを生成するモデルを提案する。
我々は,この手法を,オープンソースと3つのプロプライエタリシステムを含む9つのAI検出器上で評価する。
論文 参考訳(メタデータ) (2024-09-22T01:13:22Z) - Detecting Machine-Generated Texts: Not Just "AI vs Humans" and Explainability is Complicated [8.77447722226144]
そこで本研究では,新たな3次テキスト分類手法を導入し,いずれの情報源にも起因する可能性のあるテキストの「未決定」カテゴリを追加する。
この研究は、単に分類から機械が生成したテキストの説明へとパラダイムをシフトさせ、ユーザーに対して明確で理解可能な説明を提供するための検出器の必要性を強調した。
論文 参考訳(メタデータ) (2024-06-26T11:11:47Z) - Spotting AI's Touch: Identifying LLM-Paraphrased Spans in Text [61.22649031769564]
我々は、新しいフレームワーク、パラフレーズテキストスパン検出(PTD)を提案する。
PTDは、テキスト内でパラフレーズ付きテキストを識別することを目的としている。
パラフレーズ付きテキストスパン検出のための専用データセットであるPASTEDを構築した。
論文 参考訳(メタデータ) (2024-05-21T11:22:27Z) - Raidar: geneRative AI Detection viA Rewriting [42.477151044325595]
大規模な言語モデル(LLM)は、書き直しのタスクを行う場合、AI生成テキストよりも人間の書き起こしテキストを変更する傾向にある。
テキストの書き直しを LLM に促し,出力の編集距離を計算することで,AI 生成コンテンツを検出する手法を提案する。
この結果から,機械自体のレンズを通した機械生成テキストのユニークなインプリントが明らかになった。
論文 参考訳(メタデータ) (2024-01-23T18:57:53Z) - A Survey on LLM-Generated Text Detection: Necessity, Methods, and Future Directions [39.36381851190369]
LLM生成テキストを検出できる検出器を開発する必要がある。
このことは、LLMが生成するコンテンツの有害な影響から、LLMの潜在的な誤用や、芸術的表現やソーシャルネットワークのような保護領域の軽減に不可欠である。
この検出器技術は、ウォーターマーキング技術、統計ベースの検出器、神経ベース検出器、そして人間の支援手法の革新によって、最近顕著な進歩をみせている。
論文 参考訳(メタデータ) (2023-10-23T09:01:13Z) - Red Teaming Language Model Detectors with Language Models [114.36392560711022]
大規模言語モデル(LLM)は、悪意のあるユーザによって悪用された場合、重大な安全性と倫理的リスクをもたらす。
近年,LLM生成テキストを検出し,LLMを保護するアルゴリズムが提案されている。
1) LLMの出力中の特定の単語を, 文脈が与えられたシノニムに置き換えること, 2) 生成者の書き方を変更するための指示プロンプトを自動で検索すること,である。
論文 参考訳(メタデータ) (2023-05-31T10:08:37Z) - MAGE: Machine-generated Text Detection in the Wild [82.70561073277801]
大規模言語モデル(LLM)は人間レベルのテキスト生成を実現し、効果的なAI生成テキスト検出の必要性を強調している。
我々は、異なるLLMによって生成される多様な人文やテキストからテキストを収集することで、包括的なテストベッドを構築する。
問題にもかかわらず、トップパフォーマンス検出器は、新しいLCMによって生成された86.54%のドメイン外のテキストを識別することができ、アプリケーションシナリオの実現可能性を示している。
論文 参考訳(メタデータ) (2023-05-22T17:13:29Z) - Paraphrasing evades detectors of AI-generated text, but retrieval is an
effective defense [56.077252790310176]
本稿では,パラフレーズ生成モデル(DIPPER)を提案する。
DIPPERを使って3つの大きな言語モデル(GPT3.5-davinci-003)で生成されたテキストを言い換えると、透かしを含むいくつかの検出器を回避できた。
我々は,言語モデルAPIプロバイダによって維持されなければならない,意味論的に類似した世代を検索するシンプルなディフェンスを導入する。
論文 参考訳(メタデータ) (2023-03-23T16:29:27Z) - Can AI-Generated Text be Reliably Detected? [54.670136179857344]
LLMの規制されていない使用は、盗作、偽ニュースの生成、スパムなど、悪意のある結果をもたらす可能性がある。
最近の研究は、生成されたテキスト出力に存在する特定のモデルシグネチャを使用するか、透かし技術を適用してこの問題に対処しようとしている。
本稿では,これらの検出器は実用シナリオにおいて信頼性が低いことを示す。
論文 参考訳(メタデータ) (2023-03-17T17:53:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。