論文の概要: The power of text similarity in identifying AI-LLM paraphrased documents: The case of BBC news articles and ChatGPT
- arxiv url: http://arxiv.org/abs/2505.12405v1
- Date: Sun, 18 May 2025 13:16:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.215631
- Title: The power of text similarity in identifying AI-LLM paraphrased documents: The case of BBC news articles and ChatGPT
- Title(参考訳): AI-LLMパラフレーズ文書の識別におけるテキスト類似性の力:BBCニュース記事とChatGPTの場合
- Authors: Konstantinos Xylogiannopoulos, Petros Xanthopoulos, Panagiotis Karampelas, Georgios Bakamitsos,
- Abstract要約: 本稿では,AIパラフレーズニュース認識のためのパターンベース類似度検出機能を示す。
記事がAIパラフレーズであるかどうかを検知するだけでなく,より重要なのは,侵害源がChatGPTであることを識別するアルゴリズムスキームを提案する。
その結果, 深層学習を使わないパターン類似性に基づく手法では, 精度96.23%, 精度96.25%, 感度96.21%, 特異度96.25%, F1得点96.23%でChatGPT助詞を検出することができた。
- 参考スコア(独自算出の注目度): 2.024925013349319
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Generative AI paraphrased text can be used for copyright infringement and the AI paraphrased content can deprive substantial revenue from original content creators. Despite this recent surge of malicious use of generative AI, there are few academic publications that research this threat. In this article, we demonstrate the ability of pattern-based similarity detection for AI paraphrased news recognition. We propose an algorithmic scheme, which is not limited to detect whether an article is an AI paraphrase, but, more importantly, to identify that the source of infringement is the ChatGPT. The proposed method is tested with a benchmark dataset specifically created for this task that incorporates real articles from BBC, incorporating a total of 2,224 articles across five different news categories, as well as 2,224 paraphrased articles created with ChatGPT. Results show that our pattern similarity-based method, that makes no use of deep learning, can detect ChatGPT assisted paraphrased articles at percentages 96.23% for accuracy, 96.25% for precision, 96.21% for sensitivity, 96.25% for specificity and 96.23% for F1 score.
- Abstract(参考訳): 生成的AIパラフレーズテキストは著作権侵害に使用することができ、AIパラフレーズコンテンツはオリジナルコンテンツクリエーターからかなりの収入を引き出すことができる。
最近、悪意ある生成AIの使用が急増しているにもかかわらず、この脅威を研究する学術出版物はほとんどない。
本稿では,AIパラフレーズニュース認識におけるパターンに基づく類似度検出機能について紹介する。
記事がAIパラフレーズであるかどうかを検知するだけでなく,より重要なのは,侵害源がChatGPTであることを識別するアルゴリズムスキームを提案する。
提案手法は,5つのニュースカテゴリにまたがる合計2,224記事と,ChatGPTで作成した2,224記事を含む,BBCのリアル記事を含む,このタスクに特化して作成されたベンチマークデータセットを用いて検証した。
その結果, 深層学習を使わないパターン類似性に基づく手法では, 精度96.23%, 精度96.25%, 感度96.21%, 特異度96.25%, F1得点96.23%でChatGPT助詞を検出することができた。
関連論文リスト
- AuthorMist: Evading AI Text Detectors with Reinforcement Learning [4.806579822134391]
AuthorMistは、AI生成したテキストを人間ライクな文章に変換する、新しい強化学習ベースのシステムだ。
AuthorMistは,本来の意味を保ちながら,AI生成テキストの検出性を効果的に低減することを示す。
論文 参考訳(メタデータ) (2025-03-10T12:41:05Z) - Generative AI in Academic Writing: A Comparison of DeepSeek, Qwen, ChatGPT, Gemini, Llama, Mistral, and Gemma [0.9562145896371785]
フリーでオープンソースのモデルは、学術的な執筆とコンテンツ制作に大きな可能性を秘めている。
本研究は、ChatGPT、Gemini、Llama、Mistral、Gemmaと比較することにより、学術的な筆記性能を評価する。
生成されたコンテンツは、プラジャリズム検出、AI検出、単語数比較、意味的類似性、可読性評価を用いて分析された。
論文 参考訳(メタデータ) (2025-02-11T18:33:22Z) - DEMASQ: Unmasking the ChatGPT Wordsmith [63.8746084667206]
そこで本研究では,ChatGPT生成内容を正確に識別する効果的なChatGPT検出器DEMASQを提案する。
提案手法は, 人為的, 機械的, 人為的, 人為的, 機械的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人
論文 参考訳(メタデータ) (2023-11-08T21:13:05Z) - Distinguishing Human Generated Text From ChatGPT Generated Text Using
Machine Learning [0.251657752676152]
本稿では,人間のテキストからChatGPT配信されたテキストを識別する機械学習ベースのソリューションを提案する。
我々は、提案したモデルをKaggleデータセット上でテストし、そのうち5,204のテキストが人間によって書かれ、ニュースやソーシャルメディアから収集された1万のテキストからなる。
GPT-3.5で生成されたコーパスでは,提案アルゴリズムの精度は77%である。
論文 参考訳(メタデータ) (2023-05-26T09:27:43Z) - DPIC: Decoupling Prompt and Intrinsic Characteristics for LLM Generated Text Detection [56.513637720967566]
大規模言語モデル(LLM)は、盗作、eコマースプラットフォームへの偽レビューの設置、炎症性偽ツイートなどの誤用のリスクを引き起こすテキストを生成することができる。
既存の高品質な検出手法では、本質的な特徴を抽出するために、モデルの内部にアクセスする必要がある。
ブラックボックスモデル生成テキストの深い内在特性を抽出する。
論文 参考訳(メタデータ) (2023-05-21T17:26:16Z) - Paraphrasing evades detectors of AI-generated text, but retrieval is an
effective defense [56.077252790310176]
本稿では,パラフレーズ生成モデル(DIPPER)を提案する。
DIPPERを使って3つの大きな言語モデル(GPT3.5-davinci-003)で生成されたテキストを言い換えると、透かしを含むいくつかの検出器を回避できた。
我々は,言語モデルAPIプロバイダによって維持されなければならない,意味論的に類似した世代を検索するシンプルなディフェンスを導入する。
論文 参考訳(メタデータ) (2023-03-23T16:29:27Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。