論文の概要: The power of text similarity in identifying AI-LLM paraphrased documents: The case of BBC news articles and ChatGPT
- arxiv url: http://arxiv.org/abs/2505.12405v1
- Date: Sun, 18 May 2025 13:16:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.215631
- Title: The power of text similarity in identifying AI-LLM paraphrased documents: The case of BBC news articles and ChatGPT
- Title(参考訳): AI-LLMパラフレーズ文書の識別におけるテキスト類似性の力:BBCニュース記事とChatGPTの場合
- Authors: Konstantinos Xylogiannopoulos, Petros Xanthopoulos, Panagiotis Karampelas, Georgios Bakamitsos,
- Abstract要約: 本稿では,AIパラフレーズニュース認識のためのパターンベース類似度検出機能を示す。
記事がAIパラフレーズであるかどうかを検知するだけでなく,より重要なのは,侵害源がChatGPTであることを識別するアルゴリズムスキームを提案する。
その結果, 深層学習を使わないパターン類似性に基づく手法では, 精度96.23%, 精度96.25%, 感度96.21%, 特異度96.25%, F1得点96.23%でChatGPT助詞を検出することができた。
- 参考スコア(独自算出の注目度): 2.024925013349319
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Generative AI paraphrased text can be used for copyright infringement and the AI paraphrased content can deprive substantial revenue from original content creators. Despite this recent surge of malicious use of generative AI, there are few academic publications that research this threat. In this article, we demonstrate the ability of pattern-based similarity detection for AI paraphrased news recognition. We propose an algorithmic scheme, which is not limited to detect whether an article is an AI paraphrase, but, more importantly, to identify that the source of infringement is the ChatGPT. The proposed method is tested with a benchmark dataset specifically created for this task that incorporates real articles from BBC, incorporating a total of 2,224 articles across five different news categories, as well as 2,224 paraphrased articles created with ChatGPT. Results show that our pattern similarity-based method, that makes no use of deep learning, can detect ChatGPT assisted paraphrased articles at percentages 96.23% for accuracy, 96.25% for precision, 96.21% for sensitivity, 96.25% for specificity and 96.23% for F1 score.
- Abstract(参考訳): 生成的AIパラフレーズテキストは著作権侵害に使用することができ、AIパラフレーズコンテンツはオリジナルコンテンツクリエーターからかなりの収入を引き出すことができる。
最近、悪意ある生成AIの使用が急増しているにもかかわらず、この脅威を研究する学術出版物はほとんどない。
本稿では,AIパラフレーズニュース認識におけるパターンに基づく類似度検出機能について紹介する。
記事がAIパラフレーズであるかどうかを検知するだけでなく,より重要なのは,侵害源がChatGPTであることを識別するアルゴリズムスキームを提案する。
提案手法は,5つのニュースカテゴリにまたがる合計2,224記事と,ChatGPTで作成した2,224記事を含む,BBCのリアル記事を含む,このタスクに特化して作成されたベンチマークデータセットを用いて検証した。
その結果, 深層学習を使わないパターン類似性に基づく手法では, 精度96.23%, 精度96.25%, 感度96.21%, 特異度96.25%, F1得点96.23%でChatGPT助詞を検出することができた。
関連論文リスト
- Evaluating the Performance of AI Text Detectors, Few-Shot and Chain-of-Thought Prompting Using DeepSeek Generated Text [2.942616054218564]
標準および人為的パラフレージングのようなアドリバーサ攻撃は、検出者がテキストを検出する能力を阻害する。
我々は、DeepSeekが生成したテキストを、一般的なAI Text、Content Detector AI、Copyleaks、QuillBot、GPT-2、GPTZeroの6つが一貫して認識できるかどうかを調査する。
論文 参考訳(メタデータ) (2025-07-23T21:26:33Z) - Assessing GPTZero's Accuracy in Identifying AI vs. Human-Written Essays [0.0]
GPTZeroは最も使われているAI検出器だが、人間によるテキストの識別の信頼性は限られている。
AIが生成した論文の大半が正確に検出され(91-100%のAIが信じていた世代)、一方で人間が生成したエッセイは変動した。
これらの結果は、GPTZeroは純粋にAI生成されたコンテンツを検出するのに有効であるが、人間によるテキストの識別の信頼性は限られていることを示唆している。
論文 参考訳(メタデータ) (2025-06-30T04:53:27Z) - AuthorMist: Evading AI Text Detectors with Reinforcement Learning [4.806579822134391]
AuthorMistは、AI生成したテキストを人間ライクな文章に変換する、新しい強化学習ベースのシステムだ。
AuthorMistは,本来の意味を保ちながら,AI生成テキストの検出性を効果的に低減することを示す。
論文 参考訳(メタデータ) (2025-03-10T12:41:05Z) - Generative AI in Academic Writing: A Comparison of DeepSeek, Qwen, ChatGPT, Gemini, Llama, Mistral, and Gemma [0.9562145896371785]
フリーでオープンソースのモデルは、学術的な執筆とコンテンツ制作に大きな可能性を秘めている。
本研究は、ChatGPT、Gemini、Llama、Mistral、Gemmaと比較することにより、学術的な筆記性能を評価する。
生成されたコンテンツは、プラジャリズム検出、AI検出、単語数比較、意味的類似性、可読性評価を用いて分析された。
論文 参考訳(メタデータ) (2025-02-11T18:33:22Z) - Group-Adaptive Threshold Optimization for Robust AI-Generated Text Detection [60.09665704993751]
本稿では,確率的AIテキスト検出のためのグループ固有しきい値最適化アルゴリズムであるFairOPTを紹介する。
我々のフレームワークは、後処理によるAI生成コンテンツ検出において、より堅牢な分類の道を開く。
論文 参考訳(メタデータ) (2025-02-06T21:58:48Z) - Spotting AI's Touch: Identifying LLM-Paraphrased Spans in Text [61.22649031769564]
我々は、新しいフレームワーク、パラフレーズテキストスパン検出(PTD)を提案する。
PTDは、テキスト内でパラフレーズ付きテキストを識別することを目的としている。
パラフレーズ付きテキストスパン検出のための専用データセットであるPASTEDを構築した。
論文 参考訳(メタデータ) (2024-05-21T11:22:27Z) - DEMASQ: Unmasking the ChatGPT Wordsmith [63.8746084667206]
そこで本研究では,ChatGPT生成内容を正確に識別する効果的なChatGPT検出器DEMASQを提案する。
提案手法は, 人為的, 機械的, 人為的, 人為的, 機械的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人
論文 参考訳(メタデータ) (2023-11-08T21:13:05Z) - Distinguishing Human Generated Text From ChatGPT Generated Text Using
Machine Learning [0.251657752676152]
本稿では,人間のテキストからChatGPT配信されたテキストを識別する機械学習ベースのソリューションを提案する。
我々は、提案したモデルをKaggleデータセット上でテストし、そのうち5,204のテキストが人間によって書かれ、ニュースやソーシャルメディアから収集された1万のテキストからなる。
GPT-3.5で生成されたコーパスでは,提案アルゴリズムの精度は77%である。
論文 参考訳(メタデータ) (2023-05-26T09:27:43Z) - DPIC: Decoupling Prompt and Intrinsic Characteristics for LLM Generated Text Detection [56.513637720967566]
大規模言語モデル(LLM)は、盗作、eコマースプラットフォームへの偽レビューの設置、炎症性偽ツイートなどの誤用のリスクを引き起こすテキストを生成することができる。
既存の高品質な検出手法では、本質的な特徴を抽出するために、モデルの内部にアクセスする必要がある。
ブラックボックスモデル生成テキストの深い内在特性を抽出する。
論文 参考訳(メタデータ) (2023-05-21T17:26:16Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z) - Paraphrasing evades detectors of AI-generated text, but retrieval is an
effective defense [56.077252790310176]
本稿では,パラフレーズ生成モデル(DIPPER)を提案する。
DIPPERを使って3つの大きな言語モデル(GPT3.5-davinci-003)で生成されたテキストを言い換えると、透かしを含むいくつかの検出器を回避できた。
我々は,言語モデルAPIプロバイダによって維持されなければならない,意味論的に類似した世代を検索するシンプルなディフェンスを導入する。
論文 参考訳(メタデータ) (2023-03-23T16:29:27Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。