論文の概要: Beyond Black Box AI-Generated Plagiarism Detection: From Sentence to
Document Level
- arxiv url: http://arxiv.org/abs/2306.08122v1
- Date: Tue, 13 Jun 2023 20:34:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 22:50:45.003985
- Title: Beyond Black Box AI-Generated Plagiarism Detection: From Sentence to
Document Level
- Title(参考訳): ブラックボックスaiによる盗作検出を超えて: 文単位から文書レベルへ
- Authors: Mujahid Ali Quidwai, Chunhui Li, Parijat Dube
- Abstract要約: 既存のAI生成テキスト分類器は精度が限られており、しばしば偽陽性を生成する。
自然言語処理(NLP)技術を用いた新しい手法を提案する。
与えられた質問の複数のパラフレーズ付きバージョンを生成し、それを大きな言語モデルに入力し、回答を生成する。
本研究では,コサイン類似度に基づくコントラスト的損失関数を用いて,生成文と学生の反応とをマッチングする。
- 参考スコア(独自算出の注目度): 4.250876580245865
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The increasing reliance on large language models (LLMs) in academic writing
has led to a rise in plagiarism. Existing AI-generated text classifiers have
limited accuracy and often produce false positives. We propose a novel approach
using natural language processing (NLP) techniques, offering quantifiable
metrics at both sentence and document levels for easier interpretation by human
evaluators. Our method employs a multi-faceted approach, generating multiple
paraphrased versions of a given question and inputting them into the LLM to
generate answers. By using a contrastive loss function based on cosine
similarity, we match generated sentences with those from the student's
response. Our approach achieves up to 94% accuracy in classifying human and AI
text, providing a robust and adaptable solution for plagiarism detection in
academic settings. This method improves with LLM advancements, reducing the
need for new model training or reconfiguration, and offers a more transparent
way of evaluating and detecting AI-generated text.
- Abstract(参考訳): 学術著作における大規模言語モデル(llm)への依存の増大は、盗作主義の高まりにつながった。
既存のai生成テキスト分類器は精度が低く、しばしば偽陽性となる。
本研究では,自然言語処理(NLP)技術を用いた新しい手法を提案する。
提案手法は多面的アプローチを用いて,与えられた質問の複数のパラフレーズ付きバージョンを生成し,LLMに入力して回答を生成する。
本研究では,コサイン類似度に基づくコントラスト的損失関数を用いて,生成文と学生の反応とをマッチングする。
我々の手法は、人間とAIのテキストの分類において最大94%の精度を達成し、学術的な環境での盗作検出のための堅牢で適応可能なソリューションを提供する。
この方法はLLMの進歩によって改善され、新しいモデルトレーニングや再構成の必要性が軽減され、AI生成したテキストを評価し検出するより透過的な方法を提供する。
関連論文リスト
- LLM-Detector: Improving AI-Generated Chinese Text Detection with
Open-Source LLM Instruction Tuning [4.328134379418151]
既存のAI生成テキスト検出モデルでは、ドメイン内のオーバーフィットが難しくなる。
LLM-Detectorは文書レベルと文レベルのテキスト検出のための新しい手法である。
論文 参考訳(メタデータ) (2024-02-02T05:54:12Z) - Raidar: geneRative AI Detection viA Rewriting [46.403235978200776]
大規模な言語モデル(LLM)は、書き直しのタスクを行う場合、AI生成テキストよりも人間の書き起こしテキストを変更する傾向にある。
テキストの書き直しを LLM に促し,出力の編集距離を計算することで,AI 生成コンテンツを検出する手法を提案する。
この結果から,機械自体のレンズを通した機械生成テキストのユニークなインプリントが明らかになった。
論文 参考訳(メタデータ) (2024-01-23T18:57:53Z) - SeqXGPT: Sentence-Level AI-Generated Text Detection [62.3792779440284]
大規模言語モデル(LLM)を用いた文書の合成による文レベル検出の課題について紹介する。
次に,文レベルのAIGT検出機能として,ホワイトボックスLEMのログ確率リストを利用した textbfSequence textbfX (Check) textbfGPT を提案する。
論文 参考訳(メタデータ) (2023-10-13T07:18:53Z) - RADAR: Robust AI-Text Detection via Adversarial Learning [69.5883095262619]
RADARはパラフラザーと検出器の対向訓練に基づいている。
パラフレーズの目標は、AIテキスト検出を避けるために現実的なコンテンツを生成することである。
RADARは検出器からのフィードバックを使ってパラフラザーを更新する。
論文 参考訳(メタデータ) (2023-07-07T21:13:27Z) - Paraphrasing evades detectors of AI-generated text, but retrieval is an
effective defense [56.077252790310176]
本稿では,パラフレーズ生成モデル(DIPPER)を提案する。
DIPPERを使って3つの大きな言語モデル(GPT3.5-davinci-003)で生成されたテキストを言い換えると、透かしを含むいくつかの検出器を回避できた。
我々は,言語モデルAPIプロバイダによって維持されなければならない,意味論的に類似した世代を検索するシンプルなディフェンスを導入する。
論文 参考訳(メタデータ) (2023-03-23T16:29:27Z) - Can AI-Generated Text be Reliably Detected? [54.670136179857344]
LLMの規制されていない使用は、盗作、偽ニュースの生成、スパムなど、悪意のある結果をもたらす可能性がある。
最近の研究は、生成されたテキスト出力に存在する特定のモデルシグネチャを使用するか、透かし技術を適用してこの問題に対処しようとしている。
本稿では,これらの検出器は実用シナリオにおいて信頼性が低いことを示す。
論文 参考訳(メタデータ) (2023-03-17T17:53:19Z) - Classifiers are Better Experts for Controllable Text Generation [63.17266060165098]
提案手法は, PPLにおける最近のPPLM, GeDi, DExpertsよりも有意に優れており, 生成したテキストの外部分類器に基づく感情の精度が高いことを示す。
同時に、実装やチューニングも簡単で、制限や要件も大幅に少なくなります。
論文 参考訳(メタデータ) (2022-05-15T12:58:35Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。