論文の概要: Feature Extraction and Analysis for GPT-Generated Text
- arxiv url: http://arxiv.org/abs/2503.13687v1
- Date: Mon, 17 Mar 2025 19:52:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:16:48.620031
- Title: Feature Extraction and Analysis for GPT-Generated Text
- Title(参考訳): GPT生成テキストの特徴抽出と解析
- Authors: A. Selvioğlu, V. Adanova, M. Atagoziev,
- Abstract要約: 本稿では,人書きテキストとGPT生成テキストの識別のための特徴抽出と解析に関する総合的研究を行う。
以上の結果から,人間とGPT生成したテキストは,特徴によって効果的に捉えられる異なる書体スタイルを示すことが明らかとなった。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: With the rise of advanced natural language models like GPT, distinguishing between human-written and GPT-generated text has become increasingly challenging and crucial across various domains, including academia. The long-standing issue of plagiarism has grown more pressing, now compounded by concerns about the authenticity of information, as it is not always clear whether the presented facts are genuine or fabricated. In this paper, we present a comprehensive study of feature extraction and analysis for differentiating between human-written and GPT-generated text. By applying machine learning classifiers to these extracted features, we evaluate the significance of each feature in detection. Our results demonstrate that human and GPT-generated texts exhibit distinct writing styles, which can be effectively captured by our features. Given sufficiently long text, the two can be differentiated with high accuracy.
- Abstract(参考訳): GPTのような先進的な自然言語モデルが台頭し、人書きテキストとGPT生成テキストの区別は、アカデミックを含む様々な領域でますます困難で重要になっている。
長年にわたる盗作の問題は、情報の真正性に関する懸念によって複雑化しており、提示された事実が本物か偽造なのかは必ずしも明確ではない。
本稿では,人書きテキストとGPT生成テキストの識別のための特徴抽出と解析に関する総合的研究を行う。
抽出した特徴に機械学習分類器を適用することにより,検出における各特徴の重要性を評価する。
以上の結果から,人間とGPT生成したテキストは,特徴によって効果的に捉えられる異なる書体スタイルを示すことが明らかとなった。
十分な長文が与えられれば、両者は高い精度で区別できる。
関連論文リスト
- Detecting Machine-Generated Long-Form Content with Latent-Space Variables [54.07946647012579]
既存のゼロショット検出器は主に、現実世界のドメインシフトに弱いトークンレベルの分布に焦点を当てている。
本稿では,イベント遷移などの抽象的要素を機械対人文検出の鍵となる要因として組み込んだ,より堅牢な手法を提案する。
論文 参考訳(メタデータ) (2024-10-04T18:42:09Z) - Towards Unified Multi-granularity Text Detection with Interactive Attention [56.79437272168507]
Detect Any Text"は、シーンテキストの検出、レイアウト分析、ドキュメントページの検出を結合的なエンドツーエンドモデルに統合する高度なパラダイムである。
DATにおける重要なイノベーションは、テキストインスタンスの表現学習を大幅に強化する、粒度横断型アテンションモジュールである。
テストによると、DATは様々なテキスト関連ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-05-30T07:25:23Z) - Spotting AI's Touch: Identifying LLM-Paraphrased Spans in Text [61.22649031769564]
我々は、新しいフレームワーク、パラフレーズテキストスパン検出(PTD)を提案する。
PTDは、テキスト内でパラフレーズ付きテキストを識別することを目的としている。
パラフレーズ付きテキストスパン検出のための専用データセットであるPASTEDを構築した。
論文 参考訳(メタデータ) (2024-05-21T11:22:27Z) - Deep dive into language traits of AI-generated Abstracts [5.209583971923267]
ChatGPTのような生成言語モデルは、人間のような文章を生成する能力に注意を向けている。
本研究では,ChatGPTが生成する抽象概念を,長さとバウンドがはるかに短い方法で検出しようと試みる。
テキストの意味的特徴と語彙的特性を抽出し、従来の機械学習モデルがこれらの抽象概念を確実に検出できることを観察する。
論文 参考訳(メタデータ) (2023-12-17T06:03:33Z) - DetectGPT-SC: Improving Detection of Text Generated by Large Language
Models through Self-Consistency with Masked Predictions [13.077729125193434]
既存の検出器は、人間が生成したテキストとAI生成したテキストの間に分配ギャップがあるという仮定に基づいて構築されている。
また,ChatGPTのような大規模言語モデルは,テキスト生成や継続において強い自己整合性を示すことがわかった。
マスク付き予測を用いた自己整合性に基づくAI生成テキストの検出手法を提案する。
論文 参考訳(メタデータ) (2023-10-23T01:23:10Z) - Detecting ChatGPT: A Survey of the State of Detecting ChatGPT-Generated
Text [1.9643748953805937]
生成言語モデルは、人間が生成したように見える人工的なテキストを生成することによって、潜在的に騙される可能性がある。
この調査は、人間が生成したテキストとChatGPTを区別するために使われている現在のアプローチの概要を提供する。
論文 参考訳(メタデータ) (2023-09-14T13:05:20Z) - HC3 Plus: A Semantic-Invariant Human ChatGPT Comparison Corpus [22.302137281411646]
ChatGPTはその素晴らしいパフォーマンスのために大きな関心を集めている。
その潜在的なリスクについて懸念が高まっている。
ChatGPT生成テキストを検出するために使用される現在のデータセットは、主に質問応答タスクに焦点を当てている。
論文 参考訳(メタデータ) (2023-09-06T05:33:57Z) - Is ChatGPT Involved in Texts? Measure the Polish Ratio to Detect
ChatGPT-Generated Text [48.36706154871577]
我々はHPPT(ChatGPT-polished academic abstracts)と呼ばれる新しいデータセットを紹介する。
純粋なChatGPT生成テキストの代わりに、人書きとChatGPTポリケートされた抽象文のペアを構成することで、既存のコーパスから分岐する。
また,ChatGPTによる修正の度合いを,オリジナルの人文テキストと比較した革新的な尺度であるPolish Ratio法を提案する。
論文 参考訳(メタデータ) (2023-07-21T06:38:37Z) - ChatGPT vs Human-authored Text: Insights into Controllable Text Summarization and Sentence Style Transfer [13.83503100145004]
2つの制御可能な生成タスクにおいてChatGPTの性能を体系的に検査する。
生成したテキストの忠実度を評価し、そのモデルの性能を人間によるテキストと比較する。
テキストを特定のスタイルに適合させる際に、ChatGPTは時に事実的誤りや幻覚を取り入れている。
論文 参考訳(メタデータ) (2023-06-13T14:21:35Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z) - Artificial Text Detection via Examining the Topology of Attention Maps [58.46367297712477]
トポロジカルデータ分析(TDA)に基づく3種類の解釈可能なトポロジカル特徴を提案する。
BERTモデルから派生した特徴が3つの共通データセットにおいて、カウントベースとニューラルベースベースラインを最大10%上回っていることを実証的に示す。
特徴の探索解析は表面に対する感度と構文的性質を明らかにしている。
論文 参考訳(メタデータ) (2021-09-10T12:13:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。