論文の概要: Trace Is In Sentences: Unbiased Lightweight ChatGPT-Generated Text Detector
- arxiv url: http://arxiv.org/abs/2509.18535v1
- Date: Tue, 23 Sep 2025 02:00:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.643078
- Title: Trace Is In Sentences: Unbiased Lightweight ChatGPT-Generated Text Detector
- Title(参考訳): ライトウェイトなChatGPT生成テキスト検出器「Trace」
- Authors: Mo Mu, Dianqiao Lei, Chang Li,
- Abstract要約: 原文とPSPで修正したAI生成テキストの両方を検出する新しいタスクを導入する。
テキストの内部構造に基づいてテキストを分類する軽量なフレームワークを提案する。
本手法は,事前学習した言語モデルからの文の埋め込みを符号化し,その関係を注意してモデル化する。
- 参考スコア(独自算出の注目度): 2.11622808613962
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The widespread adoption of ChatGPT has raised concerns about its misuse, highlighting the need for robust detection of AI-generated text. Current word-level detectors are vulnerable to paraphrasing or simple prompts (PSP), suffer from biases induced by ChatGPT's word-level patterns (CWP) and training data content, degrade on modified text, and often require large models or online LLM interaction. To tackle these issues, we introduce a novel task to detect both original and PSP-modified AI-generated texts, and propose a lightweight framework that classifies texts based on their internal structure, which remains invariant under word-level changes. Our approach encodes sentence embeddings from pre-trained language models and models their relationships via attention. We employ contrastive learning to mitigate embedding biases from autoregressive generation and incorporate a causal graph with counterfactual methods to isolate structural features from topic-related biases. Experiments on two curated datasets, including abstract comparisons and revised life FAQs, validate the effectiveness of our method.
- Abstract(参考訳): ChatGPTの普及により、その誤用に対する懸念が高まり、AI生成テキストの堅牢な検出の必要性が浮かび上がっている。
現在の単語レベルの検出器は、言い換えや単純なプロンプト(PSP)に弱いため、ChatGPTのワードレベルのパターン(CWP)やデータ内容のトレーニングによって引き起こされるバイアスに悩まされ、修正されたテキストで劣化し、大きなモデルやオンラインLLMのインタラクションを必要とすることが多い。
これらの課題に対処するために、原文とPSPで修飾されたAI生成テキストの両方を検出するための新しいタスクを導入し、単語レベルで不変な内部構造に基づいてテキストを分類する軽量フレームワークを提案する。
本手法は,事前学習した言語モデルからの文の埋め込みを符号化し,その関係を注意してモデル化する。
我々は,自己回帰生成からの埋め込みバイアスを軽減するために,コントラスト学習を採用し,因果グラフに反ファクト的手法を適用し,話題関連バイアスから構造的特徴を分離する。
本手法の有効性を検証するため, 抽象的比較と生活FAQの改訂を含む2つのキュレートデータセットの実験を行った。
関連論文リスト
- Hallucination Detection and Mitigation in Scientific Text Simplification using Ensemble Approaches: DS@GT at CLEF 2025 SimpleText [0.0]
CLEF 2025 SimpleText Task 2の方法論について述べる。
我々はBERTベースの分類器、意味的類似度尺度、自然言語推論モデル、および大規模言語モデルを活用するアンサンブルフレームワークを構築する。
基底生成にはLLMベースの後編集システムを使用し、元の入力テキストに基づいて単純化を改訂する。
論文 参考訳(メタデータ) (2025-08-15T21:57:27Z) - Transforming Chatbot Text: A Sequence-to-Sequence Approach [1.3812010983144798]
シークエンス・ツー・シークエンス(Seq2Seq)モデルを用いてGPT生成テキストを逆変換する新しい手法を採用する。
我々のSeq2Seq技術によって生成されたデータに基づいて分類モデルを再学習した後、変換されたGPT生成テキストと人間の生成テキストを高精度に識別することができる。
論文 参考訳(メタデータ) (2025-06-15T13:30:38Z) - Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。
これらの課題を克服するために、新しい方法論とデータセットを導入します。
人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。
また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文 参考訳(メタデータ) (2024-12-17T08:47:41Z) - Attacking Misinformation Detection Using Adversarial Examples Generated by Language Models [1.8759938228229573]
テキスト分類アルゴリズムのロバスト性をテストするために,逆例を生成するという課題について検討する。
我々は、攻撃者が試すことができるクエリ数に現実的な制限を設定することで、コンテンツモデレーションのシミュレーションに焦点を当てる。
論文 参考訳(メタデータ) (2024-10-28T11:46:30Z) - Unveiling Large Language Models Generated Texts: A Multi-Level Fine-Grained Detection Framework [9.976099891796784]
大型言語モデル (LLM) は文法の修正、内容の拡張、文体の改良によって人間の書き方を変えてきた。
既存の検出方法は、主に単一機能分析とバイナリ分類に依存しているが、学術的文脈においてLLM生成テキストを効果的に識別することができないことが多い。
低レベル構造, 高レベル意味, 深層言語的特徴を統合することで, LLM生成テキストを検出する多レベルきめ細粒度検出フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-18T07:25:00Z) - Detecting Machine-Generated Long-Form Content with Latent-Space Variables [54.07946647012579]
既存のゼロショット検出器は主に、現実世界のドメインシフトに弱いトークンレベルの分布に焦点を当てている。
本稿では,イベント遷移などの抽象的要素を機械対人文検出の鍵となる要因として組み込んだ,より堅牢な手法を提案する。
論文 参考訳(メタデータ) (2024-10-04T18:42:09Z) - Spotting AI's Touch: Identifying LLM-Paraphrased Spans in Text [61.22649031769564]
我々は、新しいフレームワーク、パラフレーズテキストスパン検出(PTD)を提案する。
PTDは、テキスト内でパラフレーズ付きテキストを識別することを目的としている。
パラフレーズ付きテキストスパン検出のための専用データセットであるPASTEDを構築した。
論文 参考訳(メタデータ) (2024-05-21T11:22:27Z) - Red Teaming Language Model Detectors with Language Models [114.36392560711022]
大規模言語モデル(LLM)は、悪意のあるユーザによって悪用された場合、重大な安全性と倫理的リスクをもたらす。
近年,LLM生成テキストを検出し,LLMを保護するアルゴリズムが提案されている。
1) LLMの出力中の特定の単語を, 文脈が与えられたシノニムに置き換えること, 2) 生成者の書き方を変更するための指示プロンプトを自動で検索すること,である。
論文 参考訳(メタデータ) (2023-05-31T10:08:37Z) - DPIC: Decoupling Prompt and Intrinsic Characteristics for LLM Generated Text Detection [56.513637720967566]
大規模言語モデル(LLM)は、盗作、eコマースプラットフォームへの偽レビューの設置、炎症性偽ツイートなどの誤用のリスクを引き起こすテキストを生成することができる。
既存の高品質な検出手法では、本質的な特徴を抽出するために、モデルの内部にアクセスする必要がある。
ブラックボックスモデル生成テキストの深い内在特性を抽出する。
論文 参考訳(メタデータ) (2023-05-21T17:26:16Z) - CoCo: Coherence-Enhanced Machine-Generated Text Detection Under Data
Limitation With Contrastive Learning [14.637303913878435]
低リソースシナリオ下でMGTを検出するために,コヒーレンスに基づくコントラスト学習モデルCoCoを提案する。
言語的特徴を活用するために,グラフ形式でコヒーレンス情報をテキスト表現にエンコードする。
2つの公開データセットと2つの自己構築データセットの実験結果は、我々のアプローチが最先端の手法を大幅に上回っていることを証明している。
論文 参考訳(メタデータ) (2022-12-20T15:26:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。