論文の概要: SpecDetect: Simple, Fast, and Training-Free Detection of LLM-Generated Text via Spectral Analysis
- arxiv url: http://arxiv.org/abs/2508.11343v1
- Date: Fri, 15 Aug 2025 09:13:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:23.831218
- Title: SpecDetect: Simple, Fast, and Training-Free Detection of LLM-Generated Text via Spectral Analysis
- Title(参考訳): SpecDetect: スペクトル解析によるLCM生成テキストの簡易・高速・無訓練検出
- Authors: Haitong Luo, Weiyao Zhang, Suhang Wang, Wenji Zou, Chungang Lin, Xuying Meng, Yujun Zhang,
- Abstract要約: 本稿では,周波数領域におけるトークンログ確率のシーケンスを解析する新しいパラダイムを提案する。
我々は、グローバルなDFT: DFTトータルエネルギーの単一で堅牢な特徴の上に構築されたSpecDetectを構築した。
我々の研究は、LLM生成したテキスト検出のための新しい、効率的で解釈可能な経路を導入し、古典的な信号処理技術がこの現代の課題に対して驚くほど強力な解決策を提供することを示した。
- 参考スコア(独自算出の注目度): 31.43564106945543
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The proliferation of high-quality text from Large Language Models (LLMs) demands reliable and efficient detection methods. While existing training-free approaches show promise, they often rely on surface-level statistics and overlook fundamental signal properties of the text generation process. In this work, we reframe detection as a signal processing problem, introducing a novel paradigm that analyzes the sequence of token log-probabilities in the frequency domain. By systematically analyzing the signal's spectral properties using the global Discrete Fourier Transform (DFT) and the local Short-Time Fourier Transform (STFT), we find that human-written text consistently exhibits significantly higher spectral energy. This higher energy reflects the larger-amplitude fluctuations inherent in human writing compared to the suppressed dynamics of LLM-generated text. Based on this key insight, we construct SpecDetect, a detector built on a single, robust feature from the global DFT: DFT total energy. We also propose an enhanced version, SpecDetect++, which incorporates a sampling discrepancy mechanism to further boost robustness. Extensive experiments demonstrate that our approach outperforms the state-of-the-art model while running in nearly half the time. Our work introduces a new, efficient, and interpretable pathway for LLM-generated text detection, showing that classical signal processing techniques offer a surprisingly powerful solution to this modern challenge.
- Abstract(参考訳): LLM(Large Language Models)からの高品質テキストの拡散は、信頼性と効率的な検出方法を必要とする。
既存のトレーニングフリーアプローチは将来性を示すが、表層統計に頼り、テキスト生成プロセスの基本的な信号特性を無視することが多い。
本研究では,信号処理問題として検出を再構成し,周波数領域におけるトークンログのシーケンスを解析する新しいパラダイムを導入する。
グローバル離散フーリエ変換 (DFT) と局所短時間フーリエ変換 (STFT) を用いて信号のスペクトル特性を系統的に解析することにより, 人間の書き起こしたテキストのスペクトルエネルギーは一定に高いことがわかった。
この高エネルギーは、LLM生成テキストの抑圧されたダイナミクスと比較して、人間の筆記に固有の振幅変動が大きいことを反映している。
この重要な知見に基づいて、我々は、グローバルなDFT: DFTトータルエネルギーの単一で堅牢な特徴の上に構築されたSpecDetectを構築した。
また、より堅牢性を高めるためにサンプリング離散化機構を組み込んだ拡張版SpecDetect++を提案する。
大規模な実験により、我々のアプローチは、ほぼ半分の時間で実行しながら最先端のモデルより優れていることが示された。
我々の研究は、LLM生成したテキスト検出のための新しい、効率的で解釈可能な経路を導入し、古典的な信号処理技術がこの現代の課題に対して驚くほど強力な解決策を提供することを示した。
関連論文リスト
- Entropy-Guided Watermarking for LLMs: A Test-Time Framework for Robust and Traceable Text Generation [58.85645136534301]
サンプルテキストの既存の透かし方式は、テキスト品質の維持と各種攻撃に対する堅牢な検出とのトレードオフに直面していることが多い。
累積透かしエントロピー閾値を導入することにより,検出性とテキスト品質を両立させる新しい透かし方式を提案する。
論文 参考訳(メタデータ) (2025-04-16T14:16:38Z) - GaussMark: A Practical Approach for Structural Watermarking of Language Models [61.84270985214254]
GaussMarkは、大規模な言語モデルを透かし出すためのシンプルで効率的で比較的堅牢なスキームである。
GaussMarkは信頼性が高く、効率的で、挿入、削除、置換、ラウンドトリップ翻訳などの汚職に対して比較的堅牢であることを示す。
論文 参考訳(メタデータ) (2025-01-17T22:30:08Z) - Scintillation pulse characterization with spectrum-inspired temporal neural networks: case studies on particle detector signals [1.124958340749622]
本稿では,時系列解析に関するこれまでの研究に基づいて,シンチレーションパルスのキャラクタリゼーションに特化したネットワークアーキテクチャを提案する。
a)LUXダークマター検出器の設定によって生成されたシミュレーションデータと,(b)高速電子回路を用いた実験電気信号を用いて,NICA/MPD温度計のシンチレーション変動をエミュレートする。
論文 参考訳(メタデータ) (2024-10-09T02:44:53Z) - Training-free LLM-generated Text Detection by Mining Token Probability Sequences [18.955509967889782]
大規模言語モデル(LLM)は、様々な領域にまたがる高品質なテキストを生成する際、顕著な能力を示した。
統計的特徴を慎重に設計することで、固有の相違に焦点をあてたトレーニングフリーな手法は、一般化と解釈性の向上を提供する。
局所的および大域的統計を相乗化して検出を増強する,新しいトレーニング不要検出器である textbfLastde を導入する。
論文 参考訳(メタデータ) (2024-10-08T14:23:45Z) - Detecting Machine-Generated Long-Form Content with Latent-Space Variables [54.07946647012579]
既存のゼロショット検出器は主に、現実世界のドメインシフトに弱いトークンレベルの分布に焦点を当てている。
本稿では,イベント遷移などの抽象的要素を機械対人文検出の鍵となる要因として組み込んだ,より堅牢な手法を提案する。
論文 参考訳(メタデータ) (2024-10-04T18:42:09Z) - Frequency-Aware Deepfake Detection: Improving Generalizability through
Frequency Space Learning [81.98675881423131]
この研究は、目に見えないディープフェイク画像を効果的に識別できるユニバーサルディープフェイク検出器を開発するという課題に対処する。
既存の周波数ベースのパラダイムは、偽造検出のためにGANパイプラインのアップサンプリング中に導入された周波数レベルのアーティファクトに依存している。
本稿では、周波数領域学習を中心にしたFreqNetと呼ばれる新しい周波数認識手法を導入し、ディープフェイク検出器の一般化性を高めることを目的とする。
論文 参考訳(メタデータ) (2024-03-12T01:28:00Z) - DNA-GPT: Divergent N-Gram Analysis for Training-Free Detection of
GPT-Generated Text [82.5469544192645]
ダイバージェントN-Gram解析(DNA-GPT)と呼ばれる新しいトレーニング不要検出手法を提案する。
元の部分と新しい部分の違いをN-gram解析により解析することにより,機械生成テキストと人文テキストの分布に顕著な相違が明らかになった。
その結果, ゼロショットアプローチは, 人文とGPT生成テキストの区別において, 最先端の性能を示すことがわかった。
論文 参考訳(メタデータ) (2023-05-27T03:58:29Z) - G3Detector: General GPT-Generated Text Detector [26.47122201110071]
本研究では,多分野にわたる合成テキストの同定に長けた,予測できないが強力な検出手法を提案する。
我々の検出器は、様々なモデルアーキテクチャと復号化戦略で一様に優れた性能を示す。
また、強力な検出回避技術を用いて生成されたテキストを識別する機能も備えている。
論文 参考訳(メタデータ) (2023-05-22T03:35:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。