論文の概要: Luminol-AIDetect: Fast Zero-shot Machine-Generated Text Detection based on Perplexity under Text Shuffling
- arxiv url: http://arxiv.org/abs/2604.25860v1
- Date: Tue, 28 Apr 2026 16:58:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.965898
- Title: Luminol-AIDetect: Fast Zero-shot Machine-Generated Text Detection based on Perplexity under Text Shuffling
- Title(参考訳): Luminol-AIDetect:テキストシャッフル下でのパープレキシティに基づく高速ゼロショットマシン生成テキスト検出
- Authors: Lucio La Cava, Andrea Tagarelli,
- Abstract要約: 我々は,機械生成テキスト(MGT)検出のための新しいゼロショット統計手法であるLuminol-AIDetectを提案する。
単純なランダム化テキストシャッフル手法を適用することで、結果として生じるパープレキシティの変化が、原則的、モデルに依存しない識別要因となることを示す。
我々は,Luminol-AIDetectが最先端性能を示し,FPRの最大17倍の低下を示し,従来の手法よりも安価であることを示した。
- 参考スコア(独自算出の注目度): 9.241565393225953
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine-generated text (MGT) detection requires identifying structurally invariant signals across generation models, rather than relying on model-specific fingerprints. In this respect, we hypothesize that while large language models excel at local semantic consistency, their autoregressive nature results in a specific kind of structural fragility compared to human writing. We propose Luminol-AIDetect, a novel, zero-shot statistical approach that exposes this fragility through coherence disruption. By applying a simple randomized text-shuffling procedure, we demonstrate that the resulting shift in perplexity serves as a principled, model-agnostic discriminant, as MGT displays a characteristic dispersion in perplexity-under-shuffling that differs markedly from the more stable structural variability of human-written text. Luminol-AIDetect leverages this distinction to inform its decision process, where a handful of perplexity-based scalar features are extracted from an input text and its shuffled version, then detection is performed via density estimation and ensemble-based prediction. Evaluated across 8 content domains, 11 adversarial attack types, and 18 languages, Luminol-AIDetect demonstrates state-of-the-art performance, with gains up to 17x lower FPR while being cheaper than prior methods.
- Abstract(参考訳): 機械生成テキスト(MGT)検出は、モデル固有の指紋に頼るのではなく、世代モデル間で構造的に不変な信号を特定する必要がある。
この観点から,大規模言語モデルは局所的な意味的一貫性に優れるが,その自己回帰的な性質は,人間の記述と比較して特定の構造的脆弱性をもたらすと仮定する。
我々は,コヒーレンス・ディスラプションによるこの脆弱性を明らかにする新しいゼロショット統計手法であるLuminol-AIDetectを提案する。
単純なランダム化テキストシャッフル手法を適用することで、MGTは人間のテキストのより安定した構造的変動と著しく異なるパープレキシティ・アンダーシャッフルの特徴的な分散を示すため、結果として生じるパープレキシティのシフトが、原則的、モデルに依存しない識別要因となることを示した。
Luminol-AIDetectはこの区別を利用し、入力テキストとそのシャッフルバージョンからわずかなパープレキシティベースのスカラー特徴を抽出し、密度推定とアンサンブルベースの予測によって検出を行う。
8つのコンテンツドメイン、11の逆攻撃タイプ、および18の言語で評価され、Luminol-AIDetectは最先端のパフォーマンスを示し、従来の方法よりも17倍低いFPRが得られた。
関連論文リスト
- StyleDecipher: Robust and Explainable Detection of LLM-Generated Texts with Stylistic Analysis [18.44456241158174]
StyleDecipherは堅牢で説明可能な検出フレームワークである。
組み合わせた特徴抽出器を用いてテキスト検出を再検討し、構造的差異を定量化する。
常に最先端のドメイン内精度を達成する。
論文 参考訳(メタデータ) (2025-10-14T15:07:27Z) - When Personalization Tricks Detectors: The Feature-Inversion Trap in Machine-Generated Text Detection [64.23509202768945]
パーソナライズされた設定における検出ロバスト性を評価するための最初のベンチマークであるデータセットを紹介する。
実験により, 個別設定における検出器間の性能差が大きいことが示された。
パーソナライズされた設定における検出性能変化を簡易かつ信頼性の高い予測方法を提案する。
論文 参考訳(メタデータ) (2025-10-14T13:10:23Z) - Human Texts Are Outliers: Detecting LLM-generated Texts via Out-of-distribution Detection [71.59834293521074]
我々は,人間によるテキストと機械によるテキストを区別する枠組みを開発した。
提案手法は,DeepFakeデータセット上で98.3%のAUROCとAUPRを8.9%のFPR95で達成する。
コード、事前トレーニングされたウェイト、デモがリリースされる。
論文 参考訳(メタデータ) (2025-10-07T08:14:45Z) - Diversity Boosts AI-Generated Text Detection [51.56484100374058]
DivEyeは、予備的な機能を使って、予測不可能がテキスト間でどのように変動するかをキャプチャする、新しいフレームワークである。
提案手法は、既存のゼロショット検出器を最大33.2%向上させ、微調整ベースラインとの競合性能を達成する。
論文 参考訳(メタデータ) (2025-09-23T10:21:22Z) - RepreGuard: Detecting LLM-Generated Text by Revealing Hidden Representation Patterns [50.401907401444404]
大規模言語モデル(LLM)は、誤用を防止し、信頼できるAIシステムを構築するために不可欠である。
本稿では,統計量に基づく効率的な検出手法であるRepreGuardを提案する。
実験結果から、RepreGuardは、平均94.92%のAUROCですべてのベースラインでID(in-distriion)とOOD(OOD)の両方のシナリオでパフォーマンスが向上していることが示された。
論文 参考訳(メタデータ) (2025-08-18T17:59:15Z) - Model-Agnostic Sentiment Distribution Stability Analysis for Robust LLM-Generated Texts Detection [23.153044933861988]
大規模言語モデル(LLM)生成テキストを検出するためのモデルに依存しないフレームワークであるSentiDetectを提案する。
本手法は, LLM出力が感情的一貫したパターンを示す傾向を示すのに対して, 人文テキストの方が感情的多様性が高いという経験的観察に動機付けられている。
我々は,Gemini-1.5-Pro,Claude-3,GPT-4-0613,LLaMa-3.3を含む5種類の多種多様なLLMを用いてSentiDetectを評価した。
論文 参考訳(メタデータ) (2025-08-09T09:55:47Z) - Detecting Machine-Generated Long-Form Content with Latent-Space Variables [54.07946647012579]
既存のゼロショット検出器は主に、現実世界のドメインシフトに弱いトークンレベルの分布に焦点を当てている。
本稿では,イベント遷移などの抽象的要素を機械対人文検出の鍵となる要因として組み込んだ,より堅牢な手法を提案する。
論文 参考訳(メタデータ) (2024-10-04T18:42:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。