論文の概要: Diversity Boosts AI-Generated Text Detection
- arxiv url: http://arxiv.org/abs/2509.18880v2
- Date: Fri, 26 Sep 2025 18:36:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 11:50:46.816448
- Title: Diversity Boosts AI-Generated Text Detection
- Title(参考訳): 多様性によってAIによるテキスト検出が向上
- Authors: Advik Raj Basani, Pin-Yu Chen,
- Abstract要約: DivEyeは、予備的な機能を使って、予測不可能がテキスト間でどのように変動するかをキャプチャする、新しいフレームワークである。
提案手法は、既存のゼロショット検出器を最大33.2%向上させ、微調整ベースラインとの競合性能を達成する。
- 参考スコア(独自算出の注目度): 51.56484100374058
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Detecting AI-generated text is an increasing necessity to combat misuse of LLMs in education, business compliance, journalism, and social media, where synthetic fluency can mask misinformation or deception. While prior detectors often rely on token-level likelihoods or opaque black-box classifiers, these approaches struggle against high-quality generations and offer little interpretability. In this work, we propose DivEye, a novel detection framework that captures how unpredictability fluctuates across a text using surprisal-based features. Motivated by the observation that human-authored text exhibits richer variability in lexical and structural unpredictability than LLM outputs, DivEye captures this signal through a set of interpretable statistical features. Our method outperforms existing zero-shot detectors by up to 33.2% and achieves competitive performance with fine-tuned baselines across multiple benchmarks. DivEye is robust to paraphrasing and adversarial attacks, generalizes well across domains and models, and improves the performance of existing detectors by up to 18.7% when used as an auxiliary signal. Beyond detection, DivEye provides interpretable insights into why a text is flagged, pointing to rhythmic unpredictability as a powerful and underexplored signal for LLM detection.
- Abstract(参考訳): AI生成テキストの検出は、教育、ビジネスコンプライアンス、ジャーナリズム、ソーシャルメディアにおけるLLMの誤用に対処する必要性が高まっている。
従来の検出器はトークンレベルの可能性や不透明なブラックボックス分類器に頼っていることが多いが、これらの手法は高品質な世代と競合し、ほとんど解釈できない。
本研究では,予測不能がテキスト間でどのように変動するかを,主観的特徴を用いて把握する,新たな検出フレームワークであるDivEyeを提案する。
人間の著述テキストがLLM出力よりも語彙的・構造的不予測性の豊かな変動を示すという観察に触発され、DivEyeはこの信号を解釈可能な統計的特徴によって捉えた。
提案手法は、既存のゼロショット検出器を最大33.2%上回り、複数のベンチマークにまたがる微調整ベースラインとの競合性能を実現する。
DivEyeはパラフレーズや敵攻撃に対して堅牢であり、ドメインやモデルにまたがってよく一般化し、補助信号として使用する場合、既存の検出器の性能を最大18.7%向上させる。
検出以外にも、DivEyeは、なぜテキストがフラグ付けされたのかを解釈可能な洞察を提供し、LLM検出のための強力で未探索の信号としてリズミカルな予測可能性を示している。
関連論文リスト
- RepreGuard: Detecting LLM-Generated Text by Revealing Hidden Representation Patterns [50.401907401444404]
大規模言語モデル(LLM)は、誤用を防止し、信頼できるAIシステムを構築するために不可欠である。
本稿では,統計量に基づく効率的な検出手法であるRepreGuardを提案する。
実験結果から、RepreGuardは、平均94.92%のAUROCですべてのベースラインでID(in-distriion)とOOD(OOD)の両方のシナリオでパフォーマンスが向上していることが示された。
論文 参考訳(メタデータ) (2025-08-18T17:59:15Z) - SpecDetect: Simple, Fast, and Training-Free Detection of LLM-Generated Text via Spectral Analysis [31.43564106945543]
本稿では,周波数領域におけるトークンログ確率のシーケンスを解析する新しいパラダイムを提案する。
我々は、グローバルなDFT: DFTトータルエネルギーの単一で堅牢な特徴の上に構築されたSpecDetectを構築した。
我々の研究は、LLM生成したテキスト検出のための新しい、効率的で解釈可能な経路を導入し、古典的な信号処理技術がこの現代の課題に対して驚くほど強力な解決策を提供することを示した。
論文 参考訳(メタデータ) (2025-08-15T09:13:42Z) - Your Language Model Can Secretly Write Like Humans: Contrastive Paraphrase Attacks on LLM-Generated Text Detectors [77.82885394684202]
テキスト検出を効果的に欺く訓練不要な方法である textbfContrastive textbfParaphrase textbfAttack (CoPA) を提案する。
CoPAは、大規模言語モデルによって生成される人間のような分布とは対照的に、補助的な機械的な単語分布を構築している。
我々の理論的分析は、提案された攻撃の優越性を示唆している。
論文 参考訳(メタデータ) (2025-05-21T10:08:39Z) - Training-free LLM-generated Text Detection by Mining Token Probability Sequences [18.955509967889782]
大規模言語モデル(LLM)は、様々な領域にまたがる高品質なテキストを生成する際、顕著な能力を示した。
統計的特徴を慎重に設計することで、固有の相違に焦点をあてたトレーニングフリーな手法は、一般化と解釈性の向上を提供する。
局所的および大域的統計を相乗化して検出を増強する,新しいトレーニング不要検出器である textbfLastde を導入する。
論文 参考訳(メタデータ) (2024-10-08T14:23:45Z) - Detecting Machine-Generated Long-Form Content with Latent-Space Variables [54.07946647012579]
既存のゼロショット検出器は主に、現実世界のドメインシフトに弱いトークンレベルの分布に焦点を当てている。
本稿では,イベント遷移などの抽象的要素を機械対人文検出の鍵となる要因として組み込んだ,より堅牢な手法を提案する。
論文 参考訳(メタデータ) (2024-10-04T18:42:09Z) - Can AI-Generated Text be Reliably Detected? [50.95804851595018]
大規模言語モデル(LLM)は、様々なアプリケーションで非常によく機能します。
盗作、偽ニュースの発生、スパムなどの活動においてこれらのモデルが誤用される可能性があることは、彼らの責任ある使用に対する懸念を引き起こしている。
我々は、攻撃者の存在下で、これらのAIテキスト検出装置の堅牢性を強調テストする。
論文 参考訳(メタデータ) (2023-03-17T17:53:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。