論文の概要: Exons-Detect: Identifying and Amplifying Exonic Tokens via Hidden-State Discrepancy for Robust AI-Generated Text Detection
- arxiv url: http://arxiv.org/abs/2603.24981v1
- Date: Thu, 26 Mar 2026 03:12:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.074331
- Title: Exons-Detect: Identifying and Amplifying Exonic Tokens via Hidden-State Discrepancy for Robust AI-Generated Text Detection
- Title(参考訳): Exons-Detect:ロバストAI生成テキスト検出のための隠れ状態差による異種トークンの同定と増幅
- Authors: Xiaowei Zhu, Yubing Ren, Fang Fang, Shi Wang, Yanan Cao, Li Guo,
- Abstract要約: 我々は,Exon-Awareトークン再重み付けの観点から,AI生成テキスト検出のためのトレーニング不要な方法であるExons-Detectを提案する。
Exons-Detectは、二重モデル設定下で隠れ状態の不一致を測定して情報的エクソニックトークンを特定し、増幅し、その結果の重要重み付きトークンシーケンスから解釈可能な翻訳スコアを算出する。
- 参考スコア(独自算出の注目度): 18.509745023735835
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The rapid advancement of large language models has increasingly blurred the boundary between human-written and AI-generated text, raising societal risks such as misinformation dissemination, authorship ambiguity, and threats to intellectual property rights. These concerns highlight the urgent need for effective and reliable detection methods. While existing training-free approaches often achieve strong performance by aggregating token-level signals into a global score, they typically assume uniform token contributions, making them less robust under short sequences or localized token modifications. To address these limitations, we propose Exons-Detect, a training-free method for AI-generated text detection based on an exon-aware token reweighting perspective. Exons-Detect identifies and amplifies informative exonic tokens by measuring hidden-state discrepancy under a dual-model setting, and computes an interpretable translation score from the resulting importance-weighted token sequence. Empirical evaluations demonstrate that Exons-Detect achieves state-of-the-art detection performance and exhibits strong robustness to adversarial attacks and varying input lengths. In particular, it attains a 2.2\% relative improvement in average AUROC over the strongest prior baseline on DetectRL.
- Abstract(参考訳): 大規模言語モデルの急速な進歩は、人書きテキストとAI生成テキストの境界を曖昧にし、誤情報拡散、著者の曖昧さ、知的財産権に対する脅威などの社会的リスクを高めている。
これらの懸念は、有効かつ信頼性の高い検出方法の緊急の必要性を浮き彫りにする。
既存のトレーニングなしのアプローチは、トークンレベルの信号をグローバルスコアに集約することで、しばしば強力なパフォーマンスを達成するが、通常は均一なトークンコントリビューションを仮定し、短いシーケンスや局所的なトークン修正では、堅牢さを低下させる。
これらの制約に対処するために,エキソン認識トークン再重み付けの観点からAI生成テキスト検出を行うトレーニング不要なExons-Detectを提案する。
Exons-Detectは、二重モデル設定下で隠れ状態の不一致を測定して情報的エクソニックトークンを特定し、増幅し、その結果の重要重み付きトークンシーケンスから解釈可能な翻訳スコアを算出する。
実験的な評価により,Exons-Detectは最先端検出性能を達成し,敵攻撃に対する強い堅牢性と入力長の変化を示す。
特に、平均的なAUROCの2.2\%の相対的な改善を、TectorRLの最強のベースラインよりも達成している。
関連論文リスト
- Human Texts Are Outliers: Detecting LLM-generated Texts via Out-of-distribution Detection [71.59834293521074]
我々は,人間によるテキストと機械によるテキストを区別する枠組みを開発した。
提案手法は,DeepFakeデータセット上で98.3%のAUROCとAUPRを8.9%のFPR95で達成する。
コード、事前トレーニングされたウェイト、デモがリリースされる。
論文 参考訳(メタデータ) (2025-10-07T08:14:45Z) - Diversity Boosts AI-Generated Text Detection [51.56484100374058]
DivEyeは、予備的な機能を使って、予測不可能がテキスト間でどのように変動するかをキャプチャする、新しいフレームワークである。
提案手法は、既存のゼロショット検出器を最大33.2%向上させ、微調整ベースラインとの競合性能を達成する。
論文 参考訳(メタデータ) (2025-09-23T10:21:22Z) - Modeling the Attack: Detecting AI-Generated Text by Quantifying Adversarial Perturbations [2.7620215077666557]
現代の検出器は敵の攻撃に弱いことで知られており、パラフレーズは効果的な回避技術として際立っている。
本稿では,まず,標準的な対人訓練の限界を定量化することにより,対人的堅牢性の比較研究を行う。
次に、新しい、はるかに回復力のある検出フレームワークを紹介します。
論文 参考訳(メタデータ) (2025-09-22T13:03:53Z) - DNA-DetectLLM: Unveiling AI-Generated Text via a DNA-Inspired Mutation-Repair Paradigm [17.258462909671525]
本稿では,AI生成テキストと人文テキストを区別するゼロショット検出手法であるDNA-DetectLLMを紹介する。
DNA-DetectLLMはAUROCで5.55%、F1スコアで2.08%の相対的な改善を実現している。
論文 参考訳(メタデータ) (2025-09-19T03:08:13Z) - Humanizing Machine-Generated Content: Evading AI-Text Detection through Adversarial Attack [24.954755569786396]
そこで本研究では,機械生成コンテンツの小さな摂動を回避して検出を回避すべく,より広いレベルの敵攻撃のためのフレームワークを提案する。
我々は、ホワイトボックスとブラックボックスの2つの攻撃設定を検討し、現在の検出モデルのロバスト性を高める可能性を評価するために、動的シナリオにおける逆学習を採用する。
実験の結果、現在の検出モデルは10秒で妥協でき、機械が生成したテキストを人間の書き起こしコンテンツとして誤分類する結果となった。
論文 参考訳(メタデータ) (2024-04-02T12:49:22Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - Can AI-Generated Text be Reliably Detected? [50.95804851595018]
大規模言語モデル(LLM)は、様々なアプリケーションで非常によく機能します。
盗作、偽ニュースの発生、スパムなどの活動においてこれらのモデルが誤用される可能性があることは、彼らの責任ある使用に対する懸念を引き起こしている。
我々は、攻撃者の存在下で、これらのAIテキスト検出装置の堅牢性を強調テストする。
論文 参考訳(メタデータ) (2023-03-17T17:53:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。