論文の概要: Why AI-Generated Text Detection Fails: Evidence from Explainable AI Beyond Benchmark Accuracy
- arxiv url: http://arxiv.org/abs/2603.23146v1
- Date: Tue, 24 Mar 2026 12:46:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.479992
- Title: Why AI-Generated Text Detection Fails: Evidence from Explainable AI Beyond Benchmark Accuracy
- Title(参考訳): AI生成テキスト検出が失敗する理由:ベンチマークの正確性を超えた説明可能なAIからの証拠
- Authors: Shushanta Pudasaini, Luis Miralles-Pechuán, David Lillis, Marisa Llorens Salvador,
- Abstract要約: 本稿では,言語機能工学,機械学習,説明可能なAI技術を統合するフレームワークを提案する。
SHAPに基づく説明を用いて、最も影響力のある特徴がデータセットによって著しく異なることを示す。
この知識は、さまざまな設定で堅牢なAI検出器を構築するのに役立ちます。
- 参考スコア(独自算出の注目度): 0.9169660430821364
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The widespread adoption of Large Language Models (LLMs) has made the detection of AI-Generated text a pressing and complex challenge. Although many detection systems report high benchmark accuracy, their reliability in real-world settings remains uncertain, and their interpretability is often unexplored. In this work, we investigate whether contemporary detectors genuinely identify machine authorship or merely exploit dataset-specific artefacts. We propose an interpretable detection framework that integrates linguistic feature engineering, machine learning, and explainable AI techniques. When evaluated on two prominent benchmark corpora, namely PAN CLEF 2025 and COLING 2025, our model trained on 30 linguistic features achieves leaderboard-competitive performance, attaining an F1 score of 0.9734. However, systematic cross-domain and cross-generator evaluation reveals substantial generalisation failure: classifiers that excel in-domain degrade significantly under distribution shift. Using SHAP- based explanations, we show that the most influential features differ markedly between datasets, indicating that detectors often rely on dataset-specific stylistic cues rather than stable signals of machine authorship. Further investigation with in-depth error analysis exposes a fundamental tension in linguistic-feature-based AI text detection: the features that are most discriminative on in-domain data are also the features most susceptible to domain shift, formatting variation, and text-length effects. We believe that this knowledge helps build AI detectors that are robust across different settings. To support replication and practical use, we release an open-source Python package that returns both predictions and instance-level explanations for individual texts.
- Abstract(参考訳): LLM(Large Language Models)が広く採用されているため、AI生成テキストの検出は、迫力と複雑な課題となっている。
多くの検出システムは高いベンチマーク精度を報告しているが、実際の設定における信頼性は依然として不明であり、その解釈可能性はしばしば未解明である。
本研究では,現代の検出器が真にマシンのオーサシップを識別しているか,あるいは単にデータセット固有のアーティファクトを利用するのかを検討する。
本稿では,言語機能工学,機械学習,説明可能なAI技術を統合した解釈可能な検出フレームワークを提案する。
PAN CLEF 2025 と COING 2025 の2つのベンチマークコーパスで評価すると,30 の言語的特徴を訓練した結果,F1 スコアが 0.9734 となった。
しかし、系統的クロスドメインとクロスジェネレータの評価は、分布シフトの際、ドメイン内を最適化する分類器が著しく劣化する、重大な一般化の失敗を示す。
SHAPに基づく説明を用いて、最も影響力のある特徴がデータセット間で著しく異なることを示し、検出器がしばしばマシンオーサシップの安定した信号ではなく、データセット固有のスタイル的手がかりに依存していることを示す。
詳細なエラー分析によるさらなる調査は、言語機能ベースのAIテキスト検出における基本的な緊張を露呈する。ドメイン内のデータで最も識別可能な機能は、ドメインシフト、フォーマットのバリエーション、テキスト長の影響に最も影響を受けやすい機能である。
この知識は、さまざまな設定で堅牢なAI検出器を構築するのに役立ちます。
レプリケーションと実用的な使用をサポートするため、個々のテキストに対する予測とインスタンスレベルの説明の両方を返す、オープンソースのPythonパッケージをリリースしています。
関連論文リスト
- DependencyAI: Detecting AI Generated Text through Dependency Parsing [10.075606234222963]
本稿では,AI生成テキストを検出するための簡易かつ解釈可能なアプローチであるDependencyAIを紹介する。
本手法は,モノリンガル,マルチジェネレータ,多言語設定間での競合性能を実現する。
論文 参考訳(メタデータ) (2026-02-17T11:42:28Z) - Human Texts Are Outliers: Detecting LLM-generated Texts via Out-of-distribution Detection [71.59834293521074]
我々は,人間によるテキストと機械によるテキストを区別する枠組みを開発した。
提案手法は,DeepFakeデータセット上で98.3%のAUROCとAUPRを8.9%のFPR95で達成する。
コード、事前トレーニングされたウェイト、デモがリリースされる。
論文 参考訳(メタデータ) (2025-10-07T08:14:45Z) - Text-ADBench: Text Anomaly Detection Benchmark based on LLMs Embedding [27.02879006439693]
本研究は、総合的な実証的研究を行い、テキスト異常検出のためのベンチマークを導入する。
本研究は,埋め込み型テキスト異常検出の有効性を系統的に評価する。
ベンチマークツールキットをオープンソース化することで、この研究は、堅牢でスケーラブルなテキスト異常検出システムにおける将来の研究の基礎を提供する。
論文 参考訳(メタデータ) (2025-07-16T14:47:41Z) - IPAD: Inverse Prompt for AI Detection -- A Robust and Explainable LLM-Generated Text Detector [11.112793289424886]
大規模言語モデル (LLM) は、人間の書き起こしたテキストとLLM生成したテキストの区別を複雑にするテキスト生成において、人間レベルの流布を達成している。
既存の検出器は、オフ・オブ・ディストリビューション(OOD)データとアタックデータに弱いロバスト性を示す。
本稿では,入力テキストを生成可能な予測プロンプトを識別するPromptと,入力テキストが予測プロンプトと一致する確率を調べるDistinguisherからなる,新しいフレームワークであるIPADを提案する。
論文 参考訳(メタデータ) (2025-02-21T19:41:32Z) - Who Writes What: Unveiling the Impact of Author Roles on AI-generated Text Detection [44.05134959039957]
本稿では,社会言語学的属性・ジェンダー,CEFR習熟度,学術分野,言語環境に影響を及ぼすAIテキスト検出装置について検討する。
CEFRの習熟度と言語環境は一貫して検出器の精度に影響を与え,性別や学術分野は検出器に依存した効果を示した。
これらの発見は、特定の人口集団に不公平に罰を与えるのを避けるために、社会的に認識されたAIテキストの検出が不可欠であることを示している。
論文 参考訳(メタデータ) (2025-02-18T07:49:31Z) - Where are we in audio deepfake detection? A systematic analysis over generative and detection models [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供する。
従来のモデルベース検出システムと基礎モデルベース検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。