論文の概要: Multi-Hierarchical Feature Detection for Large Language Model Generated Text
- arxiv url: http://arxiv.org/abs/2509.18862v1
- Date: Tue, 23 Sep 2025 09:55:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.806006
- Title: Multi-Hierarchical Feature Detection for Large Language Model Generated Text
- Title(参考訳): 大規模言語モデル生成テキストの多階層的特徴検出
- Authors: Luyan Zhang, Xinyu Xie,
- Abstract要約: AIテキスト検出のための多階層的特徴統合について検討した。
我々は,MHFD(Multi-Hierarchical Feature Detection)を実装し,適応融合による意味解析,構文解析,統計的確率特徴を統合する。
複数のベンチマークデータセットによる実験結果から、MHFD法はドメイン内検出において89.7%の精度を達成し、クロスドメイン検出において84.2%の安定した性能を維持し、既存の手法よりも0.4-2.6%の緩やかな改善を示した。
- 参考スコア(独自算出の注目度): 2.5782420501870287
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid advancement of large language model technology, there is growing interest in whether multi-feature approaches can significantly improve AI text detection beyond what single neural models achieve. While intuition suggests that combining semantic, syntactic, and statistical features should provide complementary signals, this assumption has not been rigorously tested with modern LLM-generated text. This paper provides a systematic empirical investigation of multi-hierarchical feature integration for AI text detection, specifically testing whether the computational overhead of combining multiple feature types is justified by performance gains. We implement MHFD (Multi-Hierarchical Feature Detection), integrating DeBERTa-based semantic analysis, syntactic parsing, and statistical probability features through adaptive fusion. Our investigation reveals important negative results: despite theoretical expectations, multi-feature integration provides minimal benefits (0.4-0.5% improvement) while incurring substantial computational costs (4.2x overhead), suggesting that modern neural language models may already capture most relevant detection signals efficiently. Experimental results on multiple benchmark datasets demonstrate that the MHFD method achieves 89.7% accuracy in in-domain detection and maintains 84.2% stable performance in cross-domain detection, showing modest improvements of 0.4-2.6% over existing methods.
- Abstract(参考訳): 大規模言語モデル技術の急速な進歩により、多機能アプローチが単一のニューラルモデルが達成した以上のAIテキストの検出を大幅に改善できるかどうかへの関心が高まっている。
直観は、意味論的、構文的、統計的特徴の組み合わせは相補的な信号を与えるべきであることを示唆するが、この仮定は現代のLLM生成テキストで厳密に検証されていない。
本稿では,AIテキスト検出のための多階層的特徴統合を体系的に検討し,複数の特徴型を組み合わせる際の計算オーバーヘッドが性能向上によって正当化されるかどうかを実験的に検証する。
我々は,DeBERTaに基づく意味解析,構文解析,統計的確率特徴を適応融合により統合し,MHFD(Multi-Hierarchical Feature Detection)を実装した。
理論的な期待にもかかわらず、多機能統合は最小限の利点(0.4-0.5%の改善)を提供する一方で、かなりの計算コスト(4.2倍オーバーヘッド)を発生させ、現代のニューラルネットワークモデルは、既に最も関連性の高い検出信号を効率的に捉えている可能性があることを示唆している。
複数のベンチマークデータセットによる実験結果から、MHFD法はドメイン内検出において89.7%の精度を達成し、クロスドメイン検出において84.2%の安定した性能を維持し、既存の手法よりも0.4-2.6%の緩やかな改善を示した。
関連論文リスト
- DetectAnyLLM: Towards Generalizable and Robust Detection of Machine-Generated Text Across Domains and Models [60.713908578319256]
タスク指向の知識で検出器を最適化するために,DDL(Direct Discrepancy Learning)を提案する。
そこで本研究では,最新のMGTD性能を実現する統合検出フレームワークであるTectAnyLLMを紹介する。
MIRAGEは5つのテキストドメインにまたがる10のコーパスから人書きテキストをサンプリングし、17個の最先端のLLMを使用して再生成または修正する。
論文 参考訳(メタデータ) (2025-09-15T10:59:57Z) - RepreGuard: Detecting LLM-Generated Text by Revealing Hidden Representation Patterns [50.401907401444404]
大規模言語モデル(LLM)は、誤用を防止し、信頼できるAIシステムを構築するために不可欠である。
本稿では,統計量に基づく効率的な検出手法であるRepreGuardを提案する。
実験結果から、RepreGuardは、平均94.92%のAUROCですべてのベースラインでID(in-distriion)とOOD(OOD)の両方のシナリオでパフォーマンスが向上していることが示された。
論文 参考訳(メタデータ) (2025-08-18T17:59:15Z) - Text-ADBench: Text Anomaly Detection Benchmark based on LLMs Embedding [27.02879006439693]
本研究は、総合的な実証的研究を行い、テキスト異常検出のためのベンチマークを導入する。
本研究は,埋め込み型テキスト異常検出の有効性を系統的に評価する。
ベンチマークツールキットをオープンソース化することで、この研究は、堅牢でスケーラブルなテキスト異常検出システムにおける将来の研究の基礎を提供する。
論文 参考訳(メタデータ) (2025-07-16T14:47:41Z) - Accelerated Test-Time Scaling with Model-Free Speculative Sampling [58.69141724095398]
STAND(Stochastic Adaptive N-gram Drafting)は,新しいモデルフリーな投機的デコード手法である。
従来の自己回帰復号法と比較して,STANDは推論遅延を60~65%削減することを示した。
モデルフリーのアプローチとして、STANDは追加のトレーニングなしで既存の言語モデルに適用できる。
論文 参考訳(メタデータ) (2025-06-05T07:31:18Z) - Advancing Tabular Stroke Modelling Through a Novel Hybrid Architecture and Feature-Selection Synergy [0.9999629695552196]
本研究は、ストロークを予測するように設計されたデータ駆動型、解釈可能な機械学習フレームワークを開発し、検証する。
定期的に収集された人口統計、生活習慣、臨床変数は4,981件の公的なコホートから得られた。
提案したモデルでは精度97.2%、F1スコア97.15%が達成され、先行する個人モデルと比較して大幅に向上した。
論文 参考訳(メタデータ) (2025-05-18T21:46:45Z) - Training-free LLM-generated Text Detection by Mining Token Probability Sequences [18.955509967889782]
大規模言語モデル(LLM)は、様々な領域にまたがる高品質なテキストを生成する際、顕著な能力を示した。
統計的特徴を慎重に設計することで、固有の相違に焦点をあてたトレーニングフリーな手法は、一般化と解釈性の向上を提供する。
局所的および大域的統計を相乗化して検出を増強する,新しいトレーニング不要検出器である textbfLastde を導入する。
論文 参考訳(メタデータ) (2024-10-08T14:23:45Z) - Pretraining Data Detection for Large Language Models: A Divergence-based Calibration Method [108.56493934296687]
本研究では,乱数から発散する概念に触発された偏差に基づくキャリブレーション手法を導入し,プリトレーニングデータ検出のためのトークン確率のキャリブレーションを行う。
我々は,中国語テキスト上でのLLMの検出手法の性能を評価するために,中国語のベンチマークであるPatentMIAを開発した。
論文 参考訳(メタデータ) (2024-09-23T07:55:35Z) - Advancing Automated Deception Detection: A Multimodal Approach to Feature Extraction and Analysis [0.0]
本研究は, 偽造検出モデルの精度を高めるために, 様々な特徴の抽出と組み合わせに焦点を当てる。
視覚、音声、テキストデータから特徴を体系的に抽出し、異なる組み合わせの実験を行うことで、印象的な99%の精度を達成できるロバストモデルを開発した。
論文 参考訳(メタデータ) (2024-07-08T14:59:10Z) - Adaptive Ensembles of Fine-Tuned Transformers for LLM-Generated Text Detection [0.0]
大規模言語モデル (LLM) は、多種多様なテキストコンテンツを生成するのに人間のように習熟している。
これまでの研究では、主に分散データセット上の単一モデルをテストしてきた。
分布内および分布外の両方のデータセット上で、トランスフォーマーをベースとした5つのモデルを検証した。
論文 参考訳(メタデータ) (2024-03-20T06:38:13Z) - LLMDet: A Third Party Large Language Models Generated Text Detection
Tool [119.0952092533317]
大規模言語モデル(LLM)は、高品質な人間によるテキストに非常に近い。
既存の検出ツールは、機械が生成したテキストと人間によるテキストしか区別できない。
本稿では,モデル固有,セキュア,効率的,拡張可能な検出ツールであるLLMDetを提案する。
論文 参考訳(メタデータ) (2023-05-24T10:45:16Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。