論文の概要: Multi-Hierarchical Feature Detection for Large Language Model Generated Text
- arxiv url: http://arxiv.org/abs/2509.18862v1
- Date: Tue, 23 Sep 2025 09:55:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.806006
- Title: Multi-Hierarchical Feature Detection for Large Language Model Generated Text
- Title(参考訳): 大規模言語モデル生成テキストの多階層的特徴検出
- Authors: Luyan Zhang, Xinyu Xie,
- Abstract要約: AIテキスト検出のための多階層的特徴統合について検討した。
我々は,MHFD(Multi-Hierarchical Feature Detection)を実装し,適応融合による意味解析,構文解析,統計的確率特徴を統合する。
複数のベンチマークデータセットによる実験結果から、MHFD法はドメイン内検出において89.7%の精度を達成し、クロスドメイン検出において84.2%の安定した性能を維持し、既存の手法よりも0.4-2.6%の緩やかな改善を示した。
- 参考スコア(独自算出の注目度): 2.5782420501870287
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid advancement of large language model technology, there is growing interest in whether multi-feature approaches can significantly improve AI text detection beyond what single neural models achieve. While intuition suggests that combining semantic, syntactic, and statistical features should provide complementary signals, this assumption has not been rigorously tested with modern LLM-generated text. This paper provides a systematic empirical investigation of multi-hierarchical feature integration for AI text detection, specifically testing whether the computational overhead of combining multiple feature types is justified by performance gains. We implement MHFD (Multi-Hierarchical Feature Detection), integrating DeBERTa-based semantic analysis, syntactic parsing, and statistical probability features through adaptive fusion. Our investigation reveals important negative results: despite theoretical expectations, multi-feature integration provides minimal benefits (0.4-0.5% improvement) while incurring substantial computational costs (4.2x overhead), suggesting that modern neural language models may already capture most relevant detection signals efficiently. Experimental results on multiple benchmark datasets demonstrate that the MHFD method achieves 89.7% accuracy in in-domain detection and maintains 84.2% stable performance in cross-domain detection, showing modest improvements of 0.4-2.6% over existing methods.
- Abstract(参考訳): 大規模言語モデル技術の急速な進歩により、多機能アプローチが単一のニューラルモデルが達成した以上のAIテキストの検出を大幅に改善できるかどうかへの関心が高まっている。
直観は、意味論的、構文的、統計的特徴の組み合わせは相補的な信号を与えるべきであることを示唆するが、この仮定は現代のLLM生成テキストで厳密に検証されていない。
本稿では,AIテキスト検出のための多階層的特徴統合を体系的に検討し,複数の特徴型を組み合わせる際の計算オーバーヘッドが性能向上によって正当化されるかどうかを実験的に検証する。
我々は,DeBERTaに基づく意味解析,構文解析,統計的確率特徴を適応融合により統合し,MHFD(Multi-Hierarchical Feature Detection)を実装した。
理論的な期待にもかかわらず、多機能統合は最小限の利点(0.4-0.5%の改善)を提供する一方で、かなりの計算コスト(4.2倍オーバーヘッド)を発生させ、現代のニューラルネットワークモデルは、既に最も関連性の高い検出信号を効率的に捉えている可能性があることを示唆している。
複数のベンチマークデータセットによる実験結果から、MHFD法はドメイン内検出において89.7%の精度を達成し、クロスドメイン検出において84.2%の安定した性能を維持し、既存の手法よりも0.4-2.6%の緩やかな改善を示した。
関連論文リスト
- AI Generated Text Detection [0.0]
本稿では,従来の機械学習モデルとトランスフォーマーベースアーキテクチャの両方を含む,AIテキスト検出手法の評価を行う。
我々は、HC3とDAIGT v2という2つのデータセットを使用して、統一されたベンチマークを構築し、情報漏洩を防止するためにトピックベースのデータ分割を適用する。
その結果、文脈モデリングは語彙的特徴よりもはるかに優れていることが示され、話題記憶の緩和の重要性が強調された。
論文 参考訳(メタデータ) (2026-01-07T11:18:10Z) - Semantic-Guided Natural Language and Visual Fusion for Cross-Modal Interaction Based on Tiny Object Detection [6.895355763564631]
本稿では, セマンティック誘導自然言語処理と高度な視覚認識バックボーンを組み合わせることで, オブジェクト検出のためのクロスモーダルインタラクションの最先端的手法を提案する。
提案手法は,BERT言語モデルとCNNに基づくParallel Residual Bi-Fusion Feature Pyramid Networkを統合する。
補題化と微調整技術を用いることで、テキスト入力から視覚的特徴にセマンティックキューを整列させ、小型で複雑な物体の検出精度を向上する。
論文 参考訳(メタデータ) (2025-11-07T18:38:00Z) - Human Texts Are Outliers: Detecting LLM-generated Texts via Out-of-distribution Detection [71.59834293521074]
我々は,人間によるテキストと機械によるテキストを区別する枠組みを開発した。
提案手法は,DeepFakeデータセット上で98.3%のAUROCとAUPRを8.9%のFPR95で達成する。
コード、事前トレーニングされたウェイト、デモがリリースされる。
論文 参考訳(メタデータ) (2025-10-07T08:14:45Z) - AdaDetectGPT: Adaptive Detection of LLM-Generated Text with Statistical Guarantees [12.122798309971316]
テキストが人間によって作成されているか,あるいは大言語モデル(LLM)によって作成されているかを決定する問題について検討する。
既存のアートロジットに基づく検出器は、所定のソースLLMの分布関数を用いて評価された観測テキストの対数確率から得られた統計値を利用する。
AdaDetectGPTは、ロジットベースの検出器の性能を高めるために、トレーニングデータから証人関数を適応的に学習する新しい分類器である。
論文 参考訳(メタデータ) (2025-09-29T10:04:35Z) - DetectAnyLLM: Towards Generalizable and Robust Detection of Machine-Generated Text Across Domains and Models [60.713908578319256]
タスク指向の知識で検出器を最適化するために,DDL(Direct Discrepancy Learning)を提案する。
そこで本研究では,最新のMGTD性能を実現する統合検出フレームワークであるTectAnyLLMを紹介する。
MIRAGEは5つのテキストドメインにまたがる10のコーパスから人書きテキストをサンプリングし、17個の最先端のLLMを使用して再生成または修正する。
論文 参考訳(メタデータ) (2025-09-15T10:59:57Z) - RepreGuard: Detecting LLM-Generated Text by Revealing Hidden Representation Patterns [50.401907401444404]
大規模言語モデル(LLM)は、誤用を防止し、信頼できるAIシステムを構築するために不可欠である。
本稿では,統計量に基づく効率的な検出手法であるRepreGuardを提案する。
実験結果から、RepreGuardは、平均94.92%のAUROCですべてのベースラインでID(in-distriion)とOOD(OOD)の両方のシナリオでパフォーマンスが向上していることが示された。
論文 参考訳(メタデータ) (2025-08-18T17:59:15Z) - Text-ADBench: Text Anomaly Detection Benchmark based on LLMs Embedding [27.02879006439693]
本研究は、総合的な実証的研究を行い、テキスト異常検出のためのベンチマークを導入する。
本研究は,埋め込み型テキスト異常検出の有効性を系統的に評価する。
ベンチマークツールキットをオープンソース化することで、この研究は、堅牢でスケーラブルなテキスト異常検出システムにおける将来の研究の基礎を提供する。
論文 参考訳(メタデータ) (2025-07-16T14:47:41Z) - Accelerated Test-Time Scaling with Model-Free Speculative Sampling [58.69141724095398]
STAND(Stochastic Adaptive N-gram Drafting)は,新しいモデルフリーな投機的デコード手法である。
従来の自己回帰復号法と比較して,STANDは推論遅延を60~65%削減することを示した。
モデルフリーのアプローチとして、STANDは追加のトレーニングなしで既存の言語モデルに適用できる。
論文 参考訳(メタデータ) (2025-06-05T07:31:18Z) - Advancing Tabular Stroke Modelling Through a Novel Hybrid Architecture and Feature-Selection Synergy [0.9999629695552196]
本研究は、ストロークを予測するように設計されたデータ駆動型、解釈可能な機械学習フレームワークを開発し、検証する。
定期的に収集された人口統計、生活習慣、臨床変数は4,981件の公的なコホートから得られた。
提案したモデルでは精度97.2%、F1スコア97.15%が達成され、先行する個人モデルと比較して大幅に向上した。
論文 参考訳(メタデータ) (2025-05-18T21:46:45Z) - Training-free LLM-generated Text Detection by Mining Token Probability Sequences [18.955509967889782]
大規模言語モデル(LLM)は、様々な領域にまたがる高品質なテキストを生成する際、顕著な能力を示した。
統計的特徴を慎重に設計することで、固有の相違に焦点をあてたトレーニングフリーな手法は、一般化と解釈性の向上を提供する。
局所的および大域的統計を相乗化して検出を増強する,新しいトレーニング不要検出器である textbfLastde を導入する。
論文 参考訳(メタデータ) (2024-10-08T14:23:45Z) - Pretraining Data Detection for Large Language Models: A Divergence-based Calibration Method [108.56493934296687]
本研究では,乱数から発散する概念に触発された偏差に基づくキャリブレーション手法を導入し,プリトレーニングデータ検出のためのトークン確率のキャリブレーションを行う。
我々は,中国語テキスト上でのLLMの検出手法の性能を評価するために,中国語のベンチマークであるPatentMIAを開発した。
論文 参考訳(メタデータ) (2024-09-23T07:55:35Z) - Advancing Automated Deception Detection: A Multimodal Approach to Feature Extraction and Analysis [0.0]
本研究は, 偽造検出モデルの精度を高めるために, 様々な特徴の抽出と組み合わせに焦点を当てる。
視覚、音声、テキストデータから特徴を体系的に抽出し、異なる組み合わせの実験を行うことで、印象的な99%の精度を達成できるロバストモデルを開発した。
論文 参考訳(メタデータ) (2024-07-08T14:59:10Z) - Adaptive Ensembles of Fine-Tuned Transformers for LLM-Generated Text Detection [0.0]
大規模言語モデル (LLM) は、多種多様なテキストコンテンツを生成するのに人間のように習熟している。
これまでの研究では、主に分散データセット上の単一モデルをテストしてきた。
分布内および分布外の両方のデータセット上で、トランスフォーマーをベースとした5つのモデルを検証した。
論文 参考訳(メタデータ) (2024-03-20T06:38:13Z) - LLMDet: A Third Party Large Language Models Generated Text Detection
Tool [119.0952092533317]
大規模言語モデル(LLM)は、高品質な人間によるテキストに非常に近い。
既存の検出ツールは、機械が生成したテキストと人間によるテキストしか区別できない。
本稿では,モデル固有,セキュア,効率的,拡張可能な検出ツールであるLLMDetを提案する。
論文 参考訳(メタデータ) (2023-05-24T10:45:16Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。