論文の概要: Hidden Human-Like Nature of Machine-Generated Texts: Theory and Detection Enhancement
- arxiv url: http://arxiv.org/abs/2605.23190v1
- Date: Fri, 22 May 2026 03:17:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.180026
- Title: Hidden Human-Like Nature of Machine-Generated Texts: Theory and Detection Enhancement
- Title(参考訳): 機械生成テキストの隠れ人間的特性:理論と検出の強化
- Authors: Chenwang Wu, Yiu-ming Cheung, Bo Han, Defu Lian,
- Abstract要約: 大規模言語モデル(LLM)が生成する機械生成テキスト(MGT)は、様々なアプリケーションでますます普及している。
既存の段落レベルの検出方法はMGTを完全に機械のような扱いで、MGTの隠れた人間的な性質を見渡す。
本研究では,隠れた人型スパンの影響を低減し,既存の検出器を改良するモデルに依存しないスタック拡張フレームワークを提案する。
- 参考スコア(独自算出の注目度): 108.30620357325559
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine-generated texts (MGTs) produced by large language models (LLMs) are increasingly prevalent across various applications, while their potential misuse in fake news propagation and phishing has raised serious concerns, highlighting the need for MGT detection. Existing paragraph-level detection methods commonly treat MGTs as entirely machine-like, overlooking the hidden human-like nature of machine-generated texts: even fully machine-generated texts may contain spans that are highly consistent with human writing. To this end, we first reveal the existence of such hidden human-like spans, and then theoretically analyze their impact on detection. Our analysis shows that these spans increase the sentence complexity for detection, thereby making MGT detection intrinsically harder. Based on this finding, we propose a model-agnostic stacked enhancement framework that improves existing detectors by reducing the influence of hidden human-like spans. Specifically, we model span-level retention decisions as a latent-variable problem and instantiate the optimization with a hard-EM-inspired procedure, where the detector iteratively filters confidently human-like subsequences and refines itself on the remaining text. Extensive experiments across various LLMs and practical scenarios demonstrate that the proposed framework consistently enhances existing detectors. Notably, the framework can also work in a training-free manner, offering flexibility and scalability for practical deployment.
- Abstract(参考訳): 大規模言語モデル(LLM)が生成する機械生成テキスト(MGT)は、様々なアプリケーションでますます普及しているが、偽ニュースの伝搬やフィッシングの誤用が深刻な懸念を招き、MGT検出の必要性を強調している。
既存の段落レベルの検出方法は、MGTを完全に機械的に扱い、機械生成されたテキストの隠れた人間的な性質を見渡す。
この目的のために、我々はまず、そのような隠れた人間のようなスパンの存在を明らかにし、その影響を理論的に分析する。
分析の結果,これらは文の複雑さを増大させ,MGTの検出を本質的に困難にしていることがわかった。
そこで本研究では,隠れた人型スパンの影響を低減し,既存の検出器を改良するモデルに依存しない拡張フレームワークを提案する。
具体的には、スパンレベルの保持決定を潜在変数問題としてモデル化し、その最適化をハードEMにインスパイアされた手順でインスタンス化する。
様々な LLM および実用シナリオにわたる大規模な実験により,提案手法が既存の検出器を継続的に強化することを示す。
特に、このフレームワークはトレーニング不要の方法で動作し、実用的なデプロイメントのための柔軟性とスケーラビリティを提供する。
関連論文リスト
- Base Models Look Human To AI Detectors [68.7723287560362]
ベースモデルから生成されたテキストは圧倒的に人間的であると判断されることが多いが、命令で調整されたテキストはそうではない。
提案するHumanization by Iterative Paraphrasing (HIP)は,ベースモデルをパラフラザーに最小限微調整し,反復的に適用する検出器非依存パイプラインである。
以上の結果から,現在の検出器は,機械生成テキストの概念よりも,命令チューニングやローカルコンテキストのアーティファクトを追跡していることが示唆された。
論文 参考訳(メタデータ) (2026-05-19T08:13:12Z) - Diversity Boosts AI-Generated Text Detection [51.56484100374058]
DivEyeは、予備的な機能を使って、予測不可能がテキスト間でどのように変動するかをキャプチャする、新しいフレームワークである。
提案手法は、既存のゼロショット検出器を最大33.2%向上させ、微調整ベースラインとの競合性能を達成する。
論文 参考訳(メタデータ) (2025-09-23T10:21:22Z) - HACo-Det: A Study Towards Fine-Grained Machine-Generated Text Detection under Human-AI Coauthoring [14.887491317701997]
本稿では,人間-AI共著者によるMGT検出の可能性について検討する。
より微細な検出器は、数値AI比で、共認可されたテキスト検出への経路を舗装することができることを示唆する。
実験結果から, 平均F1スコア0.462において, 計量法は微粒度検出に苦慮していることがわかった。
論文 参考訳(メタデータ) (2025-06-03T14:52:44Z) - Stress-testing Machine Generated Text Detection: Shifting Language Models Writing Style to Fool Detectors [4.7713095161046555]
本稿では,最新のMGT検出器の言語情報による敵攻撃に対するレジリエンスをテストするパイプラインを提案する。
我々は、MGTスタイルを人文テキスト(HWT)にシフトするために、言語モデルを微調整する。
これは検出器が構造的な手がかりに頼っていることを悪用し、新しい世代を検知することがより困難になる。
論文 参考訳(メタデータ) (2025-05-30T12:33:30Z) - Detecting Machine-Generated Long-Form Content with Latent-Space Variables [54.07946647012579]
既存のゼロショット検出器は主に、現実世界のドメインシフトに弱いトークンレベルの分布に焦点を当てている。
本稿では,イベント遷移などの抽象的要素を機械対人文検出の鍵となる要因として組み込んだ,より堅牢な手法を提案する。
論文 参考訳(メタデータ) (2024-10-04T18:42:09Z) - G3Detector: General GPT-Generated Text Detector [26.47122201110071]
本研究では,多分野にわたる合成テキストの同定に長けた,予測できないが強力な検出手法を提案する。
我々の検出器は、様々なモデルアーキテクチャと復号化戦略で一様に優れた性能を示す。
また、強力な検出回避技術を用いて生成されたテキストを識別する機能も備えている。
論文 参考訳(メタデータ) (2023-05-22T03:35:00Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z) - MGTBench: Benchmarking Machine-Generated Text Detection [54.81446366272403]
本稿では,強力な大規模言語モデル(LLM)に対するMGT検出のための最初のベンチマークフレームワークを提案する。
一般に単語が多ければ多いほど性能が向上し,ほとんどの検出手法はトレーニングサンプルをはるかに少なくして同様の性能が得られることを示す。
本研究は, テキスト属性タスクにおいて, モデルに基づく検出手法が依然として有効であることを示す。
論文 参考訳(メタデータ) (2023-03-26T21:12:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。