論文の概要: When Personalization Tricks Detectors: The Feature-Inversion Trap in Machine-Generated Text Detection
- arxiv url: http://arxiv.org/abs/2510.12476v1
- Date: Tue, 14 Oct 2025 13:10:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.321691
- Title: When Personalization Tricks Detectors: The Feature-Inversion Trap in Machine-Generated Text Detection
- Title(参考訳): パーソナライズトリック検出:機械生成テキスト検出における特徴-反転トラップ
- Authors: Lang Gao, Xuhui Li, Chenxi Wang, Mingzhe Li, Wei Liu, Zirui Song, Jinghui Zhang, Rui Yan, Preslav Nakov, Xiuying Chen,
- Abstract要約: パーソナライズされた設定における検出ロバスト性を評価するための最初のベンチマークであるデータセットを紹介する。
実験により, 個別設定における検出器間の性能差が大きいことが示された。
パーソナライズされた設定における検出性能変化を簡易かつ信頼性の高い予測方法を提案する。
- 参考スコア(独自算出の注目度): 64.23509202768945
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have grown more powerful in language generation, producing fluent text and even imitating personal style. Yet, this ability also heightens the risk of identity impersonation. To the best of our knowledge, no prior work has examined personalized machine-generated text (MGT) detection. In this paper, we introduce \dataset, the first benchmark for evaluating detector robustness in personalized settings, built from literary and blog texts paired with their LLM-generated imitations. Our experimental results demonstrate large performance gaps across detectors in personalized settings: some state-of-the-art models suffer significant drops. We attribute this limitation to the \textit{feature-inversion trap}, where features that are discriminative in general domains become inverted and misleading when applied to personalized text. Based on this finding, we propose \method, a simple and reliable way to predict detector performance changes in personalized settings. \method identifies latent directions corresponding to inverted features and constructs probe datasets that differ primarily along these features to evaluate detector dependence. Our experiments show that \method can accurately predict both the direction and the magnitude of post-transfer changes, showing 85\% correlation with the actual performance gaps. We hope that this work will encourage further research on personalized text detection.
- Abstract(参考訳): 大きな言語モデル(LLM)は、言語生成においてより強力になり、流動的なテキストを生成し、個人的なスタイルを模倣する。
しかし、この能力はアイデンティティの偽造のリスクも高める。
我々の知る限りでは、パーソナライズされた機械生成テキスト(MGT)検出の事前調査は行われていない。
本稿では,LLM の模倣と組み合わせた文体とブログのテキストから構築した,パーソナライズされた設定におけるロバスト性評価のための最初のベンチマークである \dataset を紹介する。
実験の結果, 個別設定における検出器間の大きな性能差が示され, 最先端モデルでは大きな低下がみられた。
この制限は、パーソナライズされたテキストに適用すると、一般的なドメインで識別可能な特徴が逆転し、誤解を招くという、‘textit{feature-inversion trap}’に当てはまる。
そこで本研究では,パーソナライズされた設定における検出性能変化を簡易かつ信頼性の高い予測方法である<method</method</method</method</method</method</method</method</method</method</method</method</method</method</met
\methodは、反転した特徴に対応する潜伏方向を特定し、これらの特徴に沿って主に異なるプローブデータセットを構築して、検出器依存を評価する。
実験により,<method</method</method</method</method</method</method</method</method</method</method</method</method</method>と<method</method</method</method</method</method</method</method</method</method</method</method</method</method</method</method</method</method</
この研究により、パーソナライズされたテキスト検出に関するさらなる研究が促進されることを願っている。
関連論文リスト
- RepreGuard: Detecting LLM-Generated Text by Revealing Hidden Representation Patterns [50.401907401444404]
大規模言語モデル(LLM)は、誤用を防止し、信頼できるAIシステムを構築するために不可欠である。
本稿では,統計量に基づく効率的な検出手法であるRepreGuardを提案する。
実験結果から、RepreGuardは、平均94.92%のAUROCですべてのベースラインでID(in-distriion)とOOD(OOD)の両方のシナリオでパフォーマンスが向上していることが示された。
論文 参考訳(メタデータ) (2025-08-18T17:59:15Z) - Language Models Optimized to Fool Detectors Still Have a Distinct Style (And How to Change It) [5.789169343514737]
スタイル的な特徴空間は、検出を防ぐために最適化された言語モデルからのサンプルを確実に検出するために使用することができる。
我々は,文体的特徴空間における人書きと機械書きのギャップを埋めることを目的とした,新しい言い換えのアプローチを探求する。
論文 参考訳(メタデータ) (2025-05-20T16:55:44Z) - TempTest: Local Normalization Distortion and the Detection of Machine-generated Text [0.0]
本稿では,生成言語モデルに完全に依存した機械生成テキストを検出する手法を提案する。
これは、温度やトップkサンプリングのようなデコード戦略が条件付き確率測度を正規化する方法の欠陥を目標にすることで達成される。
我々は,様々な言語モデル,データセット,通過距離の異なる,白と黒のボックス設定での検出器の評価を行った。
論文 参考訳(メタデータ) (2025-03-26T10:56:59Z) - Detecting Machine-Generated Long-Form Content with Latent-Space Variables [54.07946647012579]
既存のゼロショット検出器は主に、現実世界のドメインシフトに弱いトークンレベルの分布に焦点を当てている。
本稿では,イベント遷移などの抽象的要素を機械対人文検出の鍵となる要因として組み込んだ,より堅牢な手法を提案する。
論文 参考訳(メタデータ) (2024-10-04T18:42:09Z) - IDT: Dual-Task Adversarial Attacks for Privacy Protection [8.312362092693377]
プライバシを保護するには、センシティブな属性を検出できないモデル内の表現を使用する必要がある。
補助的および解釈可能なモデルによる予測を分析し,どのトークンが変更に重要かを識別する手法であるIDTを提案する。
我々は、異なるタスクに適したNLPのための異なるデータセットを評価する。
論文 参考訳(メタデータ) (2024-06-28T04:14:35Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - LLMDet: A Third Party Large Language Models Generated Text Detection
Tool [119.0952092533317]
大規模言語モデル(LLM)は、高品質な人間によるテキストに非常に近い。
既存の検出ツールは、機械が生成したテキストと人間によるテキストしか区別できない。
本稿では,モデル固有,セキュア,効率的,拡張可能な検出ツールであるLLMDetを提案する。
論文 参考訳(メタデータ) (2023-05-24T10:45:16Z) - DPIC: Decoupling Prompt and Intrinsic Characteristics for LLM Generated Text Detection [56.513637720967566]
大規模言語モデル(LLM)は、盗作、eコマースプラットフォームへの偽レビューの設置、炎症性偽ツイートなどの誤用のリスクを引き起こすテキストを生成することができる。
既存の高品質な検出手法では、本質的な特徴を抽出するために、モデルの内部にアクセスする必要がある。
ブラックボックスモデル生成テキストの深い内在特性を抽出する。
論文 参考訳(メタデータ) (2023-05-21T17:26:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。