論文の概要: HLPD: Aligning LLMs to Human Language Preference for Machine-Revised Text Detection
- arxiv url: http://arxiv.org/abs/2511.06942v2
- Date: Thu, 13 Nov 2025 01:56:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 14:36:36.954685
- Title: HLPD: Aligning LLMs to Human Language Preference for Machine-Revised Text Detection
- Title(参考訳): HLPD:機械改訂テキスト検出のためのLLMを人間の言語に適応させる
- Authors: Fangqi Dai, Xingjian Jiang, Zizhuang Deng,
- Abstract要約: 本稿では,機械改訂テキストから生成されたテキストを検出するために,HLPD(Human Language Preference Detection)を提案する。
HLPDは報酬に基づくアライメントプロセスであるHuman Language Preference Optimization (HLPO)を採用し、スコアリングモデルのトークン分布を人間的な書き込みにシフトさせる。
GPTシリーズモデルで修正されたテキストを検出すると、HLPDはAUROCをImBDよりも15.11%改善し、Fast-DetectGPTを45.56%上回った。
- 参考スコア(独自算出の注目度): 3.090546888821788
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To prevent misinformation and social issues arising from trustworthy-looking content generated by LLMs, it is crucial to develop efficient and reliable methods for identifying the source of texts. Previous approaches have demonstrated exceptional performance in detecting texts fully generated by LLMs. However, these methods struggle when confronting more advanced LLM output or text with adversarial multi-task machine revision, especially in the black-box setting, where the generating model is unknown. To address this challenge, grounded in the hypothesis that human writing possesses distinctive stylistic patterns, we propose Human Language Preference Detection (HLPD). HLPD employs a reward-based alignment process, Human Language Preference Optimization (HLPO), to shift the scoring model's token distribution toward human-like writing, making the model more sensitive to human writing, therefore enhancing the identification of machine-revised text. We test HLPD in an adversarial multi-task evaluation framework that leverages a five-dimensional prompt generator and multiple advanced LLMs to create diverse revision scenarios. When detecting texts revised by GPT-series models, HLPD achieves a 15.11% relative improvement in AUROC over ImBD, surpassing Fast-DetectGPT by 45.56%. When evaluated on texts generated by advanced LLMs, HLPD achieves the highest average AUROC, exceeding ImBD by 5.53% and Fast-DetectGPT by 34.14%. Code will be made available at https://github.com/dfq2021/HLPD.
- Abstract(参考訳): LLMが生み出す信頼に値するコンテンツから生じる誤情報や社会問題を防止するために,テキストの発信元を特定するための効率的かつ信頼性の高い方法を開発することが重要である。
従来のアプローチでは、LLMが完全に生成したテキストの検出において、例外的な性能を示してきた。
しかし、これらの手法は、特に生成モデルが不明なブラックボックス設定において、より先進的なLCM出力や逆マルチタスクマシン修正によるテキストに直面するのに苦労する。
この課題に対処するために,人間の文章は独特のスタイルパターンを持つという仮説を基礎として,HLPD(Human Language Preference Detection)を提案する。
HLPDは報酬に基づくアライメントプロセスであるHLPO(Human Language Preference Optimization)を採用し、スコアリングモデルのトークン分布を人間のライティングにシフトさせる。
HLPDを5次元プロンプトジェネレータと複数の高度なLCMを併用し,多様なリビジョンシナリオを作成する逆マルチタスク評価フレームワークでテストする。
GPTシリーズモデルで修正されたテキストを検出すると、HLPDはAUROCをImBDよりも15.11%改善し、Fast-DetectGPTを45.56%上回った。
LLMが生成したテキストで評価すると、HLPDはImBDを5.53%上回り、Fast-DetectGPTを34.14%上回る平均AUROCを達成している。
コードはhttps://github.com/dfq2021/HLPD.comで公開される。
関連論文リスト
- Human Texts Are Outliers: Detecting LLM-generated Texts via Out-of-distribution Detection [71.59834293521074]
我々は,人間によるテキストと機械によるテキストを区別する枠組みを開発した。
提案手法は,DeepFakeデータセット上で98.3%のAUROCとAUPRを8.9%のFPR95で達成する。
コード、事前トレーニングされたウェイト、デモがリリースされる。
論文 参考訳(メタデータ) (2025-10-07T08:14:45Z) - RepreGuard: Detecting LLM-Generated Text by Revealing Hidden Representation Patterns [50.401907401444404]
大規模言語モデル(LLM)は、誤用を防止し、信頼できるAIシステムを構築するために不可欠である。
本稿では,統計量に基づく効率的な検出手法であるRepreGuardを提案する。
実験結果から、RepreGuardは、平均94.92%のAUROCですべてのベースラインでID(in-distriion)とOOD(OOD)の両方のシナリオでパフォーマンスが向上していることが示された。
論文 参考訳(メタデータ) (2025-08-18T17:59:15Z) - Unveiling Large Language Models Generated Texts: A Multi-Level Fine-Grained Detection Framework [9.976099891796784]
大型言語モデル (LLM) は文法の修正、内容の拡張、文体の改良によって人間の書き方を変えてきた。
既存の検出方法は、主に単一機能分析とバイナリ分類に依存しているが、学術的文脈においてLLM生成テキストを効果的に識別することができないことが多い。
低レベル構造, 高レベル意味, 深層言語的特徴を統合することで, LLM生成テキストを検出する多レベルきめ細粒度検出フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-18T07:25:00Z) - ReMoDetect: Reward Models Recognize Aligned LLM's Generations [55.06804460642062]
大型言語モデル (LLM) は人間の好むテキストを生成する。
本稿では,これらのモデルで共有される共通特性について述べる。
報奨モデルの検出能力をさらに向上する2つのトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T17:38:33Z) - Who Wrote This? The Key to Zero-Shot LLM-Generated Text Detection Is GECScore [51.65730053591696]
我々は,人文テキストがLLM生成テキストよりも文法的誤りを多く含んでいるという観察に基づく,シンプルで効果的なブラックボックスゼロショット検出手法を提案する。
実験結果から,本手法はゼロショット法や教師あり手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-05-07T12:57:01Z) - GPT-who: An Information Density-based Machine-Generated Text Detector [6.111161457447324]
精神言語学的に着想を得た最初のドメイン非依存型統計検出器であるGPT-whoを提案する。
この検出器は、UDDベースの特徴を用いて、LLM(Large Language Models)生成および人文生成の各テキストのユニークな統計的シグネチャをモデル化する。
過剰なテキストが認識できない場合でも、非常に洗練されたLCMによって生成されたテキストを区別できるGPT- who can distinguishing texts。
論文 参考訳(メタデータ) (2023-10-09T23:06:05Z) - LLMDet: A Third Party Large Language Models Generated Text Detection
Tool [119.0952092533317]
大規模言語モデル(LLM)は、高品質な人間によるテキストに非常に近い。
既存の検出ツールは、機械が生成したテキストと人間によるテキストしか区別できない。
本稿では,モデル固有,セキュア,効率的,拡張可能な検出ツールであるLLMDetを提案する。
論文 参考訳(メタデータ) (2023-05-24T10:45:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。