論文の概要: RepreGuard: Detecting LLM-Generated Text by Revealing Hidden Representation Patterns
- arxiv url: http://arxiv.org/abs/2508.13152v1
- Date: Mon, 18 Aug 2025 17:59:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:11.526463
- Title: RepreGuard: Detecting LLM-Generated Text by Revealing Hidden Representation Patterns
- Title(参考訳): RepreGuard:隠れ表現パターンの探索によるLLM生成テキストの検出
- Authors: Xin Chen, Junchao Wu, Shu Yang, Runzhe Zhan, Zeyu Wu, Ziyang Luo, Di Wang, Min Yang, Lidia S. Chao, Derek F. Wong,
- Abstract要約: 大規模言語モデル(LLM)は、誤用を防止し、信頼できるAIシステムを構築するために不可欠である。
本稿では,統計量に基づく効率的な検出手法であるRepreGuardを提案する。
実験結果から、RepreGuardは、平均94.92%のAUROCですべてのベースラインでID(in-distriion)とOOD(OOD)の両方のシナリオでパフォーマンスが向上していることが示された。
- 参考スコア(独自算出の注目度): 50.401907401444404
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Detecting content generated by large language models (LLMs) is crucial for preventing misuse and building trustworthy AI systems. Although existing detection methods perform well, their robustness in out-of-distribution (OOD) scenarios is still lacking. In this paper, we hypothesize that, compared to features used by existing detection methods, the internal representations of LLMs contain more comprehensive and raw features that can more effectively capture and distinguish the statistical pattern differences between LLM-generated texts (LGT) and human-written texts (HWT). We validated this hypothesis across different LLMs and observed significant differences in neural activation patterns when processing these two types of texts. Based on this, we propose RepreGuard, an efficient statistics-based detection method. Specifically, we first employ a surrogate model to collect representation of LGT and HWT, and extract the distinct activation feature that can better identify LGT. We can classify the text by calculating the projection score of the text representations along this feature direction and comparing with a precomputed threshold. Experimental results show that RepreGuard outperforms all baselines with average 94.92% AUROC on both in-distribution (ID) and OOD scenarios, while also demonstrating robust resilience to various text sizes and mainstream attacks. Data and code are publicly available at: https://github.com/NLP2CT/RepreGuard
- Abstract(参考訳): 大規模言語モデル(LLM)によって生成されたコンテンツを検出することは、誤用を防止し、信頼できるAIシステムを構築するために不可欠である。
既存の検出手法は良好に機能するが、アウト・オブ・ディストリビューション(OOD)シナリオにおけるロバスト性はまだ不足している。
本稿では,従来の検出法と比較すると,LLMの内部表現にはより包括的で生的な特徴が含まれており,LLM生成テキスト(LGT)と人文テキスト(HWT)の統計的パターンの差異をより効果的に捉え,識別することができると仮定する。
我々は,この仮説を異なるLLMで検証し,これら2種類のテキストを処理する際に,神経活動パターンに有意な差異が認められた。
そこで本研究では,統計量に基づく効率的な検出手法であるRepreGuardを提案する。
具体的には、まず、LGTとHWTの表現を収集するために代理モデルを使用し、LGTをよりよく識別できるアクティベーション機能を抽出する。
この特徴方向に沿ってテキスト表現の投影スコアを計算し、事前計算された閾値と比較することにより、テキストを分類することができる。
実験の結果、RepreGuardは、平均94.92%のAUROCで、分散(ID)とOODの両方のシナリオで全てのベースラインを上回り、また、テキストサイズやメインストリーム攻撃に対して堅牢なレジリエンスを示した。
データとコードは、https://github.com/NLP2CT/RepreGuardで公開されている。
関連論文リスト
- You've Changed: Detecting Modification of Black-Box Large Language Models [4.7541096609711]
大規模言語モデル(LLM)はAPIを通じてサービスとして提供されることが多いため、開発者は振る舞いの変化を検出することが難しい。
生成したテキストの言語的特徴と心理言語学的特徴の分布を比較することで,変化に対するLLMの監視手法を提案する。
論文 参考訳(メタデータ) (2025-04-14T04:16:43Z) - Feature-Level Insights into Artificial Text Detection with Sparse Autoencoders [20.557610461777344]
Sparse Autoencoders (SAE) を用いてGemma-2-2b残ストリームから特徴を抽出する。
解釈可能な特徴と効率的な特徴の両方を識別し,その意味と妥当性を解析する。
提案手法は, さまざまなモデルからのテキストと人文コンテンツとの相違点について, 貴重な知見を提供する。
論文 参考訳(メタデータ) (2025-03-05T15:33:52Z) - Idiosyncrasies in Large Language Models [54.26923012617675]
大規模言語モデル(LLM)における慣用句の公開と研究
LLM生成テキストへの微調整テキスト埋め込みモデルにより,優れた分類精度が得られることがわかった。
我々はLLMを審査員として利用し、各モデルの慣用句の詳細かつオープンな記述を生成する。
論文 参考訳(メタデータ) (2025-02-17T18:59:02Z) - SPOT: Text Source Prediction from Originality Score Thresholding [6.790905400046194]
対策は誤報を検出することを目的としており、通常、あらゆる情報の関連性を認識するために訓練されたドメイン固有モデルを含む。
情報の有効性を評価する代わりに,信頼の観点からLLM生成テキストを調べることを提案する。
論文 参考訳(メタデータ) (2024-05-30T21:51:01Z) - Who Wrote This? The Key to Zero-Shot LLM-Generated Text Detection Is GECScore [51.65730053591696]
我々は,人文テキストがLLM生成テキストよりも文法的誤りを多く含んでいるという観察に基づく,シンプルで効果的なブラックボックスゼロショット検出手法を提案する。
実験結果から,本手法はゼロショット法や教師あり手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-05-07T12:57:01Z) - DPIC: Decoupling Prompt and Intrinsic Characteristics for LLM Generated Text Detection [56.513637720967566]
大規模言語モデル(LLM)は、盗作、eコマースプラットフォームへの偽レビューの設置、炎症性偽ツイートなどの誤用のリスクを引き起こすテキストを生成することができる。
既存の高品質な検出手法では、本質的な特徴を抽出するために、モデルの内部にアクセスする必要がある。
ブラックボックスモデル生成テキストの深い内在特性を抽出する。
論文 参考訳(メタデータ) (2023-05-21T17:26:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。