論文の概要: Variation is the Key: A Variation-Based Framework for LLM-Generated Text Detection
- arxiv url: http://arxiv.org/abs/2602.13226v1
- Date: Tue, 27 Jan 2026 05:48:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 12:01:13.559546
- Title: Variation is the Key: A Variation-Based Framework for LLM-Generated Text Detection
- Title(参考訳): 変分が鍵: LLM生成テキスト検出のための変分ベースフレームワーク
- Authors: Xuecong Li, Xiaohong Li, Qiang Hu, Yao Zhang, Junjie Wang,
- Abstract要約: VaryBalanceは、大規模言語モデル(LLM)によって生成されたテキストを検出するシンプルだが効果的な方法である
VaryBalanceの中核は、LLM生成テキストと比較して、人間のテキストとLLMで書き直されたバージョンの間に大きな違いがあることである。
総合的な実験により、VaryBalanceは最先端の検出器であるBinocularsをAUROCで最大34.3%上回った。
- 参考スコア(独自算出の注目度): 14.828776526024617
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Detecting text generated by large language models (LLMs) is crucial but challenging. Existing detectors depend on impractical assumptions, such as white-box settings, or solely rely on text-level features, leading to imprecise detection ability. In this paper, we propose a simple but effective and practical LLM-generated text detection method, VaryBalance. The core of VaryBalance is that, compared to LLM-generated texts, there is a greater difference between human texts and their rewritten version via LLMs. Leveraging this observation, VaryBalance quantifies this through mean standard deviation and distinguishes human texts and LLM-generated texts. Comprehensive experiments demonstrated that VaryBalance outperforms the state-of-the-art detectors, i.e., Binoculars, by up to 34.3\% in terms of AUROC, and maintains robustness against multiple generating models and languages.
- Abstract(参考訳): 大規模言語モデル(LLM)が生成するテキストの検出は不可欠だが難しい。
既存の検出器は、ホワイトボックスの設定のような非現実的な仮定に依存するか、テキストレベルの機能にのみ依存しているため、不正確な検出能力に繋がる。
本稿では,単純かつ効果的かつ実用的なLLMテキスト検出手法であるVaryBalanceを提案する。
VaryBalanceの中核は、LLM生成テキストと比較して、人間のテキストとLLMを通して書き直されたバージョンの間に大きな違いがあることである。
この観察を活用して、VaryBalanceは平均的な標準偏差によってこれを定量化し、人間のテキストとLLM生成したテキストを区別する。
総合的な実験により、VaryBalanceは最先端の検出器であるBinocularsをAUROCで最大34.3\%上回る性能を示し、複数の生成モデルや言語に対する堅牢性を維持している。
関連論文リスト
- RepreGuard: Detecting LLM-Generated Text by Revealing Hidden Representation Patterns [50.401907401444404]
大規模言語モデル(LLM)は、誤用を防止し、信頼できるAIシステムを構築するために不可欠である。
本稿では,統計量に基づく効率的な検出手法であるRepreGuardを提案する。
実験結果から、RepreGuardは、平均94.92%のAUROCですべてのベースラインでID(in-distriion)とOOD(OOD)の両方のシナリオでパフォーマンスが向上していることが示された。
論文 参考訳(メタデータ) (2025-08-18T17:59:15Z) - Feature-Level Insights into Artificial Text Detection with Sparse Autoencoders [20.557610461777344]
Sparse Autoencoders (SAE) を用いてGemma-2-2b残ストリームから特徴を抽出する。
解釈可能な特徴と効率的な特徴の両方を識別し,その意味と妥当性を解析する。
提案手法は, さまざまなモデルからのテキストと人文コンテンツとの相違点について, 貴重な知見を提供する。
論文 参考訳(メタデータ) (2025-03-05T15:33:52Z) - Detecting Machine-Generated Long-Form Content with Latent-Space Variables [54.07946647012579]
既存のゼロショット検出器は主に、現実世界のドメインシフトに弱いトークンレベルの分布に焦点を当てている。
本稿では,イベント遷移などの抽象的要素を機械対人文検出の鍵となる要因として組み込んだ,より堅牢な手法を提案する。
論文 参考訳(メタデータ) (2024-10-04T18:42:09Z) - Who Wrote This? The Key to Zero-Shot LLM-Generated Text Detection Is GECScore [51.65730053591696]
我々は,人文テキストがLLM生成テキストよりも文法的誤りを多く含んでいるという観察に基づく,シンプルで効果的なブラックボックスゼロショット検出手法を提案する。
実験結果から,本手法はゼロショット法や教師あり手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-05-07T12:57:01Z) - MAGE: Machine-generated Text Detection in the Wild [82.70561073277801]
大規模言語モデル(LLM)は人間レベルのテキスト生成を実現し、効果的なAI生成テキスト検出の必要性を強調している。
我々は、異なるLLMによって生成される多様な人文やテキストからテキストを収集することで、包括的なテストベッドを構築する。
問題にもかかわらず、トップパフォーマンス検出器は、新しいLCMによって生成された86.54%のドメイン外のテキストを識別することができ、アプリケーションシナリオの実現可能性を示している。
論文 参考訳(メタデータ) (2023-05-22T17:13:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。