論文の概要: Steer-to-Detect: Probing Hidden Representations for Detection of LLM-Generated Texts
- arxiv url: http://arxiv.org/abs/2605.12890v1
- Date: Wed, 13 May 2026 02:14:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.756978
- Title: Steer-to-Detect: Probing Hidden Representations for Detection of LLM-Generated Texts
- Title(参考訳): Steer-to-Detect: LLM生成テキスト検出のための隠れ表現の提案
- Authors: Luxu Liang, Xiang Li,
- Abstract要約: 大規模言語モデル(LLM)を検出するフレームワークであるSteer-to-Detect(textttS2D)を提案する。
第1段階では、 textttS2D は凍結観察者 LLM の隠れ状態に注入されるステアリングベクトルを学習する。
第2段階では、操舵された表現に基づいて仮説テスト手順を介して検出を行う。
- 参考スコア(独自算出の注目度): 4.404176366651557
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid advancement of large language models (LLMs) has made machine-generated text increasingly difficult to distinguish from human-written text. While recent studies explore leveraging internal representations of language models to uncover deeper detection signals, these raw features often exhibit substantial overlap between classes, limiting their discriminative power. To address this challenge, we propose Steer-to-Detect (\texttt{S2D}), a two-stage framework for detecting LLM-generated text. In the first stage, \texttt{S2D} learns a steering vector that is injected into the hidden states of a frozen observer LLM, producing representations with improved class separability. In the second stage, detection is performed via a hypothesis testing procedure based on the steered representations. We establish finite-sample, high-probability guarantees for Type I and Type II errors, providing a theoretical characterization of the procedure. Empirically, \texttt{S2D} achieves strong and consistent performance across a range of settings, including out-of-distribution scenarios and adversarial perturbations.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進歩により、機械が生成したテキストが人間の文章と区別することがますます困難になっている。
近年の研究では、言語モデルの内部表現を活用してより深い検出信号を明らかにする方法が検討されているが、これらの生の特徴はクラス間でかなりの重複を示し、識別力を制限することがしばしばある。
この課題に対処するため,LLM生成テキストを検出する2段階フレームワークであるSteer-to-Detect (\texttt{S2D})を提案する。
第1段階では、texttt{S2D} はフリーズオブザーバ LLM の隠れ状態に注入されるステアリングベクトルを学習し、クラス分離性を改善した表現を生成する。
第2段階では、操舵された表現に基づいて仮説テスト手順を介して検出を行う。
我々は,I型およびII型エラーに対する有限サンプル・高確率保証を確立し,その手順を理論的に評価する。
経験的に、 \texttt{S2D} は、アウト・オブ・ディストリビューションのシナリオや敵の摂動を含む、さまざまな設定で強力で一貫したパフォーマンスを達成する。
関連論文リスト
- Your Language Model Can Secretly Write Like Humans: Contrastive Paraphrase Attacks on LLM-Generated Text Detectors [77.82885394684202]
テキスト検出を効果的に欺く訓練不要な方法である textbfContrastive textbfParaphrase textbfAttack (CoPA) を提案する。
CoPAは、大規模言語モデルによって生成される人間のような分布とは対照的に、補助的な機械的な単語分布を構築している。
我々の理論的分析は、提案された攻撃の優越性を示唆している。
論文 参考訳(メタデータ) (2025-05-21T10:08:39Z) - Rethinking Vision-Language Model in Face Forensics: Multi-Modal Interpretable Forged Face Detector [21.19305310480085]
ディープフェイク検出(Deepfake detection)は、悪意のある誤報の拡散を緩和するための、長年にわたって確立されてきた研究テーマである。
同時に両方を生成できる新しい方法を提案する。
提案手法は,事前学習したCLIPのマルチモーダル学習能力と,大規模言語モデルの前例のない解釈可能性を利用する。
論文 参考訳(メタデータ) (2025-03-26T03:28:46Z) - Unveiling Large Language Models Generated Texts: A Multi-Level Fine-Grained Detection Framework [9.976099891796784]
大型言語モデル (LLM) は文法の修正、内容の拡張、文体の改良によって人間の書き方を変えてきた。
既存の検出方法は、主に単一機能分析とバイナリ分類に依存しているが、学術的文脈においてLLM生成テキストを効果的に識別することができないことが多い。
低レベル構造, 高レベル意味, 深層言語的特徴を統合することで, LLM生成テキストを検出する多レベルきめ細粒度検出フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-18T07:25:00Z) - OUTFOX: LLM-Generated Essay Detection Through In-Context Learning with
Adversarially Generated Examples [44.118047780553006]
OUTFOXは、LLM生成テキスト検出器の堅牢性を改善するフレームワークであり、検出器と攻撃者の両方が互いの出力を考慮できるようにする。
実験の結果,提案した検出器は攻撃者が生成したテキストの検出性能を最大41.3点F1スコアまで向上させることがわかった。
この検出器は最先端の検知性能を示し、96.9ポイントのF1スコアまで到達し、既存の検出器を非攻撃テキストで打ち負かした。
論文 参考訳(メタデータ) (2023-07-21T17:40:47Z) - Red Teaming Language Model Detectors with Language Models [114.36392560711022]
大規模言語モデル(LLM)は、悪意のあるユーザによって悪用された場合、重大な安全性と倫理的リスクをもたらす。
近年,LLM生成テキストを検出し,LLMを保護するアルゴリズムが提案されている。
1) LLMの出力中の特定の単語を, 文脈が与えられたシノニムに置き換えること, 2) 生成者の書き方を変更するための指示プロンプトを自動で検索すること,である。
論文 参考訳(メタデータ) (2023-05-31T10:08:37Z) - MAGE: Machine-generated Text Detection in the Wild [82.70561073277801]
大規模言語モデル(LLM)は人間レベルのテキスト生成を実現し、効果的なAI生成テキスト検出の必要性を強調している。
我々は、異なるLLMによって生成される多様な人文やテキストからテキストを収集することで、包括的なテストベッドを構築する。
問題にもかかわらず、トップパフォーマンス検出器は、新しいLCMによって生成された86.54%のドメイン外のテキストを識別することができ、アプリケーションシナリオの実現可能性を示している。
論文 参考訳(メタデータ) (2023-05-22T17:13:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。