論文の概要: On the Insecurity of Keystroke-Based AI Authorship Detection: Timing-Forgery Attacks Against Motor-Signal Verification
- arxiv url: http://arxiv.org/abs/2601.17280v1
- Date: Sat, 24 Jan 2026 03:39:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:07.499104
- Title: On the Insecurity of Keystroke-Based AI Authorship Detection: Timing-Forgery Attacks Against Motor-Signal Verification
- Title(参考訳): キーストロークに基づくAIオーサシップ検出の安全性について:モータ信号検証に対するタイミング予測攻撃
- Authors: David Condrey,
- Abstract要約: 最近の提案では、AI生成コンテンツと人為的なテキストを区別するためにキーストロークタイミング信号を使うことを提唱している。
このタイプの防御は、2つの実践的な攻撃クラスに対して安全でないことを示す。
検出者がタイミングのみを観測した場合、特徴と内容の出所の相互情報はコピー型攻撃ではゼロとなる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent proposals advocate using keystroke timing signals, specifically the coefficient of variation ($δ$) of inter-keystroke intervals, to distinguish human-composed text from AI-generated content. We demonstrate that this class of defenses is insecure against two practical attack classes: the copy-type attack, in which a human transcribes LLM-generated text producing authentic motor signals, and timing-forgery attacks, in which automated agents sample inter-keystroke intervals from empirical human distributions. Using 13,000 sessions from the SBU corpus and three timing-forgery variants (histogram sampling, statistical impersonation, and generative LSTM), we show all attacks achieve $\ge$99.8% evasion rates against five classifiers. While detectors achieve AUC=1.000 against fully-automated injection, they classify $\ge$99.8% of attack samples as human with mean confidence $\ge$0.993. We formalize a non-identifiability result: when the detector observes only timing, the mutual information between features and content provenance is zero for copy-type attacks. Although composition and transcription produce statistically distinguishable motor patterns (Cohen's d=1.28), both yield $δ$ values 2-4x above detection thresholds, rendering the distinction security-irrelevant. These systems confirm a human operated the keyboard, but not whether that human originated the text. Securing provenance requires architectures that bind the writing process to semantic content.
- Abstract(参考訳): 最近の提案では、キーストローク間隔の変動係数(δ$)をAI生成コンテンツと区別するためにキーストロークタイミング信号を使うことを提唱している。
本研究は,LLM生成テキストを人間が転写するコピー型攻撃と,自動エージェントが経験的ヒト分布からキーストローク間隔をサンプリングするタイミング鍛造攻撃の2つの実践的攻撃クラスに対して,この種類の防御が安全でないことを実証する。
SBUコーパスからの13,000のセッションと3つのタイミングフォージェリ変種(ヒストグラムサンプリング、統計的偽造、ジェネレーティブLSTM)を用いて、全ての攻撃が5つの分類子に対して$\ge$99.8%の回避率を達成することを示す。
検出器は全自動注入に対してAUC=1.000を達成するが、攻撃サンプルの$\ge$99.8%を平均信頼$\ge$0.993と分類する。
検出者がタイミングのみを観測した場合、特徴と内容の出所の相互情報はコピー型攻撃ではゼロとなる。
合成と転写は統計的に区別可能な運動パターン(コーエンd=1.28)を生成するが、どちらも検出しきい値の2~4倍の$δ$値となり、セキュリティに無関係である。
これらのシステムは、人間がキーボードを操作したことを確認しているが、その人がテキストを作成したかどうかは定かではない。
保証の確保には、記述プロセスをセマンティックコンテンツにバインドするアーキテクチャが必要である。
関連論文リスト
- PADBen: A Comprehensive Benchmark for Evaluating AI Text Detectors Against Paraphrase Attacks [2.540711742769252]
そこで本研究では,AIGT識別のために設計された検出システムに対して,繰り返しパラメタしたテキストが回避される理由について検討する。
パラフレーズ攻撃シナリオに対する検出ロバスト性を系統的に評価した最初のベンチマークであるPADBenを紹介する。
論文 参考訳(メタデータ) (2025-11-01T05:59:46Z) - Your Language Model Can Secretly Write Like Humans: Contrastive Paraphrase Attacks on LLM-Generated Text Detectors [77.82885394684202]
テキスト検出を効果的に欺く訓練不要な方法である textbfContrastive textbfParaphrase textbfAttack (CoPA) を提案する。
CoPAは、大規模言語モデルによって生成される人間のような分布とは対照的に、補助的な機械的な単語分布を構築している。
我々の理論的分析は、提案された攻撃の優越性を示唆している。
論文 参考訳(メタデータ) (2025-05-21T10:08:39Z) - Trigger without Trace: Towards Stealthy Backdoor Attack on Text-to-Image Diffusion Models [70.03122709795122]
テキストと画像の拡散モデルをターゲットにしたバックドア攻撃が急速に進んでいる。
現在のバックドアサンプルは良性サンプルと比較して2つの重要な異常を示すことが多い。
我々はこれらの成分を明示的に緩和することでTwT(Trigger without Trace)を提案する。
論文 参考訳(メタデータ) (2025-03-22T10:41:46Z) - OrderBkd: Textual backdoor attack through repositioning [0.0]
サードパーティのデータセットと事前トレーニングされた機械学習モデルは、NLPシステムに脅威をもたらす。
既存のバックドア攻撃は、トークンの挿入や文のパラフレーズなどのデータサンプルを毒殺する。
これまでの研究との大きな違いは、文中の2つの単語の配置をトリガーとして使うことです。
論文 参考訳(メタデータ) (2024-02-12T14:53:37Z) - Can AI-Generated Text be Reliably Detected? [50.95804851595018]
大規模言語モデル(LLM)は、様々なアプリケーションで非常によく機能します。
盗作、偽ニュースの発生、スパムなどの活動においてこれらのモデルが誤用される可能性があることは、彼らの責任ある使用に対する懸念を引き起こしている。
我々は、攻撃者の存在下で、これらのAIテキスト検出装置の堅牢性を強調テストする。
論文 参考訳(メタデータ) (2023-03-17T17:53:19Z) - Sample Efficient Detection and Classification of Adversarial Attacks via
Self-Supervised Embeddings [40.332149464256496]
ディープモデルのアドリヤロバスト性は、現実世界の環境において安全な配置を確保する上で重要な要素である。
本稿では、敵攻撃を検知し、それらの脅威モデルに分類する自己教師型手法を提案する。
我々は,SimCLRエンコーダを実験で使用しています。
論文 参考訳(メタデータ) (2021-08-30T16:39:52Z) - Hidden Backdoors in Human-Centric Language Models [12.694861859949585]
私たちはテキストバックドア攻撃の秘密と自然なトリガーを作成します。
隠れたバックドアを2つの最先端のトリガー埋め込みメソッドにデプロイします。
提案した隠れバックドアは,3つの下流セキュリティクリティカルなNLPタスクに対して有効であることを示す。
論文 参考訳(メタデータ) (2021-05-01T04:41:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。