論文の概要: Evolving and Detecting Multi-Turn Deception using Geometric Signatures
- arxiv url: http://arxiv.org/abs/2605.27671v1
- Date: Tue, 26 May 2026 20:48:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.512957
- Title: Evolving and Detecting Multi-Turn Deception using Geometric Signatures
- Title(参考訳): 幾何学的シグナチャを用いた多段階誤認の進化と検出
- Authors: Surender Suresh Kumar, Mary L. Cummings,
- Abstract要約: 大型言語モデル(LLM)の安全防衛は、通常、単一ターンプロンプトで訓練され、評価される。
本稿では,現実的なマルチターン誤認質問セットを生成する統一パイプラインを提案する。
このデータを用いて、禁止された情報にアクセスしようとする詐欺的試みを検出することができた。
- 参考スコア(独自算出の注目度): 1.160208922584163
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safety defenses for large language models (LLMs) are typically trained and evaluated on single-turn prompts, yet real attacks often unfold as indirect, multi-turn probing. To defend against this more nuanced form of deception, we present a unified pipeline that generates realistic multi-turn deceptive question sets via multi-objective genetic prompt optimization with co-evolving mutation operators. We validate this dataset through a human study, which also revealed that early generations yielded the most convincing deception and practical constraints such as adherence filtering and ordering effects. Using this data, we were able to detect deceptive attempts to access prohibited information using simple, explainable geometric signals in embedding space coupled with a lightweight feed-forward classifier. Three geometric features (angular coverage, distance ratio, and linearity) augmented with pairwise similarity statistics led to a compact predictive model that achieved consistently high recall (0.89) across base, reworded, and truncated (three-turn) scenarios, with test-time F1 ranging from 0.74-0.86. The results support a central hypothesis that multi-turn deceptive intent leaves a stable geometric footprint that enables lightweight, transparent screening without expensive end-to-end training. We further discuss responsible uses, limitations, and paths toward larger, more diverse human-evaluated datasets. The primary contribution to artificial intelligence is the multi-objective evolutionary framework for prompt generation, and the engineering application is the deployment of a lightweight geometric detection system for LLM safety infrastructure.
- Abstract(参考訳): 大規模言語モデル(LLM)の安全防御は、通常、単一ターンのプロンプトで訓練され評価されるが、実際の攻撃はしばしば間接的、複数ターンの探索として展開される。
そこで本研究では, 突然変異演算子を併用した多目的遺伝的プロンプト最適化により, 現実的なマルチターン・シークエンス問題集合を生成する統一パイプラインを提案する。
我々は、このデータセットを人間の研究によって検証し、初期の世代が最も説得力のある詐欺と、定着度フィルタリングや順序付け効果といった実践的な制約を生んだことも明らかにした。
このデータを用いて,軽量フィードフォワード分類器と組み合わされた埋め込み空間における簡易で説明可能な幾何学的信号を用いて,禁止情報にアクセスしようとする詐欺的試みを検出することができた。
3つの幾何学的特徴(角のカバレッジ、距離比、線形性)をペアの類似性統計で拡張し、連続的に高いリコール(0.89)を達成し、ベース、リワード、トランケート(3ターン)のシナリオを達成し、テスト時間F1は0.74-0.86の範囲であった。
結果は、マルチターンの偽装意図が、高価なエンドツーエンドトレーニングなしで、軽量で透明なスクリーニングを可能にする安定した幾何学的フットプリントを残しているという中心的な仮説を支持している。
さらに、より大きく、より多様な人間評価データセットへの責任ある利用、制限、パスについて論じる。
人工知能への主な貢献は、迅速な生成のための多目的進化フレームワークであり、工学的応用は、LLM安全インフラのための軽量な幾何学的検出システムを展開することである。
関連論文リスト
- Scaling Exposes the Trigger: Input-Level Backdoor Detection in Text-to-Image Diffusion Models via Cross-Attention Scaling [12.573852448122716]
テキスト・ツー・イメージ(T2I)拡散モデルは画像合成において顕著な成功を収めているが、大規模データやオープンエコシステムへの依存は深刻なバックドアセキュリティリスクをもたらす。
既存の防御、特に入力レベルメソッドは、より実用的だが、しばしばステルスでセマンティクスを保存するトリガー設計の下で信頼性が低い観測可能な異常に頼っている。
入力レベルのバックドア検出フレームワークであるSETを提案する。これはマルチスケールの摂動下で応答オフセット機能を構築し、小さなクリーンなサンプル集合からコンパクトな良性応答空間を学習する。
論文 参考訳(メタデータ) (2026-04-14T08:31:37Z) - A Synthetic Conversational Smishing Dataset for Social Engineering Detection [0.0]
本稿では,現実的な会話スマイシング攻撃をエミュレートするために,3,201個のラベル付きマルチラウンド会話のデータセットを提案する。
その結果、TF-IDFベースのモデルは、エンジニアリング機能のみを使用したモデルよりも一貫して優れていた。
論文 参考訳(メタデータ) (2026-04-13T17:26:17Z) - Improving Deepfake Detection with Reinforcement Learning-Based Adaptive Data Augmentation [60.04281435591454]
CRDA(Curriculum Reinforcement-Learning Data Augmentation)は、マルチドメインの偽造機能を段階的にマスターするための検出器を導く新しいフレームワークである。
私たちのアプローチの中心は、強化学習と因果推論を統合することです。
提案手法は検出器の一般化性を大幅に向上し,複数のクロスドメインデータセット間でSOTA法より優れている。
論文 参考訳(メタデータ) (2025-11-10T12:45:52Z) - Open-Set Deepfake Detection: A Parameter-Efficient Adaptation Method with Forgery Style Mixture [81.93945602120453]
本稿では,顔偽造検出に汎用的かつパラメータ効率の高い手法を提案する。
フォージェリー・ソース・ドメインの多様性を増大させるフォージェリー・ミックス・フォーミュレーションを設計する。
設計したモデルは、トレーニング可能なパラメータを著しく減らし、最先端の一般化性を実現する。
論文 参考訳(メタデータ) (2024-08-23T01:53:36Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Avoid Adversarial Adaption in Federated Learning by Multi-Metric
Investigations [55.2480439325792]
Federated Learning(FL)は、分散機械学習モデルのトレーニング、データのプライバシの保護、通信コストの低減、多様化したデータソースによるモデルパフォーマンスの向上を支援する。
FLは、中毒攻撃、標的外のパフォーマンス劣化とターゲットのバックドア攻撃の両方でモデルの整合性を損なうような脆弱性に直面している。
我々は、複数の目的に同時に適応できる、強い適応的敵の概念を新たに定義する。
MESASは、実際のデータシナリオで有効であり、平均オーバーヘッドは24.37秒である。
論文 参考訳(メタデータ) (2023-06-06T11:44:42Z) - Enhancing Multiple Reliability Measures via Nuisance-extended
Information Bottleneck [77.37409441129995]
トレーニングデータに制限がある現実的なシナリオでは、データ内の多くの予測信号は、データ取得のバイアスからより多く得る。
我々は,相互情報制約の下で,より広い範囲の摂動をカバーできる敵の脅威モデルを考える。
そこで本研究では,その目的を実現するためのオートエンコーダベーストレーニングと,提案したハイブリッド識別世代学習を促進するための実用的なエンコーダ設計を提案する。
論文 参考訳(メタデータ) (2023-03-24T16:03:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。