論文の概要: PsychoPass: Geometric Profiling of Multi-Turn Adversarial LLM Conversations
- arxiv url: http://arxiv.org/abs/2606.03136v1
- Date: Tue, 02 Jun 2026 04:24:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.759628
- Title: PsychoPass: Geometric Profiling of Multi-Turn Adversarial LLM Conversations
- Title(参考訳): サイコパス:多軸逆LLM会話の幾何学的プロファイリング
- Authors: Muberra Ozmen, Subhabrata Majumdar,
- Abstract要約: 大規模言語モデル(LLM)に対するマルチターンジェイルブレイク攻撃は、現在のガードレールのミスマッチを明らかにする。
本稿では,表現空間における会話を経路としてモデル化し,コンテンツからダイナミクスへのシフトを提案する。
我々は,潜在的な攻撃を予測するために,埋め込み空間における会話軌跡から幾何学的特徴を抽出するフレームワークであるBioPassを紹介する。
- 参考スコア(独自算出の注目度): 6.151630965776935
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-turn jailbreak attacks on large language models (LLMs) reveal a mismatch in current guardrails: they operate on individual turns, while attacks unfold as trajectories across conversations. We propose a shift from content to dynamics, modeling conversations as paths in representation space and asking whether adversarial intent is encoded early in their geometry. We introduce PsychoPass, a framework that extracts geometric features from conversation trajectories in embedding space to predict a potential attack before harmful content is produced. These features achieve near-perfect performance in naïve classifiers, which is largely explained by the inclusion of number of turns as a feature. After removing this confound, a smaller but consistent geometric signal remains, with classification performance that does not depend meaningfully on encoder choice. Crucially, this signal appears early in the conversation: attack outcomes remain above chance from short prefixes alone, more reliably than baseline guardrails. A supporting theoretical analysis explains these findings via a decomposition of length and shape, a detection bound based on prefix length, and encoder invariance. Together, these results show that adversarial conversations leave an early, representation-robust geometric fingerprint suitable for online monitoring.
- Abstract(参考訳): 大規模言語モデル(LLM)に対するマルチターンジェイルブレイク攻撃は、現在のガードレールのミスマッチを明らかにしている。
本稿では、コンテンツからダイナミクスへのシフト、表現空間の経路としての会話のモデル化、および、その幾何学の早い段階で敵意が符号化されているかどうかを問う。
我々は,有害なコンテンツが生成される前に潜在的な攻撃を予測するために,埋め込み空間における会話軌跡から幾何学的特徴を抽出するフレームワークであるBioPassを紹介する。
これらの特徴はネーブ分類器においてほぼ完全な性能を達成するが、これは特徴としてターン数を含めることによって主に説明される。
この欠点を除去した後も、エンコーダの選択に依存しない分類性能で、より小さいが一貫した幾何信号が残る。
重要なことに、このシグナルは会話の初期段階に現れる:攻撃の結果は、ベースラインガードレールよりも確実に、短い接頭辞のみによる確率よりも高いままである。
支持理論解析では, 長さと形状の分解, 接頭辞長に基づく検出, エンコーダの不変性などを用いて, これらの知見を説明する。
これらの結果から, 対人会話は, オンライン監視に適した初期的, 表現不良な幾何学的指紋を残していることが明らかとなった。
関連論文リスト
- One Turn Too Late: Response-Aware Defense Against Hidden Malicious Intent in Multi-Turn Dialogue [55.98008208209856]
マルチターン対話における隠れた悪意のある意図は、大規模言語モデル(LLM)に対する脅威を増大させる
近年の研究では、安全アライメントや外部ガードレールの進歩にもかかわらず、高度なガードレールを備えた近代的な商用モデルでさえも、このような攻撃に対して脆弱であることが示されている。
そこで本研究では,この課題に対処するため,最も早いタイミングで候補応答を届けることによって,蓄積された相互作用が有害な作用を可能にするのに十分であることを示す。
論文 参考訳(メタデータ) (2026-05-07T03:35:31Z) - Finding Belief Geometries with Sparse Autoencoders [0.0]
本稿では,変圧器表現における単純な部分空間の候補を求めるパイプラインを提案する。
隠れマルコフモデルを用いて学習した変圧器上でのパイプラインの検証を行った。
真の信念のような幾何学がGemma-2-9Bの表現空間に存在するという予備的な証拠がある。
論文 参考訳(メタデータ) (2026-04-03T03:29:48Z) - Blockwise SFT for Diffusion Language Models: Reconciling Bidirectional Attention and Autoregressive Decoding [60.06816407728172]
離散拡散言語モデルは、テキスト生成に強い可能性を示している。
半自己回帰推論による微調整ミスアライメントの標準化
我々は、応答を固定サイズブロックに分割するBlockwise SFTを提案する。
論文 参考訳(メタデータ) (2025-08-27T02:49:33Z) - Mechanistic Interpretability in the Presence of Architectural Obfuscation [0.0]
アーキテクチャ難読化(Architectural obfuscation)は、プライバシ保存型大言語モデル(LLM)推論における重み付き暗号の軽量代用である。
我々は,代表的難読化マップを用いて,スクラッチから訓練したGPT-2小モデルを分析する。
その結果,難読化は注目ヘッド内のアクティベーションパターンを劇的に変化させるが,層幅の計算グラフは保存されることがわかった。
論文 参考訳(メタデータ) (2025-06-22T14:39:16Z) - FIRP: Faster LLM inference via future intermediate representation prediction [54.897493351694195]
FIRPはデコードステップ毎に1つではなく複数のトークンを生成する。
いくつかのモデルとデータセットで1.9x-3xのスピードアップ比を示す広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-27T15:53:49Z) - Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z) - Imagination is All You Need! Curved Contrastive Learning for Abstract
Sequence Modeling Utilized on Long Short-Term Dialogue Planning [2.5567566997688043]
マルチターン対話における発話対間の相対的なターン距離を学習する新しい表現学習手法であるCurved Contrastive Learning (CCL)を紹介する。
得られたバイエンコーダモデルは、目標発話と対応する応答候補を潜在空間に投影することにより、ゼロショット方式でゴールに向かって応答ランキングモデルとして変換器を誘導することができる。
論文 参考訳(メタデータ) (2022-11-14T18:16:48Z) - Hidden Backdoor Attack against Semantic Segmentation Models [60.0327238844584]
Emphbackdoor攻撃は、深層ニューラルネットワーク(DNN)に隠れたバックドアを埋め込み、トレーニングデータに毒を盛ることを目的としている。
我々は,対象ラベルを画像レベルではなくオブジェクトレベルから扱う,新たな攻撃パラダイムであるemphfine-fine-grained attackを提案する。
実験により、提案手法はわずかなトレーニングデータだけを毒殺することでセマンティックセグメンテーションモデルを攻撃することに成功した。
論文 参考訳(メタデータ) (2021-03-06T05:50:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。