論文の概要: Hide and Seek in Embedding Space: Geometry-based Steganography and Detection in Large Language Models
- arxiv url: http://arxiv.org/abs/2601.22818v1
- Date: Fri, 30 Jan 2026 10:43:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.392433
- Title: Hide and Seek in Embedding Space: Geometry-based Steganography and Detection in Large Language Models
- Title(参考訳): 埋め込み空間におけるHie and Seek:Geometry-based Steganography and Detection in Large Language Models
- Authors: Charles Westphal, Keivan Navaie, Fernando E. Rosas,
- Abstract要約: 微調整LDMは、ステガノグラフィーチャネルを介してプロンプトシークレットを出力に隠蔽的にエンコードすることができる。
任意の写像を埋め込み空間由来のものに置き換えることで、従来のスキームが100%回復可能であることを示す。
我々は、微調整によるステガノグラフィー攻撃を検出するには、従来のステガナシス以上のアプローチが必要であると論じる。
- 参考スコア(独自算出の注目度): 44.41218866933059
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuned LLMs can covertly encode prompt secrets into outputs via steganographic channels. Prior work demonstrated this threat but relied on trivially recoverable encodings. We formalize payload recoverability via classifier accuracy and show previous schemes achieve 100\% recoverability. In response, we introduce low-recoverability steganography, replacing arbitrary mappings with embedding-space-derived ones. For Llama-8B (LoRA) and Ministral-8B (LoRA) trained on TrojanStego prompts, exact secret recovery rises from 17$\rightarrow$30\% (+78\%) and 24$\rightarrow$43\% (+80\%) respectively, while on Llama-70B (LoRA) trained on Wiki prompts, it climbs from 9$\rightarrow$19\% (+123\%), all while reducing payload recoverability. We then discuss detection. We argue that detecting fine-tuning-based steganographic attacks requires approaches beyond traditional steganalysis. Standard approaches measure distributional shift, which is an expected side-effect of fine-tuning. Instead, we propose a mechanistic interpretability approach: linear probes trained on later-layer activations detect the secret with up to 33\% higher accuracy in fine-tuned models compared to base models, even for low-recoverability schemes. This suggests that malicious fine-tuning leaves actionable internal signatures amenable to interpretability-based defenses.
- Abstract(参考訳): 微調整LDMは、ステガノグラフィーチャネルを介してプロンプトシークレットを出力に隠蔽的にエンコードすることができる。
以前の研究は、この脅威を証明したが、簡単に復元できるエンコーディングに依存していた。
我々は、分類器の精度でペイロードの回収可能性を定式化し、以前の手法が100%回復可能であることを示す。
そこで我々は, 任意のマッピングを埋め込み空間由来のマッピングに置き換え, 低可逆性ステガノグラフィーを導入する。
Llama-8B(LoRA)とMinistral-8B(LoRA)はTrojanStegoプロンプトでトレーニングされ、17$\rightarrow$30\%(+78\%)と24$\rightarrow$43\%(+80\%)から正確なシークレットリカバリが増加し、WikiプロンプトでトレーニングされたLlama-70B(LoRA)では9$\rightarrow$19\%(+123\%)から上昇する。
次に検出について議論する。
我々は、微調整によるステガノグラフィー攻撃を検出するには、従来のステガナシス以上のアプローチが必要であると論じる。
標準的アプローチは、微調整の副作用として期待される分布シフトを測定する。
後層アクティベーションで訓練された線形プローブは、低回復性スキームであっても、ベースモデルと比較して調整されたモデルにおいて最大33倍の精度で秘密を検出する。
これは、悪意のある微調整可能な内部シグネチャは、解釈可能性に基づく防御が可能であることを示唆している。
関連論文リスト
- The Trojan Knowledge: Bypassing Commercial LLM Guardrails via Harmless Prompt Weaving and Adaptive Tree Search [58.8834056209347]
大規模言語モデル(LLM)は、有害な出力を誘導するために安全ガードレールをバイパスするジェイルブレイク攻撃に弱いままである。
CKA-Agent(Correlated Knowledge Attack Agent)は、ターゲットモデルの知識基盤の適応的木構造探索としてジェイルブレイクを再構成する動的フレームワークである。
論文 参考訳(メタデータ) (2025-12-01T07:05:23Z) - Mechanistic Interpretability in the Presence of Architectural Obfuscation [0.0]
アーキテクチャ難読化(Architectural obfuscation)は、プライバシ保存型大言語モデル(LLM)推論における重み付き暗号の軽量代用である。
我々は,代表的難読化マップを用いて,スクラッチから訓練したGPT-2小モデルを分析する。
その結果,難読化は注目ヘッド内のアクティベーションパターンを劇的に変化させるが,層幅の計算グラフは保存されることがわかった。
論文 参考訳(メタデータ) (2025-06-22T14:39:16Z) - Through the Stealth Lens: Rethinking Attacks and Defenses in RAG [21.420202472493425]
RevalVariRAGシステムは, 汚職率の低い場合でも, 有害な侵入に対して脆弱であることを示す。
我々は、低レートでも攻撃が信頼できるように設計されていないことを示し、検出と緩和を可能にしている。
論文 参考訳(メタデータ) (2025-06-04T19:15:09Z) - LPASS: Linear Probes as Stepping Stones for vulnerability detection using compressed LLMs [0.0]
本稿では,Linear Probesを用いて圧縮された大言語モデルの性能を推定する方法を示す。
また, レイヤプルーニング圧縮を適用する際に, カットオフ点の設定に適合することを示す。
我々のアプローチは、$LPASS$と呼ばれ、480kのC/C++サンプル上で、MITREのTop 25の最も危険な脆弱性を検出するためにBERTとGemmaに適用される。
論文 参考訳(メタデータ) (2025-05-30T10:37:14Z) - Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - Language Model Unalignment: Parametric Red-Teaming to Expose Hidden
Harms and Biases [32.2246459413988]
Red-teamingは、モデルの安全行動をジェイルブレイクして、クエリの有害性を無視した有用なエージェントとして機能させることを目的としている。
我々は、安全研究、すなわち、Unalignmentを通してのレッドチームについて、新しい視点を提示する。
統一性はモデルパラメータを調整し、モデルの振舞いに深く根付いていないモデルガードレールを壊す。
論文 参考訳(メタデータ) (2023-10-22T13:55:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。