論文の概要: TrojanStego: Your Language Model Can Secretly Be A Steganographic Privacy Leaking Agent
- arxiv url: http://arxiv.org/abs/2505.20118v1
- Date: Mon, 26 May 2025 15:20:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.559003
- Title: TrojanStego: Your Language Model Can Secretly Be A Steganographic Privacy Leaking Agent
- Title(参考訳): TrojanStego:あなたの言語モデルはステガノグラフィーのプライバシー漏洩エージェントになる
- Authors: Dominik Meier, Jan Philip Wahle, Paul Röttger, Terry Ruas, Bela Gipp,
- Abstract要約: 本稿では,言語ステガノグラフィーによる自然界のアウトプットにセンシティブな文脈情報を埋め込む,新たな脅威モデルであるTrojanStegoを提案する。
本稿では, LLMのリスク要因を概説した分類法を導入し, 脅威のリスクプロファイルを評価する。
実験の結果,妥協されたモデルでは,32ビットのシークレットを87%の精度で確実に送信し,97%以上の精度で3世代にわたる過半数投票を行った。
- 参考スコア(独自算出の注目度): 10.467098379826618
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: As large language models (LLMs) become integrated into sensitive workflows, concerns grow over their potential to leak confidential information. We propose TrojanStego, a novel threat model in which an adversary fine-tunes an LLM to embed sensitive context information into natural-looking outputs via linguistic steganography, without requiring explicit control over inference inputs. We introduce a taxonomy outlining risk factors for compromised LLMs, and use it to evaluate the risk profile of the threat. To implement TrojanStego, we propose a practical encoding scheme based on vocabulary partitioning learnable by LLMs via fine-tuning. Experimental results show that compromised models reliably transmit 32-bit secrets with 87% accuracy on held-out prompts, reaching over 97% accuracy using majority voting across three generations. Further, they maintain high utility, can evade human detection, and preserve coherence. These results highlight a new class of LLM data exfiltration attacks that are passive, covert, practical, and dangerous.
- Abstract(参考訳): 大規模言語モデル(LLM)がセンシティブなワークフローに統合されるにつれ、機密情報を漏洩する可能性があるという懸念が高まっている。
提案する脅威モデルであるTrojanStegoは,LLMに対して,推論入力の明示的な制御を必要とせず,言語的ステガノグラフィーにより,センシティブな文脈情報を自然に見える出力に埋め込むことができる。
本稿では, LLMのリスク要因を概説した分類法を導入し, 脅威のリスクプロファイルを評価する。
TrojanStegoを実装するために,LLMが微調整により学習可能な語彙分割に基づく実用的な符号化方式を提案する。
実験の結果,妥協されたモデルでは,32ビットのシークレットを87%の精度で確実に送信し,97%以上の精度で3世代にわたる過半数投票を行った。
さらに、高い実用性を維持し、人間の検出を回避し、一貫性を維持することができる。
これらの結果は、受動的、隠蔽的、実用的、危険である新しいタイプのLSMデータ流出攻撃を浮き彫りにする。
関連論文リスト
- Invisible Prompts, Visible Threats: Malicious Font Injection in External Resources for Large Language Models [29.879456712405204]
大規模言語モデル(LLM)は、リアルタイムWeb検索機能を備え、モデルコンテキストプロトコル(MCP)のようなプロトコルと統合されつつある。
この拡張は新たなセキュリティ脆弱性を導入する可能性がある。
本稿では,Webページなどの外部リソースに悪意あるフォント注入を施して,隠れた敵のプロンプトに対するLLM脆弱性を系統的に調査する。
論文 参考訳(メタデータ) (2025-05-22T17:36:33Z) - PrivAgent: Agentic-based Red-teaming for LLM Privacy Leakage [78.33839735526769]
LLMは、慎重に構築された敵のプロンプトの下で私的情報を出力することに騙される可能性がある。
PrivAgentは、プライバシー漏洩のための新しいブラックボックスレッドチームフレームワークである。
論文 参考訳(メタデータ) (2024-12-07T20:09:01Z) - SVIP: Towards Verifiable Inference of Open-source Large Language Models [33.910670775972335]
オープンソースのLarge Language Models (LLMs)は、最近、自然言語の理解と生成において顕著な能力を示し、様々な領域で広く採用されている。
モデルのサイズが大きくなることで、個々のユーザにとってローカルデプロイメントは現実的ではなく、ブラックボックスAPIを通じて推論を行うコンピューティングサービスプロバイダに頼らざるを得なくなる。
この依存は新たなリスクをもたらす: コンピューティングプロバイダは、要求されたLLMをユーザからの同意なく、より小さく、能力の低いモデルにステルス的に置き換えて、コスト削減の恩恵を受けながら、劣ったアウトプットを配信する。
論文 参考訳(メタデータ) (2024-10-29T17:52:45Z) - LLMs know their vulnerabilities: Uncover Safety Gaps through Natural Distribution Shifts [88.96201324719205]
大規模言語モデル(LLM)の安全性に関する懸念は、事前訓練中に潜在的に有害なデータに曝されることにより、大きな注目を集めている。
我々は、有害なコンテンツに意味的に関連していると思われる良心的なプロンプトが、安全性のメカニズムを回避できる新しい安全性脆弱性をLSMで特定する。
我々は,事前学習における有害なプロンプトに関連するアクターを識別する新しい攻撃手法,textitActorBreakerを導入する。
論文 参考訳(メタデータ) (2024-10-14T16:41:49Z) - Extracting Memorized Training Data via Decomposition [24.198975804570072]
本稿では,2つのフロンティア大言語モデルからニュース記事を抽出する,簡単なクエリベースの分解手法を示す。
73項目から少なくとも1文を抽出し,6項目から20%以上の動詞文を抽出した。
大規模に複製可能であれば、このトレーニングデータ抽出手法は、新たなLLMセキュリティと安全性の脆弱性を公開する可能性がある。
論文 参考訳(メタデータ) (2024-09-18T23:59:32Z) - ASETF: A Novel Method for Jailbreak Attack on LLMs through Translate Suffix Embeddings [58.82536530615557]
本稿では, 連続的な逆接接尾辞埋め込みを一貫性のある, 理解可能なテキストに変換するために, ASETF (Adversarial Suffix Embedding Translation Framework) を提案する。
本手法は,逆接接尾辞の計算時間を著しく短縮し,既存の手法よりもはるかに優れた攻撃成功率を実現する。
論文 参考訳(メタデータ) (2024-02-25T06:46:27Z) - Learning to Poison Large Language Models During Instruction Tuning [12.521338629194503]
この研究は、命令チューニングプロセスを利用するのに適した新しいデータ中毒攻撃を設計することで、LLM(Large Language Models)のさらなるセキュリティリスクを特定する。
本稿では,逆方向誘導学習(GBTL)アルゴリズムを提案する。
In-context Learning(ICL)とContinuous Learning(CL)の2つの防衛戦略を提案する。
論文 参考訳(メタデータ) (2024-02-21T01:30:03Z) - Multilingual Jailbreak Challenges in Large Language Models [96.74878032417054]
本研究では,大規模言語モデル(LLM)における多言語ジェイルブレイク問題の存在を明らかにする。
我々は、意図しないシナリオと意図的なシナリオの2つを考えます。
安全な微調整のための多言語学習データを自動的に生成する新しいtextscSelf-Defense フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-10T09:44:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。