論文の概要: Token by Token, Compromised: Backdoor Vulnerabilities in Unified Autoregressive Models
- arxiv url: http://arxiv.org/abs/2605.19227v1
- Date: Tue, 19 May 2026 00:55:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.048838
- Title: Token by Token, Compromised: Backdoor Vulnerabilities in Unified Autoregressive Models
- Title(参考訳): Token by Token, Compromized: Unified Autoregressive Modelsにおけるバックドア脆弱性
- Authors: Tobias Braun, Jonas Henry Grebe, Hossein Shakibania, Anna Rohrbach, Marcus Rohrbach,
- Abstract要約: 統一自己回帰モデル(UAM)は、テキストと画像トークンを単一の自己回帰パス内で生成する。
この統合アーキテクチャはマルチモーダルなバックドア攻撃を可能にする。
われわれは,UAMを対象とした最初のバックドアアタックであるToBAC(Token Backdoor Attack)を提示する。
- 参考スコア(独自算出の注目度): 15.6111201020799
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unified autoregressive models (UAMs) are transformer models that generate text as well as image tokens within a single autoregressive pass. Shared parameters and a multimodal vocabulary simplify the training pipeline and facilitate flexible multimodal generation, yet might introduce new vulnerabilities. In particular, we are the first to show that this unified architecture enables multimodal backdoor attacks, where a trigger can propagate malicious effects across multiple output modalities. Specifically, we present the Token by Token Backdoor Attack (ToBAC), the first backdoor attack targeting UAMs, exploring both data-based and model-based poisoning strategies. We demonstrate that innocuous characters or even common words can be transformed into triggers that elicit harmful behavior in autoregressive image generation. ToBAC can jointly manipulate visual outputs and accompanying text, increasing the perceived authenticity of fabricated content. With model access, ToBAC enables attacks on the unified Liquid model in which a subtle word (e.g., ``cool'') induces modality-aligned brand promotion or ideological influence in 55% of generations. Without model access, ToBAC can be induced through data poisoning, achieving an average success rate of 63.1% against JanusPro.
- Abstract(参考訳): 統一自己回帰モデル(Unified Autoregressive Model、UAM)は、単一の自己回帰パス内の画像トークンだけでなく、テキストを生成するトランスフォーマーモデルである。
共有パラメータとマルチモーダル語彙は、トレーニングパイプラインを簡素化し、柔軟なマルチモーダル生成を容易にするが、新たな脆弱性を導入する可能性がある。
特に、我々は、この統一アーキテクチャがマルチモーダルバックドア攻撃を可能にし、トリガーが複数の出力モダリティにまたがる悪意のある効果を伝播させることができることを初めて示す。
具体的には,UAMを標的とした最初のバックドア攻撃であるToken Backdoor Attack (ToBAC) を紹介し,データベースおよびモデルベースの毒殺戦略を探求する。
自己回帰画像生成における有害な振る舞いを誘発するトリガーとして、無害な文字や一般的な単語を変換できることを実証する。
ToBACは、視覚出力と付随するテキストを共同で操作することができ、製造されたコンテンツの信頼性を高めることができる。
モデルアクセスにより、ToBACは、微妙な単語(例: `cool'')が55%の世代でモダリティに整合したブランドプロモーションやイデオロギーの影響を誘発する、統一された液体モデルに対する攻撃を可能にする。
モデルアクセスがなければ、ToBACはデータ中毒によって誘導され、JanusProに対する平均成功率は63.1%に達する。
関連論文リスト
- Stealthy and Adjustable Text-Guided Backdoor Attacks on Multimodal Pretrained Models [65.63901005568772]
マルチモーダル事前訓練モデルは、バックドア攻撃に対して脆弱である。
マルチモーダル事前学習モデルに対する新しいテキストガイドバックドア(TGB)攻撃を提案する。
論文 参考訳(メタデータ) (2026-04-07T12:46:23Z) - Self-Purification Mitigates Backdoors in Multimodal Diffusion Language Models [74.1970982768771]
確立されたデータポゾンパイプラインは,MDLMにバックドアを埋め込むことに成功した。
拡散自己浄化(Diffusion Self-Purification)と呼ばれるMDLMのバックドア防御フレームワークについて紹介する。
論文 参考訳(メタデータ) (2026-02-24T15:47:52Z) - Sealing The Backdoor: Unlearning Adversarial Text Triggers In Diffusion Models Using Knowledge Distillation [3.54387829918311]
学習データに知覚不可能なテキストトリガーを注入することで、モデルが操作された出力を生成する。
本稿では, 対人的テキストトリガと有毒なアウトプットの関連を除去するために, クロスアテンション誘導による自己知識蒸留(SKD-CAG)を提案する。
本手法は,画素バックドアの除去精度を100%,スタイルベース攻撃の93%で達成し,ロバスト性や画像の忠実さを犠牲にしない。
論文 参考訳(メタデータ) (2025-08-20T00:57:21Z) - InverTune: Removing Backdoors from Multimodal Contrastive Learning Models via Trigger Inversion and Activation Tuning [36.56302680556252]
InverTuneは、最小限の攻撃仮定の下で、マルチモーダルモデルのための最初のバックドアディフェンスフレームワークである。
InverTuneは、3つの主要なコンポーネントを通じてバックドアアーティファクトを効果的に識別し、削除し、バックドアアタックに対する堅牢な保護を実現する。
実験の結果、InverTuneは最先端(SOTA)攻撃に対して平均攻撃成功率(ASR)を97.87%削減した。
論文 参考訳(メタデータ) (2025-06-14T09:08:34Z) - VL-Trojan: Multimodal Instruction Backdoor Attacks against
Autoregressive Visual Language Models [65.23688155159398]
VLM(Autoregressive Visual Language Models)は、マルチモーダルなコンテキストにおいて、驚くべき数ショットの学習機能を示す。
近年,マルチモーダル・インストラクション・チューニングが提案されている。
敵は、指示や画像に埋め込まれたトリガーで有毒なサンプルを注入することで、バックドアを埋め込むことができる。
本稿では,マルチモーダルなバックドア攻撃,すなわちVL-Trojanを提案する。
論文 参考訳(メタデータ) (2024-02-21T14:54:30Z) - IMBERT: Making BERT Immune to Insertion-based Backdoor Attacks [45.81957796169348]
バックドア攻撃は、機械学習モデルに対する汚いセキュリティ脅威だ。
IMBERTは、被害者モデルから得られた勾配または自己注意スコアを用いて、バックドア攻撃に対する自己防衛を行う。
我々の実証研究は、IMBERTが挿入されたトリガーの98.5%を効果的に識別できることを示した。
論文 参考訳(メタデータ) (2023-05-25T22:08:57Z) - CleanCLIP: Mitigating Data Poisoning Attacks in Multimodal Contrastive
Learning [63.72975421109622]
CleanCLIPは、バックドア攻撃によって引き起こされる学習された刺激的関連を弱める微調整フレームワークである。
CleanCLIPは、マルチモーダル・コントラッシブ・ラーニングに対するバックドア・アタックを根絶しながら、良質な例によるモデル性能を維持している。
論文 参考訳(メタデータ) (2023-03-06T17:48:32Z) - Backdoor Pre-trained Models Can Transfer to All [33.720258110911274]
そこで本研究では,トリガを含む入力を事前学習したNLPモデルの出力表現に直接マッピングする手法を提案する。
NLPにおけるトリガのユニークな特性を考慮して,バックドア攻撃の性能を測定するための2つの新しい指標を提案する。
論文 参考訳(メタデータ) (2021-10-30T07:11:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。