論文の概要: The Trojan in the Vocabulary: Stealthy Sabotage of LLM Composition
- arxiv url: http://arxiv.org/abs/2601.00065v1
- Date: Wed, 31 Dec 2025 19:00:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-05 15:04:33.239955
- Title: The Trojan in the Vocabulary: Stealthy Sabotage of LLM Composition
- Title(参考訳): 語彙におけるトロイの木馬--LLMの立体的サボタージュ
- Authors: Xiaoze Liu, Weichen Yu, Matt Fredrikson, Xiaoqian Wang, Jing Gao,
- Abstract要約: トケナイザー移植はサプライチェーンの脆弱性を導入する。
係数再利用の幾何学を利用して、我々の攻撃は非対称的な実現可能性ギャップを生み出す。
実験的に、攻撃は訓練なしで、スペクトルの模倣を達成し、異常検出を回避する。
- 参考スコア(独自算出の注目度): 31.827344197678126
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The open-weight LLM ecosystem is increasingly defined by model composition techniques (such as weight merging, speculative decoding, and vocabulary expansion) that remix capabilities from diverse sources. A critical prerequisite for applying these methods across different model families is tokenizer transplant, which aligns incompatible vocabularies to a shared embedding space. We demonstrate that this essential interoperability step introduces a supply-chain vulnerability: we engineer a single "breaker token" that is functionally inert in a donor model yet reliably reconstructs into a high-salience malicious feature after transplant into a base model. By exploiting the geometry of coefficient reuse, our attack creates an asymmetric realizability gap that sabotages the base model's generation while leaving the donor's utility statistically indistinguishable from nominal behavior. We formalize this as a dual-objective optimization problem and instantiate the attack using a sparse solver. Empirically, the attack is training-free and achieves spectral mimicry to evade outlier detection, while demonstrating structural persistence against fine-tuning and weight merging, highlighting a hidden risk in the pipeline of modular AI composition. Code is available at https://github.com/xz-liu/tokenforge
- Abstract(参考訳): オープンウェイトLSMエコシステムは、様々なソースから機能をリミックスするモデル合成技術(重み付け、投機的復号化、語彙拡張など)によって、ますます定義されている。
これらの手法を異なるモデルファミリに適用するための重要な前提条件はトークン化剤の移植であり、非互換な語彙を共有埋め込み空間に整合させる。
我々は、ドナーモデルで機能的に不活性な単一の"ブレーカトークン"を設計し、ベースモデルに移植した後、信頼性の高い悪意のある機能に確実に再構築する。
係数再利用の幾何学を利用して、我々の攻撃はベースモデルの生成を妨害する非対称的な実現可能性ギャップを生じさせ、ドナーの効用は名目的行動と統計的に区別できないままにする。
我々はこれを二重目的最適化問題として定式化し、スパースソルバを用いて攻撃をインスタンス化する。
経験的に、この攻撃はトレーニング不要であり、アウトリア検出を回避するためのスペクトル模倣を実現すると同時に、微調整と重み付けに対する構造的永続性を実証し、モジュラーAI構成のパイプラインに隠れたリスクを強調している。
コードはhttps://github.com/xz-liu/tokenforgeで入手できる。
関連論文リスト
- StutterFuse: Mitigating Modality Collapse in Stuttering Detection with Jaccard-Weighted Metric Learning and Gated Fusion [0.40105987447353786]
散乱検出は、拡散が重なると故障する。
既存のパラメトリックモデルは、複雑で同時的な分散を区別するのに苦労する。
マルチラベル検出のための最初のレトリーバル拡張一般化(RAC)であるStutterFuseを紹介する。
論文 参考訳(メタデータ) (2025-12-15T18:28:39Z) - Bridging Symmetry and Robustness: On the Role of Equivariance in Enhancing Adversarial Robustness [9.013874391203453]
敵対的な例では、知覚不能な入力摂動に対する感度を利用して、ディープニューラルネットワークの重大な脆弱性を明らかにしている。
本研究では,群-同変畳み込みを組込み,対向ロバスト性に対するアーキテクチャ的アプローチについて検討する。
これらの層は、モデル行動と入力空間の構造化変換を整合させる対称性の先行を符号化し、よりスムーズな決定境界を促進する。
論文 参考訳(メタデータ) (2025-10-17T19:26:58Z) - Every Step Counts: Decoding Trajectories as Authorship Fingerprints of dLLMs [63.82840470917859]
本稿では,dLLMの復号化機構をモデル属性の強力なツールとして利用できることを示す。
本稿では、デコードステップ間の構造的関係を捉え、モデル固有の振る舞いをよりよく明らかにする、DDM(Directed Decoding Map)と呼ばれる新しい情報抽出手法を提案する。
論文 参考訳(メタデータ) (2025-10-02T06:25:10Z) - Exploiting Edge Features for Transferable Adversarial Attacks in Distributed Machine Learning [54.26807397329468]
この研究は、分散ディープラーニングシステムにおいて、これまで見過ごされていた脆弱性を探究する。
中間的特徴をインターセプトする敵は、依然として深刻な脅威となる可能性がある。
本稿では,分散環境に特化して設計されたエクスプロイト戦略を提案する。
論文 参考訳(メタデータ) (2025-07-09T20:09:00Z) - MISLEADER: Defending against Model Extraction with Ensembles of Distilled Models [56.09354775405601]
モデル抽出攻撃は、クエリアクセスを通じてブラックボックスモデルの機能を複製することを目的としている。
既存のディフェンスでは、アタッカークエリにはオフ・オブ・ディストリビューション(OOD)サンプルがあることを前提としており、不審な入力を検出し破壊することができる。
OOD仮定に依存しない新しい防衛戦略であるMISLEADERを提案する。
論文 参考訳(メタデータ) (2025-06-03T01:37:09Z) - CTRAP: Embedding Collapse Trap to Safeguard Large Language Models from Harmful Fine-Tuning [12.293101110323722]
ファインチューニング・アズ・ア・サービス(英語版)は、有害なファインチューニング攻撃に対してモデルを公開する。
我々は、選択的な除去ではなく、モデル崩壊を誘発するパラダイムシフトを提案する。
この崩壊は、攻撃者が悪用する非常に一般的な機能を直接中和する。
論文 参考訳(メタデータ) (2025-05-22T11:47:08Z) - EigenShield: Causal Subspace Filtering via Random Matrix Theory for Adversarially Robust Vision-Language Models [3.958317527488534]
視覚言語モデル(VLM)は、大規模言語モデル(LLM)の敵対的脆弱性を継承する。
敵の訓練、入力、検出を含む既存の防御は、計算コストが高く、アーキテクチャに依存し、適応攻撃に対して脆弱である。
我々は,高次元VLM表現における逆転破壊を定量化するためにランダム行列理論を利用した推定時防御法であるEigenShieldを紹介する。
論文 参考訳(メタデータ) (2025-02-20T19:10:51Z) - Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。
本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文 参考訳(メタデータ) (2023-05-28T06:30:29Z) - Discriminator-Free Generative Adversarial Attack [87.71852388383242]
生成的ベースの敵攻撃は、この制限を取り除くことができる。
ASymmetric Saliency-based Auto-Encoder (SSAE) は摂動を生成する。
SSAEが生成した敵の例は、広く使われているモデルを崩壊させるだけでなく、優れた視覚的品質を実現する。
論文 参考訳(メタデータ) (2021-07-20T01:55:21Z) - Preventing Posterior Collapse with Levenshtein Variational Autoencoder [61.30283661804425]
我々は,エビデンス・ロー・バウンド(ELBO)を最適化し,後部崩壊を防止できる新しい目的に置き換えることを提案する。
本稿では,Levenstein VAEが後方崩壊防止のための代替手法よりも,より情報的な潜伏表現を生成することを示す。
論文 参考訳(メタデータ) (2020-04-30T13:27:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。