論文の概要: The Trojan in the Vocabulary: Stealthy Sabotage of LLM Composition
- arxiv url: http://arxiv.org/abs/2601.00065v1
- Date: Wed, 31 Dec 2025 19:00:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-05 15:04:33.239955
- Title: The Trojan in the Vocabulary: Stealthy Sabotage of LLM Composition
- Title(参考訳): 語彙におけるトロイの木馬--LLMの立体的サボタージュ
- Authors: Xiaoze Liu, Weichen Yu, Matt Fredrikson, Xiaoqian Wang, Jing Gao,
- Abstract要約: トケナイザー移植はサプライチェーンの脆弱性を導入する。
係数再利用の幾何学を利用して、我々の攻撃は非対称的な実現可能性ギャップを生み出す。
実験的に、攻撃は訓練なしで、スペクトルの模倣を達成し、異常検出を回避する。
- 参考スコア(独自算出の注目度): 31.827344197678126
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The open-weight LLM ecosystem is increasingly defined by model composition techniques (such as weight merging, speculative decoding, and vocabulary expansion) that remix capabilities from diverse sources. A critical prerequisite for applying these methods across different model families is tokenizer transplant, which aligns incompatible vocabularies to a shared embedding space. We demonstrate that this essential interoperability step introduces a supply-chain vulnerability: we engineer a single "breaker token" that is functionally inert in a donor model yet reliably reconstructs into a high-salience malicious feature after transplant into a base model. By exploiting the geometry of coefficient reuse, our attack creates an asymmetric realizability gap that sabotages the base model's generation while leaving the donor's utility statistically indistinguishable from nominal behavior. We formalize this as a dual-objective optimization problem and instantiate the attack using a sparse solver. Empirically, the attack is training-free and achieves spectral mimicry to evade outlier detection, while demonstrating structural persistence against fine-tuning and weight merging, highlighting a hidden risk in the pipeline of modular AI composition. Code is available at https://github.com/xz-liu/tokenforge
- Abstract(参考訳): オープンウェイトLSMエコシステムは、様々なソースから機能をリミックスするモデル合成技術(重み付け、投機的復号化、語彙拡張など)によって、ますます定義されている。
これらの手法を異なるモデルファミリに適用するための重要な前提条件はトークン化剤の移植であり、非互換な語彙を共有埋め込み空間に整合させる。
我々は、ドナーモデルで機能的に不活性な単一の"ブレーカトークン"を設計し、ベースモデルに移植した後、信頼性の高い悪意のある機能に確実に再構築する。
係数再利用の幾何学を利用して、我々の攻撃はベースモデルの生成を妨害する非対称的な実現可能性ギャップを生じさせ、ドナーの効用は名目的行動と統計的に区別できないままにする。
我々はこれを二重目的最適化問題として定式化し、スパースソルバを用いて攻撃をインスタンス化する。
経験的に、この攻撃はトレーニング不要であり、アウトリア検出を回避するためのスペクトル模倣を実現すると同時に、微調整と重み付けに対する構造的永続性を実証し、モジュラーAI構成のパイプラインに隠れたリスクを強調している。
コードはhttps://github.com/xz-liu/tokenforgeで入手できる。
関連論文リスト
- Bridging Symmetry and Robustness: On the Role of Equivariance in Enhancing Adversarial Robustness [9.013874391203453]
敵対的な例では、知覚不能な入力摂動に対する感度を利用して、ディープニューラルネットワークの重大な脆弱性を明らかにしている。
本研究では,群-同変畳み込みを組込み,対向ロバスト性に対するアーキテクチャ的アプローチについて検討する。
これらの層は、モデル行動と入力空間の構造化変換を整合させる対称性の先行を符号化し、よりスムーズな決定境界を促進する。
論文 参考訳(メタデータ) (2025-10-17T19:26:58Z) - Every Step Counts: Decoding Trajectories as Authorship Fingerprints of dLLMs [63.82840470917859]
本稿では,dLLMの復号化機構をモデル属性の強力なツールとして利用できることを示す。
本稿では、デコードステップ間の構造的関係を捉え、モデル固有の振る舞いをよりよく明らかにする、DDM(Directed Decoding Map)と呼ばれる新しい情報抽出手法を提案する。
論文 参考訳(メタデータ) (2025-10-02T06:25:10Z) - CTRAP: Embedding Collapse Trap to Safeguard Large Language Models from Harmful Fine-Tuning [12.293101110323722]
ファインチューニング・アズ・ア・サービス(英語版)は、有害なファインチューニング攻撃に対してモデルを公開する。
我々は、選択的な除去ではなく、モデル崩壊を誘発するパラダイムシフトを提案する。
この崩壊は、攻撃者が悪用する非常に一般的な機能を直接中和する。
論文 参考訳(メタデータ) (2025-05-22T11:47:08Z) - Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。
本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文 参考訳(メタデータ) (2023-05-28T06:30:29Z) - Discriminator-Free Generative Adversarial Attack [87.71852388383242]
生成的ベースの敵攻撃は、この制限を取り除くことができる。
ASymmetric Saliency-based Auto-Encoder (SSAE) は摂動を生成する。
SSAEが生成した敵の例は、広く使われているモデルを崩壊させるだけでなく、優れた視覚的品質を実現する。
論文 参考訳(メタデータ) (2021-07-20T01:55:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。