論文の概要: Language-Switching Triggers Take a Latent Detour Through Language Models
- arxiv url: http://arxiv.org/abs/2605.18646v1
- Date: Mon, 18 May 2026 16:53:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:50.11166
- Title: Language-Switching Triggers Take a Latent Detour Through Language Models
- Title(参考訳): 言語スイッチングトリガーは言語モデルを通して遅延する
- Authors: Francis Kulumba, Wissam Antoun, Théo Lasnier, Benoît Sagot, Djamé Seddah,
- Abstract要約: 言語モデルに対するバックドア攻撃は、セキュリティ上の懸念が高まるが、トリガーシーケンスのハイジャックによるモデル計算の理解が不十分な内部メカニズムである。
我々は、8B-パラメータの自己回帰言語モデルにおいて、言語スイッチングバックドアの基盤となる回路を特定し、そこでは3ワードのラテントリガーが英語の出力をフランス語にリダイレクトする。
1)初期層における分散アテンションヘッドは、トリガートークンを最後のシーケンス位置に構成し、(2)結果の信号は、サブ空間内の中間層を通してモデルの自然言語同一性方向へ伝播し、(3)最終層は、この潜時を変換する。
- 参考スコア(独自算出の注目度): 16.417561476283407
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Backdoor attacks on language models pose a growing security concern, yet the internal mechanisms by which a trigger sequence hijacks model computations remain poorly understood. We identify a circuit underlying a language-switching backdoor in an 8B-parameter autoregressive language model, where a three-word Latin trigger (nine tokens) redirects English output to French. We decompose the circuit into three phases: (1) distributed attention heads at early layers compose the trigger tokens into the last sequence position; (2) the resulting signal propagates through mid-layers in a subspace orthogonal to the model's natural language-identity direction; (3) the MLP at the final layer converts this latent signal into French logits. The entire circuit flows through a serial bottleneck at a single position: corrupting that position at any layer entirely mitigate the trigger but also hinder the model's capabilities. The orthogonal latent encoding suggests that defenses that search for language-like signals in intermediate representations would miss this trigger entirely.
- Abstract(参考訳): 言語モデルに対するバックドア攻撃はセキュリティ上の懸念を増すが、トリガーシーケンスがモデル計算をハイジャックする内部メカニズムは理解されていない。
我々は、8Bパラメータの自動回帰言語モデルにおいて、言語スイッチングバックドアの基盤となる回路を特定し、そこでは3ワードのラテン文字トリガー(9つのトークン)が英語の出力をフランス語にリダイレクトする。
1)初期層における分散アテンションヘッドは、トリガートークンを最後のシーケンス位置に構成し、(2)結果の信号は、モデルの自然言語同一性方向と直交する部分空間の中間層を通して伝搬し、(3)最終層におけるMLPは、この潜時信号をフランスのロジットに変換する。
回路全体が1つの位置でシリアルボトルネックを流れる:任意の層におけるその位置を破損することでトリガーを完全に緩和するが、モデルの性能を損なう。
直交遅延符号化は、中間表現で言語に似た信号を探索する防御が、この引き金を完全に見逃すことを示唆している。
関連論文リスト
- ProjLens: Unveiling the Role of Projectors in Multimodal Model Safety [54.4092272526747]
MLLM(Multimodal Large Language Models)は、クロスモーダルな理解と生成において大きな成功を収めていますが、そのデプロイは重大な安全性の脆弱性によって脅かされています。
本稿では,MLLMのバックドアを復号化するための解釈可能性フレームワークであるProjLensを提案する。
論文 参考訳(メタデータ) (2026-04-21T04:52:38Z) - Precise Shield: Explaining and Aligning VLLM Safety via Neuron-Level Guidance [64.18179414483966]
実世界のデプロイメントでは、VLLM(Vision-Language Large Models)は、多言語およびマルチモーダル複合攻撃による重要な課題に直面している。
危険入力と良入力のアクティベーションパターンを対比することにより、まず安全ニューロンを識別する2段階のフレームワークであるPrecise Shieldを提案する。
この戦略は多言語および多モーダルの一般化を維持しながら安全性を大幅に向上させる。
論文 参考訳(メタデータ) (2026-04-10T02:42:52Z) - SignSparK: Efficient Multilingual Sign Language Production via Sparse Keyframe Learning [54.232148007248874]
現在の手話生産(SLP)フレームワークは、まさにトレードオフに直面している。
本研究では,スペースを利用した新たなトレーニングパラダイムを提案し,人間の署名の真の基盤となる分布を捉える。
これらの離散的なアンカーから高密度な動きを予測することにより、流体の調音を確実にしながら、回帰から平均への移動を緩和する。
論文 参考訳(メタデータ) (2026-03-11T06:02:36Z) - Triggers Hijack Language Circuits: A Mechanistic Analysis of Backdoor Behaviors in Large Language Models [5.024813922014978]
本稿では,事前学習中にインジェクションを注入して出力言語を切り替えるGAPperonモデルファミリについて検討する。
我々の中心的な発見は、トリガー活性化ヘッドは、モデルスケールで自然に出力言語を符号化するヘッドとほぼ重なることである。
これは、バックドアトリガーが独立した回路を形成するのではなく、代わりにモデルの既存の言語コンポーネントをコオプトすることを示唆している。
論文 参考訳(メタデータ) (2026-02-11T00:04:32Z) - MaDiS: Taming Masked Diffusion Language Models for Sign Language Generation [78.75809158246723]
本稿では,SLGのためのマスク付き拡散型言語モデルであるMaDiSについて述べる。
また,トークン・ラテント・ヘアリング・3次元空間の目的から共同で学習する3段階のクロスモーダル事前学習手法を導入する。
MaDiSはDTWエラーと新たに導入された2つのメトリクスであるSiBLEUとSiCLIPを含む複数のメトリクスで優れたパフォーマンスを実現し、推論レイテンシを30%近く削減している。
論文 参考訳(メタデータ) (2026-01-27T13:06:47Z) - Unmasking Backdoors: An Explainable Defense via Gradient-Attention Anomaly Scoring for Pre-trained Language Models [6.182793047410624]
バックドア型事前学習言語モデルの内部挙動について検討する。
本稿では,トークンレベルの注意と勾配情報を組み合わせることで,異常スコアを構成する推論時間ディフェンスを提案する。
論文 参考訳(メタデータ) (2025-10-05T20:15:56Z) - Do Llamas Work in English? On the Latent Language of Multilingual Transformers [13.885884589999492]
我々は、英語が支配するコーパスが、英語を内的ピボット言語として使っているかどうかを問う。
本研究は、独特な正しい単語継続を伴う英語でないプロンプトを慎重に構築する。
これらの結果を、3つの位相が「入力空間」、「概念空間」、「出力空間」で機能する概念モデルにキャストした。
論文 参考訳(メタデータ) (2024-02-16T11:21:28Z) - BEST: BERT Pre-Training for Sign Language Recognition with Coupling
Tokenization [135.73436686653315]
我々は、BERTの事前学習の成功を活用し、手話認識(SLR)モデルを肥大化させるために、ドメイン固有の統計モデルを構築している。
手と体が手話表現の優位性を考えると、それらを三重奏単位として整理し、トランスフォーマーのバックボーンに供給する。
劣化した入力シーケンスからマスク三重項ユニットを再構成して事前学習を行う。
意味的ジェスチャー/身体状態を表すポーズ三重奏ユニットから離散擬似ラベルを適応的に抽出する。
論文 参考訳(メタデータ) (2023-02-10T06:23:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。