論文の概要: TraceRouter: Robust Safety for Large Foundation Models via Path-Level Intervention
- arxiv url: http://arxiv.org/abs/2601.21900v1
- Date: Thu, 29 Jan 2026 15:58:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.964903
- Title: TraceRouter: Robust Safety for Large Foundation Models via Path-Level Intervention
- Title(参考訳): TraceRouter:パスレベル干渉による大規模ファンデーションモデルのロバスト安全性
- Authors: Chuancheng Shi, Shangze Li, Wenjun Lu, Wenhua Wu, Cong Wang, Zifeng Cheng, Fei Shen, Tat-Seng Chua,
- Abstract要約: 有害なセマンティクスは分散層間回路として機能し、局所的な介入が不安定で実用性に有害である。
我々は,不特定意味論の因果伝播回路をトレースし,切断するパスレベルフレームワークである textbfTrace を提案する。
トレースは最先端のベースラインを著しく上回り、敵の堅牢性と汎用性とのトレードオフが優れている。
- 参考スコア(独自算出の注目度): 44.64827167753535
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite their capabilities, large foundation models (LFMs) remain susceptible to adversarial manipulation. Current defenses predominantly rely on the "locality hypothesis", suppressing isolated neurons or features. However, harmful semantics act as distributed, cross-layer circuits, rendering such localized interventions brittle and detrimental to utility. To bridge this gap, we propose \textbf{TraceRouter}, a path-level framework that traces and disconnects the causal propagation circuits of illicit semantics. TraceRouter operates in three stages: (1) it pinpoints a sensitive onset layer by analyzing attention divergence; (2) it leverages sparse autoencoders (SAEs) and differential activation analysis to disentangle and isolate malicious features; and (3) it maps these features to downstream causal pathways via feature influence scores (FIS) derived from zero-out interventions. By selectively suppressing these causal chains, TraceRouter physically severs the flow of harmful information while leaving orthogonal computation routes intact. Extensive experiments demonstrate that TraceRouter significantly outperforms state-of-the-art baselines, achieving a superior trade-off between adversarial robustness and general utility. Our code will be publicly released. WARNING: This paper contains unsafe model responses.
- Abstract(参考訳): その能力にもかかわらず、大きな基礎モデル(LFM)は敵の操作に影響を受けやすいままである。
現在の防衛は「局所性仮説」に大きく依存しており、孤立したニューロンや特徴を抑える。
しかし、有害なセマンティクスは分散層間回路として機能し、そのような局所的な介入は不安定で実用性に有害である。
このギャップを埋めるために、不特定意味論の因果伝播回路をトレースし切断するパスレベルフレームワークである「textbf{TraceRouter}」を提案する。
TraceRouter は,(1) 注意のばらつきを分析してセンシティブなオンセット層をピンポイントし,(2) スパースオートエンコーダ (SAE) と差動アクティベーション解析を利用して悪意のある特徴を分離し,(3) それらの特徴をゼロアウト介入から派生した特徴影響スコア (FIS) を介して下流因果経路にマッピングする。
これらの因果連鎖を選択的に抑制することにより、TraceRouterは、直交計算経路をそのまま残しながら有害な情報の流れを物理的に分離する。
大規模な実験により、TraceRouterは最先端のベースラインを著しく上回り、敵のロバスト性と汎用性とのトレードオフが優れていることが示された。
私たちのコードは公開されます。
WARNING: 安全でないモデル応答を含む。
関連論文リスト
- The Outline of Deception: Physical Adversarial Attacks on Traffic Signs Using Edge Patches [6.836569632189732]
本研究は,交通標識分類のためのステルス対応逆パッチ方式TESP-Attackを提案する。
人間の視覚的注意は主に交通標識の中央領域に焦点を当てているという観察に基づいて, エッジアライメントマスクを生成するために, ケースセグメンテーションを採用している。
U-Netジェネレータは敵パッチの作成に利用され、色とテクスチャの制約によって最適化される。
論文 参考訳(メタデータ) (2025-11-30T07:26:07Z) - Path Drift in Large Reasoning Models:How First-Person Commitments Override Safety [40.92620214527198]
ロングCoTモデルにおける推論軌道は、整列された経路からドリフトし、結果として安全性の制約に反する内容となる。
本稿では,認知的負荷増幅,自己ロールプライミング,条件チェーンハイジャックを含む3段階のパスドリフト誘導フレームワークを提案する。
本研究は,トークンレベルのアライメントを超えた長期的推論において,軌道レベルのアライメント監視の必要性を強調した。
論文 参考訳(メタデータ) (2025-10-11T04:39:50Z) - Lateral Movement Detection via Time-aware Subgraph Classification on Authentication Logs [4.893077353126799]
側方移動は、ネットワークにおける先進的永続的脅威(APT)攻撃の重要な構成要素である。
LMDetectと呼ばれるマルチスケール横移動検出フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-15T15:35:56Z) - Evaluating the Robustness of Off-Road Autonomous Driving Segmentation
against Adversarial Attacks: A Dataset-Centric analysis [1.6538732383658392]
本研究では,逆入力摂動に対するセマンティックセグメンテーションモデルの脆弱性について検討する。
異なるセグメンテーションネットワークアーキテクチャに対する敵攻撃の効果を比較する。
この研究は、オフロード非構造環境における自律ロボットUnimog U5023の安全なナビゲーションに寄与する。
論文 参考訳(メタデータ) (2024-02-03T13:48:57Z) - Fuzzy Attention Neural Network to Tackle Discontinuity in Airway
Segmentation [67.19443246236048]
気道セグメンテーションは肺疾患の検査、診断、予後に重要である。
いくつかの小型の気道支線(気管支や終端など)は自動セグメンテーションの難しさを著しく増す。
本稿では,新しいファジィアテンションニューラルネットワークと包括的損失関数を備える,気道セグメンテーションの効率的な手法を提案する。
論文 参考訳(メタデータ) (2022-09-05T16:38:13Z) - Road Network Guided Fine-Grained Urban Traffic Flow Inference [108.64631590347352]
粗いトラフィックからのきめ細かなトラフィックフローの正確な推測は、新たな重要な問題である。
本稿では,道路ネットワークの知識を活かした新しい道路対応交通流磁化器(RATFM)を提案する。
提案手法は,高品質なトラフィックフローマップを作成できる。
論文 参考訳(メタデータ) (2021-09-29T07:51:49Z) - Exploring Robustness of Unsupervised Domain Adaptation in Semantic
Segmentation [74.05906222376608]
クリーンな画像とそれらの逆の例との一致を、出力空間における対照的な損失によって最大化する、逆向きの自己スーパービジョンUDA(ASSUDA)を提案する。
i) セマンティックセグメンテーションにおけるUDA手法のロバスト性は未解明のままであり, (ii) 一般的に自己スーパービジョン(回転やジグソーなど) は分類や認識などのイメージタスクに有効であるが, セグメンテーションタスクの識別的表現を学習する重要な監視信号の提供には失敗している。
論文 参考訳(メタデータ) (2021-05-23T01:50:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。