論文の概要: Universal Refusal Circuits Across LLMs: Cross-Model Transfer via Trajectory Replay and Concept-Basis Reconstruction
- arxiv url: http://arxiv.org/abs/2601.16034v2
- Date: Sun, 25 Jan 2026 22:07:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 17:22:45.350955
- Title: Universal Refusal Circuits Across LLMs: Cross-Model Transfer via Trajectory Replay and Concept-Basis Reconstruction
- Title(参考訳): LLM全体でのユニバーサルリフレクション回路:軌道再生と概念バシス再構成によるクロスモデル転送
- Authors: Tony Cristofano,
- Abstract要約: 本稿では, ドナーから対象モデルへの拒否介入を伝達するフレームワークであるConcept-Basis Reconstructionを通じて, トラジェクティブ・リプレイを紹介する。
概念指紋を用いてレイヤをアライメントし,概念原子の共有レシピ'を用いて拒絶方向を再構築することにより,ドナーのアブレーション軌道を対象のセマンティック空間にマッピングする。
評価の結果, 変換されたレシピは, 性能を保ちながら常に拒絶を減らしていることが明らかとなった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Refusal behavior in aligned LLMs is often viewed as model-specific, yet we hypothesize it stems from a universal, low-dimensional semantic circuit shared across models. To test this, we introduce Trajectory Replay via Concept-Basis Reconstruction, a framework that transfers refusal interventions from donor to target models, spanning diverse architectures (e.g., Dense to MoE) and training regimes, without using target-side refusal supervision. By aligning layers via concept fingerprints and reconstructing refusal directions using a shared ``recipe'' of concept atoms, we map the donor's ablation trajectory into the target's semantic space. To preserve capabilities, we introduce a weight-SVD stability guard that projects interventions away from high-variance weight subspaces to prevent collateral damage. Our evaluation across 8 model pairs confirms that these transferred recipes consistently attenuate refusal while maintaining performance, providing strong evidence for the semantic universality of safety alignment.
- Abstract(参考訳): 整列 LLM における拒絶動作はモデル固有と見なされることが多いが、我々はモデル間で共有される普遍的で低次元のセマンティック回路に由来すると仮定する。
これをテストするために、ターゲットサイドの拒絶監視を使わずに、さまざまなアーキテクチャ(例えば、Dense to MoE)とトレーニング体制にまたがる、ドナーからターゲットモデルへの拒絶介入を伝達するフレームワークであるConcept-Basis Reconstructionを通じてTrjectory Replayを導入する。
概念指紋を用いてレイヤをアライメントし、概念原子の共有された'recipe''を使って拒絶方向を再構築することにより、ドナーのアブレーション軌道をターゲットのセマンティック空間にマッピングする。
機能を維持するため,高分散重み部分空間からの介入を計画する重み付きSVD安定ガードを導入し,副次的損傷を防止する。
8組のモデルペアで評価したところ, 変換されたレシピは性能を保ちながら常に拒絶を減らし, 安全アライメントの意味的普遍性を示す強い証拠が得られた。
関連論文リスト
- BadRSSD: Backdoor Attacks on Regularized Self-Supervised Diffusion Models [10.286339414754499]
Bad RSSDは自己教師付き拡散モデルの表現層をターゲットにした最初のバックドア攻撃である。
標的画像に対するPCA空間のトリガーで有毒なサンプルのセマンティック表現をハイジャックする。
悪い RSSD は FID と MSE の両方で既存の攻撃を著しく上回っている。
論文 参考訳(メタデータ) (2026-03-01T09:56:26Z) - Differential Vector Erasure: Unified Training-Free Concept Erasure for Flow Matching Models [49.10620605347065]
本研究では,フローマッチングモデルに特化して設計されたトレーニング不要な概念消去手法である差分ベクトル消去(DVE)を提案する。
我々の重要な洞察は、意味論的概念は生成フローを管理する速度場の方向構造に暗黙的に符号化されていることである。
推論中、DVEは速度場を微分方向に投影することで概念固有の成分を選択的に除去し、無関係な意味論に影響を与えることなく正確な概念抑圧を可能にする。
論文 参考訳(メタデータ) (2026-02-01T08:05:45Z) - Rethinking Transferable Adversarial Attacks on Point Clouds from a Compact Subspace Perspective [55.919842734983156]
CoSAは、共有された低次元セマンティック空間内で機能する転送可能なアタックフレームワークである。
CoSAは、最先端のトランスファー可能な攻撃を一貫して上回っている。
論文 参考訳(メタデータ) (2026-01-30T15:48:11Z) - LURE: Latent Space Unblocking for Multi-Concept Reawakening in Diffusion Models [24.332916173317113]
概念消去は拡散モデルにおけるセンシティブなコンテンツを抑制することを目的としている。
最近の研究では、消去された概念は再起動可能であることが示されており、消去方法の脆弱性が明らかにされている。
生成過程を暗黙の関数としてモデル化し、複数の因子の包括的な理論的分析を可能にする。
論文 参考訳(メタデータ) (2026-01-20T10:39:11Z) - Sparse Concept Anchoring for Interpretable and Controllable Neural Representations [0.9831489366502301]
Sparse Concept Anchoringは、潜在空間を偏り、対象とする概念のサブセットを配置する手法である。
アンカー付き幾何学は、2つの実践的な介入を可能にする: 推論時に概念の潜伏成分を投影する行動ステアリングと、恒久的な除去である。
論文 参考訳(メタデータ) (2025-12-13T21:43:17Z) - Keep Calm and Avoid Harmful Content: Concept Alignment and Latent Manipulation Towards Safer Answers [0.0]
大きな言語モデルは、ビルトインの安全ガードレールをバイパスするジェイルブレイク攻撃の影響を受けやすい。
本稿では,潜在表現を修飾することで有害な概念を抑える推論時間計算法である概念アライメントと概念操作CALMを提案する。
論文 参考訳(メタデータ) (2025-10-14T16:08:22Z) - Revoking Amnesia: RL-based Trajectory Optimization to Resurrect Erased Concepts in Diffusion Models [38.38751366738881]
概念消去技術は、安全と著作権の観点から不適切なコンテンツ生成を防止するため、T2I拡散モデルに広く展開されている。
確立された消去方法は 劣化した効果を示し 真のメカニズムに関する疑問を提起する
提案するトラジェクトリ最適化フレームワークである textbfRevAm は,デノナイジング過程を動的に操ることで,消去された概念を復活させる。
論文 参考訳(メタデータ) (2025-09-30T07:46:19Z) - AdvChain: Adversarial Chain-of-Thought Tuning for Robust Safety Alignment of Large Reasoning Models [62.70575022567081]
本稿では,逆CoTチューニングによる動的自己補正をモデルに教えるアライメントパラダイムであるAdvChainを提案する。
私たちの仕事は、より堅牢で信頼性の高い推論モデルを構築するための新しい方向性を確立します。
論文 参考訳(メタデータ) (2025-09-29T04:27:23Z) - Interpretable Few-Shot Image Classification via Prototypical Concept-Guided Mixture of LoRA Experts [79.18608192761512]
自己説明可能なモデル(SEM)は、視覚認識プロセスをより解釈可能なものにするために、プロトタイプ概念学習(PCL)に依存している。
パラメトリック不均衡と表現の不整合という2つの重要な課題を緩和するFew-Shotプロトタイプ概念分類フレームワークを提案する。
我々のアプローチは、既存のSEMを顕著な差で常に上回っており、5-way 5-shot分類では4.2%-8.7%の相対的な利得がある。
論文 参考訳(メタデータ) (2025-06-05T06:39:43Z) - Robust Anti-Backdoor Instruction Tuning in LVLMs [53.766434746801366]
大規模視覚言語モデル(LVLM)のための軽量で認証に依存しない防御フレームワークについて紹介する。
私たちのフレームワークは、命令チューニングの下で、アダプタモジュールとテキスト埋め込み層のみを微調整します。
Flickr30kとMSCOCOに対する7つの攻撃に対する実験は、我々の攻撃の成功率をほぼゼロに低下させることを示した。
論文 参考訳(メタデータ) (2025-06-04T01:23:35Z) - REFINE: Inversion-Free Backdoor Defense via Model Reprogramming [60.554146386198376]
ディープニューラルネットワーク(DNN)に対するバックドア攻撃は、重大なセキュリティ脅威として浮上している。
モデル再プログラミングに基づく逆フリーバックドア防御手法であるREFINEを提案する。
論文 参考訳(メタデータ) (2025-02-22T07:29:12Z) - Transferable Adversarial Attacks on SAM and Its Downstream Models [87.23908485521439]
本稿では,セグメント・アプライス・モデル(SAM)から微調整した様々な下流モデルに対する敵攻撃の可能性について検討する。
未知のデータセットを微調整したモデルに対する敵攻撃の有効性を高めるために,ユニバーサルメタ初期化(UMI)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-26T15:04:04Z) - Backpropagation Path Search On Adversarial Transferability [35.71353415348786]
転送ベースの攻撃者は代理モデルに対する敵の例を作成し、犠牲者モデルに転送する。
構造ベースの攻撃者は、サロゲートモデルにオーバーフィットしないようにバックプロパゲーションパスを調整する。
既存の構造ベースの攻撃者は、CNNの畳み込みモジュールを探索できず、バックプロパゲーショングラフを変更する。
論文 参考訳(メタデータ) (2023-08-15T08:21:20Z) - A Self-supervised Approach for Adversarial Robustness [105.88250594033053]
敵対的な例は、ディープニューラルネットワーク(DNN)ベースの視覚システムにおいて破滅的な誤りを引き起こす可能性がある。
本稿では,入力空間における自己教師型対向学習機構を提案する。
これは、反逆攻撃に対する強力な堅牢性を提供する。
論文 参考訳(メタデータ) (2020-06-08T20:42:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。