論文の概要: Activation Space Interventions Can Be Transferred Between Large Language Models
- arxiv url: http://arxiv.org/abs/2503.04429v1
- Date: Thu, 06 Mar 2025 13:38:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 15:59:54.768075
- Title: Activation Space Interventions Can Be Transferred Between Large Language Models
- Title(参考訳): アクティベーションスペースの介入は大規模言語モデル間で伝達できる
- Authors: Narmeen Oozeer, Dhruv Nathawani, Nirmalendu Prakash, Michael Lan, Abir Harrasse, Amirali Abdullah,
- Abstract要約: モデル間での安全介入は、共有活性化空間の学習されたマッピングを通して伝達可能であることを示す。
このアプローチは、バックドアの除去と有害なプロンプトの拒絶という、確立された2つのAI安全タスクに対して実証する。
また、バックドアに関連付けられた知識を組み込むために、モデルに微調整を施した新しいタスク、textitcorrupted機能を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The study of representation universality in AI models reveals growing convergence across domains, modalities, and architectures. However, the practical applications of representation universality remain largely unexplored. We bridge this gap by demonstrating that safety interventions can be transferred between models through learned mappings of their shared activation spaces. We demonstrate this approach on two well-established AI safety tasks: backdoor removal and refusal of harmful prompts, showing successful transfer of steering vectors that alter the models' outputs in a predictable way. Additionally, we propose a new task, \textit{corrupted capabilities}, where models are fine-tuned to embed knowledge tied to a backdoor. This tests their ability to separate useful skills from backdoors, reflecting real-world challenges. Extensive experiments across Llama, Qwen and Gemma model families show that our method enables using smaller models to efficiently align larger ones. Furthermore, we demonstrate that autoencoder mappings between base and fine-tuned models can serve as reliable ``lightweight safety switches", allowing dynamic toggling between model behaviors.
- Abstract(参考訳): AIモデルにおける表現の普遍性の研究は、ドメイン、モダリティ、アーキテクチャ間の収束の増大を明らかにしている。
しかし、表現普遍性の実践的応用はほとんど未解明のままである。
我々は、それらの共有活性化空間の学習されたマッピングを通して、モデル間で安全介入を転送できることを実証することによって、このギャップを橋渡しする。
このアプローチは、バックドアの除去と有害なプロンプトの拒絶、モデル出力を予測可能な方法で変更するステアリングベクターの転送の成功を示す。
さらに,バックドアに関連付けられた知識を組み込むために,モデルに微調整を施した新しいタスクである「textit{corrupted capabilities」を提案する。
これにより、バックドアから有用なスキルを分離し、現実の課題を反映する能力をテストする。
Llama, Qwen, Gemma モデルファミリにまたがる大規模な実験により, より小さなモデルを用いて, より大規模なモデルを効率よく整列させることができることを示した。
さらに、ベースモデルと微調整モデルの間のオートエンコーダマッピングが信頼性の高い「軽量安全スイッチ」として機能し、モデル動作間の動的トグルリングを可能にすることを実証する。
関連論文リスト
- Perspectives for Direct Interpretability in Multi-Agent Deep Reinforcement Learning [0.41783829807634765]
マルチエージェントディープ強化学習(MADRL)は、ロボット工学やゲームにおいて複雑な問題を解くのに効果的であることが証明された。
本稿では, 学習モデルから直接, ポストホックな説明を生成することによって, 直接解釈可能であることを提唱する。
我々は、関連バックプロパゲーション、知識エディション、モデルステアリング、アクティベーションパッチ、スパースオートエンコーダ、サーキットディスカバリなど、現代的な手法を探求する。
論文 参考訳(メタデータ) (2025-02-02T09:15:27Z) - On the Adversarial Transferability of Generalized "Skip Connections" [83.71752155227888]
スキップ接続は、より深く、より強力な現代のディープモデルにとって重要な要素である。
バックプロパゲーションにおいて、バックプロパゲーション中に、スキップ接続からより多くの勾配を用いることで、高い転送性を持つ逆例を作成できることが分かる。
本稿では,ResNet,Transformer,Inceptions,Neural Architecture Search,Large Language Modelsなど,さまざまなモデルに対する包括的なトランスファー攻撃を行う。
論文 参考訳(メタデータ) (2024-10-11T16:17:47Z) - Prompt-Driven Contrastive Learning for Transferable Adversarial Attacks [42.18755809782401]
PDCL-Attackと呼ばれる新しいトランスファー攻撃法を提案する。
テキストのセマンティック表現力を利用して効果的なプロンプト駆動型特徴ガイダンスを定式化する。
論文 参考訳(メタデータ) (2024-07-30T08:52:16Z) - MergeNet: Knowledge Migration across Heterogeneous Models, Tasks, and Modalities [72.05167902805405]
異種モデルのパラメータ空間のギャップを埋めることを学ぶMergeNetを提案する。
MergeNetの中核となるメカニズムはパラメータアダプタにあり、ソースモデルの低ランクパラメータをクエリすることで動作する。
MergeNetは両方のモデルと共に学習され、我々のフレームワークは、現在のステージに関する知識を動的に転送し、適応することができます。
論文 参考訳(メタデータ) (2024-04-20T08:34:39Z) - LVLM-Interpret: An Interpretability Tool for Large Vision-Language Models [50.259006481656094]
本稿では,大規模視覚言語モデルの内部メカニズムの理解を目的とした対話型アプリケーションを提案する。
このインタフェースは, 画像パッチの解釈可能性を高めるために設計されており, 応答の生成に有効である。
本稿では,一般的な大規模マルチモーダルモデルであるLLaVAにおける障害機構の理解に,アプリケーションがどのように役立つかのケーススタディを示す。
論文 参考訳(メタデータ) (2024-04-03T23:57:34Z) - Sim-to-Real Causal Transfer: A Metric Learning Approach to
Causally-Aware Interaction Representations [62.48505112245388]
エージェント相互作用の現代的表現の因果認識を詳細に検討する。
近年の表現は、非因果剤の摂動に対して部分的に耐性があることが示されている。
因果アノテーションを用いた潜在表現を正規化するための計量学習手法を提案する。
論文 参考訳(メタデータ) (2023-12-07T18:57:03Z) - Self-Supervised Reinforcement Learning that Transfers using Random
Features [41.00256493388967]
本研究では,タスク間の行動の伝達を,報酬の異なる自己指導型強化学習手法を提案する。
我々の手法は、報奨ラベルなしでオフラインデータセットでトレーニングできるが、新しいタスクに素早くデプロイできるという自己教師型である。
論文 参考訳(メタデータ) (2023-05-26T20:37:06Z) - Enhancing Multiple Reliability Measures via Nuisance-extended
Information Bottleneck [77.37409441129995]
トレーニングデータに制限がある現実的なシナリオでは、データ内の多くの予測信号は、データ取得のバイアスからより多く得る。
我々は,相互情報制約の下で,より広い範囲の摂動をカバーできる敵の脅威モデルを考える。
そこで本研究では,その目的を実現するためのオートエンコーダベーストレーニングと,提案したハイブリッド識別世代学習を促進するための実用的なエンコーダ設計を提案する。
論文 参考訳(メタデータ) (2023-03-24T16:03:21Z) - SafeAMC: Adversarial training for robust modulation recognition models [53.391095789289736]
通信システムには、Deep Neural Networks(DNN)モデルに依存する変調認識など、多くのタスクがある。
これらのモデルは、逆方向の摂動、すなわち、誤分類を引き起こすために作られた知覚不能な付加音に影響を受けやすいことが示されている。
本稿では,自動変調認識モデルのロバスト性を高めるために,逆方向の摂動を伴うモデルを微調整する逆方向トレーニングを提案する。
論文 参考訳(メタデータ) (2021-05-28T11:29:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。