論文の概要: SALVE: Sparse Autoencoder-Latent Vector Editing for Mechanistic Control of Neural Networks
- arxiv url: http://arxiv.org/abs/2512.15938v1
- Date: Wed, 17 Dec 2025 20:06:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:31.809135
- Title: SALVE: Sparse Autoencoder-Latent Vector Editing for Mechanistic Control of Neural Networks
- Title(参考訳): SALVE: ニューラルネットワークのメカニスティック制御のためのスパースオートエンコーダ遅延ベクトル編集
- Authors: Vegard Flovik,
- Abstract要約: SALVEは機械的解釈可能性とモデル編集を橋渡しするフレームワークである。
私たちは、監督なしでスパースでモデルネイティブな機能ベースを学びます。
Grad-FAM(英語版)によりこれらの特徴を検証した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks achieve impressive performance but remain difficult to interpret and control. We present SALVE (Sparse Autoencoder-Latent Vector Editing), a unified "discover, validate, and control" framework that bridges mechanistic interpretability and model editing. Using an $\ell_1$-regularized autoencoder, we learn a sparse, model-native feature basis without supervision. We validate these features with Grad-FAM, a feature-level saliency mapping method that visually grounds latent features in input data. Leveraging the autoencoder's structure, we perform precise and permanent weight-space interventions, enabling continuous modulation of both class-defining and cross-class features. We further derive a critical suppression threshold, $α_{crit}$, quantifying each class's reliance on its dominant feature, supporting fine-grained robustness diagnostics. Our approach is validated on both convolutional (ResNet-18) and transformer-based (ViT-B/16) models, demonstrating consistent, interpretable control over their behavior. This work contributes a principled methodology for turning feature discovery into actionable model edits, advancing the development of transparent and controllable AI systems.
- Abstract(参考訳): ディープニューラルネットワークは優れた性能を達成するが、解釈と制御が難しいままである。
SALVE(Sparse Autoencoder-Latent Vector Editing)は、機械的解釈可能性とモデル編集を橋渡しする統一的な「発見、検証、制御」フレームワークである。
$\ell_1$-regularized autoencoderを使って、監督なしでスパースでモデルネイティブな機能ベースを学ぶ。
入力データに潜伏した特徴を視覚的にグラウンドグルーピングする特徴レベル唾液度マッピング法であるGrad-FAMを用いて,これらの特徴を検証する。
オートエンコーダの構造を利用すると、我々は厳密かつ恒久的な重量空間の介入を行い、クラス定義とクラス間両方の特徴の連続的な変調を可能にする。
さらに、各クラスが支配的特徴に依存していることを定量化し、きめ細かい堅牢性診断を支援するために、臨界抑制しきい値である$α_{crit}$を導出する。
提案手法は畳み込みモデル (ResNet-18) とトランスフォーマーベースモデル (ViT-B/16) の両方で検証され, 動作に対する一貫した解釈可能な制御を示す。
この研究は、機能発見を実行可能なモデル編集に変換するための原則的な方法論に貢献し、透明で制御可能なAIシステムの開発を進める。
関連論文リスト
- ScaleWeaver: Weaving Efficient Controllable T2I Generation with Multi-Scale Reference Attention [86.93601565563954]
ScaleWeaverは、高度な視覚的自己回帰(VAR)モデルに基づいて、高忠実で制御可能な生成を実現するために設計されたフレームワークである。
提案された参照注意モジュールは image$rightarrow$condition から不要な注意を排除し、計算コストを削減している。
実験によると、ScaleWeaverは、拡散ベースの方法よりも優れた効率を実現しつつ、高品質な生成と正確な制御を提供する。
論文 参考訳(メタデータ) (2025-10-16T17:00:59Z) - SCALAR: Scale-wise Controllable Visual Autoregressive Learning [15.775596699630633]
視覚自己回帰(VAR)に基づく制御可能な生成法であるSCALARを提案する。
予め訓練された画像エンコーダを用いて意味制御信号の符号化を抽出し,VARバックボーンの対応する層に注入する。
SCALAR上に構築したSCALAR-Uniは,複数の制御モダリティを共有潜在空間に整合させる統合拡張であり,単一のモデルで柔軟なマルチ条件ガイダンスをサポートする。
論文 参考訳(メタデータ) (2025-07-26T13:23:08Z) - Semi-supervised Semantic Segmentation with Multi-Constraint Consistency Learning [81.02648336552421]
本稿では,エンコーダとデコーダの段階的拡張を容易にするためのマルチ制約一貫性学習手法を提案する。
自己適応型特徴マスキングとノイズ注入は、デコーダの堅牢な学習のための特徴を摂動させるために、インスタンス固有の方法で設計されている。
Pascal VOC2012およびCityscapesデータセットの実験結果から,提案したMCCLが新たな最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2025-03-23T03:21:33Z) - Learning from Pattern Completion: Self-supervised Controllable Generation [31.694486524155593]
本稿では,脳の連想力に寄与する神経機構にインスパイアされた,自己制御型制御可能生成(SCG)フレームワークを提案する。
実験により,モジュール型オートエンコーダは機能的特殊化を効果的に実現することが示された。
提案手法は,より難易度の高い高雑音シナリオにおいて優れたロバスト性を示すだけでなく,自己管理的な手法により,より有望なスケーラビリティの可能性を秘めている。
論文 参考訳(メタデータ) (2024-09-27T12:28:47Z) - Exploring Latent Pathways: Enhancing the Interpretability of Autonomous Driving with a Variational Autoencoder [79.70947339175572]
バイオインスパイアされたニューラルサーキットポリシーモデルが革新的な制御モジュールとして登場した。
我々は、変分オートエンコーダとニューラルネットワークポリシーコントローラを統合することで、飛躍的に前進する。
本研究は,変分オートエンコーダへのアーキテクチャシフトに加えて,自動潜時摂動ツールを導入する。
論文 参考訳(メタデータ) (2024-04-02T09:05:47Z) - Is Disentanglement enough? On Latent Representations for Controllable
Music Generation [78.8942067357231]
強い生成デコーダが存在しない場合、アンタングル化は必ずしも制御性を意味するものではない。
VAEデコーダに対する潜伏空間の構造は、異なる属性を操作するための生成モデルの能力を高める上で重要な役割を果たす。
論文 参考訳(メタデータ) (2021-08-01T18:37:43Z) - Transformer-based Conditional Variational Autoencoder for Controllable
Story Generation [39.577220559911055]
ニューラルストーリー生成のための大規模潜時変数モデル (LVM) を, 生成効率と制御性という2つのスレッドで検討した。
我々は、トランスフォーマーの時代において、本質的に表現学習の力である潜在変数モデリングを復活させることを提唱する。
具体的には,遅延表現ベクトルをTransformerベースの事前学習アーキテクチャと統合し,条件付き変分オートエンコーダ(CVAE)を構築する。
論文 参考訳(メタデータ) (2021-01-04T08:31:11Z) - Autoencoding Variational Autoencoder [56.05008520271406]
我々は,この行動が学習表現に与える影響と,自己整合性の概念を導入することでそれを修正する結果について検討する。
自己整合性アプローチで訓練されたエンコーダは、敵攻撃による入力の摂動に対して頑健な(無神経な)表現につながることを示す。
論文 参考訳(メタデータ) (2020-12-07T14:16:14Z) - Unsupervised Controllable Generation with Self-Training [90.04287577605723]
GANによる制御可能な世代は依然として困難な研究課題である。
本稿では,自己学習を通じてジェネレータを制御する潜伏符号の分布を学習するための教師なしフレームワークを提案する。
我々のフレームワークは、変分オートエンコーダのような他の変種と比較して、より良い絡み合いを示す。
論文 参考訳(メタデータ) (2020-07-17T21:50:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。