論文の概要: Sparse Concept Anchoring for Interpretable and Controllable Neural Representations
- arxiv url: http://arxiv.org/abs/2512.12469v1
- Date: Sat, 13 Dec 2025 21:43:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.273784
- Title: Sparse Concept Anchoring for Interpretable and Controllable Neural Representations
- Title(参考訳): 解釈可能かつ制御可能なニューラル表現のためのスパース概念アンカリング
- Authors: Sandy Fraser, Patryk Wielopolski,
- Abstract要約: Sparse Concept Anchoringは、潜在空間を偏り、対象とする概念のサブセットを配置する手法である。
アンカー付き幾何学は、2つの実践的な介入を可能にする: 推論時に概念の潜伏成分を投影する行動ステアリングと、恒久的な除去である。
- 参考スコア(独自算出の注目度): 0.9831489366502301
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Sparse Concept Anchoring, a method that biases latent space to position a targeted subset of concepts while allowing others to self-organize, using only minimal supervision (labels for <0.1% of examples per anchored concept). Training combines activation normalization, a separation regularizer, and anchor or subspace regularizers that attract rare labeled examples to predefined directions or axis-aligned subspaces. The anchored geometry enables two practical interventions: reversible behavioral steering that projects out a concept's latent component at inference, and permanent removal via targeted weight ablation of anchored dimensions. Experiments on structured autoencoders show selective attenuation of targeted concepts with negligible impact on orthogonal features, and complete elimination with reconstruction error approaching theoretical bounds. Sparse Concept Anchoring therefore provides a practical pathway to interpretable, steerable behavior in learned representations.
- Abstract(参考訳): Sparse Concept Anchoringは、最小限の監督(アンカード・コンセプト毎の例の0.1%)のみを用いて、潜在空間を偏り、目標とする概念のサブセットを配置する手法である。
トレーニングは、アクティベーション正規化、分離正規化器、アンカーまたはサブスペース正規化器を組み合わせることで、希少なラベル付き例を予め定義された方向や軸に沿った部分空間に惹きつける。
アンカー付き幾何学は、推論時に概念の潜在成分を投影する可逆的行動ステアリング(reversible behavioral steering)と、アンカー付き次元のターゲットの重み付けによる永久的除去の2つの実践的介入を可能にする。
構造化自己エンコーダの実験では、直交特徴に対する無視的な影響を持つ対象概念の選択的減衰と、理論的境界に近づく再構成誤差による完全除去が示されている。
したがってスパース概念のアンコリングは、学習された表現において解釈可能な行動を理解するための実践的な経路を提供する。
関連論文リスト
- Sparse Attention Post-Training for Mechanistic Interpretability [55.030850996535776]
本稿では,トランスフォーマーの注意を犠牲にすることなく,簡易なポストトレーニング手法を提案する。
制約された余剰目的の下でフレキシブルな空間規則化を適用することで、1Bパラメータまでのモデルで、初期トレーニング損失を抑えつつ、注意接続性を$approx 0.3 %に抑えることができることを示す。
論文 参考訳(メタデータ) (2025-12-05T16:40:08Z) - FACE: Faithful Automatic Concept Extraction [4.417419748257645]
FACE(Faithful Automatic Concept extract)は、KL(Kullback-Leibler)の発散正規化項で非負行列因子化(NMF)を強化する新しいフレームワークである。
我々は,KL分散の最小化が予測分布の偏差を制限し,学習された概念空間における忠実な局所線型性を促進することを理論的保証する。
論文 参考訳(メタデータ) (2025-10-13T17:44:45Z) - Discovering Concept Directions from Diffusion-based Counterfactuals via Latent Clustering [4.891597567642704]
概念に基づく説明は、説明可能な人工知能における効果的なアプローチとして現れている。
本研究は,グローバルなクラス固有の概念方向を抽出する遅延クラスタリング(CDLC)による概念指示を導入する。
このアプローチは、現実世界の皮膚病変データセットで検証される。
論文 参考訳(メタデータ) (2025-05-11T17:53:02Z) - Post-Hoc Concept Disentanglement: From Correlated to Isolated Concept Representations [12.072112471560716]
概念活性化ベクトル(Concept Activation Vectors, CAV)は、人間の理解可能な概念をモデル化するために広く使われている。
それらは、概念サンプルの活性化から非概念サンプルの活性化までの方向を特定することによって訓練される。
この方法は、"beard"や"necktie"のような類似した概念に対して、類似した非直交方向を生成する。
この絡み合いは、分離された概念の解釈を複雑にし、CAVアプリケーションにおいて望ましくない効果をもたらす可能性がある。
論文 参考訳(メタデータ) (2025-03-07T15:45:43Z) - Toward a Flexible Framework for Linear Representation Hypothesis Using Maximum Likelihood Estimation [3.515066520628763]
正規表現空間において、単位ベクトルとして二項の概念を新たに導入する。
我々の方法である Sum of Activation-base Normalized difference (SAND) は、von Mises-Fisher 分布のサンプルとしてモデル化されたアクティベーション差の利用を形式化する。
論文 参考訳(メタデータ) (2025-02-22T23:56:30Z) - Beyond Scalars: Concept-Based Alignment Analysis in Vision Transformers [10.400355814467401]
ビジョントランスフォーマー(ViT)は、完全な教師付きから自己教師型まで、さまざまな学習パラダイムを使って訓練することができる。
そこで本研究では,4種類のViTから表現する概念に基づくアライメント解析を提案する。
概念に基づく4つの異なるViTの表現のアライメント解析により、教師シップの増大と学習した表現の意味構造の低下が相関していることが明らかとなった。
論文 参考訳(メタデータ) (2024-12-09T16:33:28Z) - Causal Unsupervised Semantic Segmentation [60.178274138753174]
教師なしセマンティックセグメンテーションは、人間のラベル付きアノテーションなしで高品質なセマンティックセマンティックセグメンテーションを実現することを目的としている。
本稿では、因果推論からの洞察を活用する新しいフレームワークCAUSE(CAusal Unsupervised Semantic sEgmentation)を提案する。
論文 参考訳(メタデータ) (2023-10-11T10:54:44Z) - Log-linear Guardedness and its Implications [116.87322784046926]
線形性を仮定する神経表現から人間の解釈可能な概念を消去する方法は、抽出可能で有用であることが判明した。
この研究は、対数線ガードネスの概念を、敵が表現から直接その概念を予測することができないものとして正式に定義している。
バイナリの場合、ある仮定の下では、下流の対数線形モデルでは消去された概念を復元できないことを示す。
論文 参考訳(メタデータ) (2022-10-18T17:30:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。