論文の概要: Semantic Optimal Transport for Sparse Autoencoder Feature Matching and Circuit Compression
- arxiv url: http://arxiv.org/abs/2605.28567v1
- Date: Wed, 27 May 2026 14:54:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:56.132279
- Title: Semantic Optimal Transport for Sparse Autoencoder Feature Matching and Circuit Compression
- Title(参考訳): スパースオートエンコーダ特徴マッチングと回路圧縮のセマンティック最適輸送
- Authors: Tue M. Cao, Nguyen Do, My T. Thai,
- Abstract要約: スケールが難しい2つの主要なSAE分析は、多層膜にまたがる意味論的に類似した特徴をマッチングし、大きな特徴回路を解釈可能なスーパーノードに圧縮することである。
この問題に対して,各特徴は文献のように単一デコーダベクトルではなく,それを表現した隠蔽状態上の活性化重み付き分布によって表現される。
我々は、我々の表現が活性化再スケーリングに不変であり、摂動下で安定であり、有限サンプルマージン条件下で真の一致を回復することを証明する。
- 参考スコア(独自算出の注目度): 11.444432919120173
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse autoencoders (SAEs) have become a central tool for interpreting language models. However, two key SAE analyses that remain difficult to scale are (1) matching semantically similar features across multi-layers and (2) compressing large feature circuits into interpretable supernodes. Although these have been treated as separate problems, we show that both are instances of a more fundamental challenge, which we frame as the estimation of semantic distances between SAE features that lie on different activation manifolds. We introduce a distributional framework for this problem, in which each feature is represented not by a single decoder vector like in the literature, but by an activation-weighted distribution over the hidden states that express it. By projecting these distributions into a shared reference space and comparing them with Wasserstein distance, our method provides a unified semantic metric for cross-layer feature comparison. We prove that our representation is invariant to activation rescaling, stable under perturbations, and recovers true matches under finite-sample margin conditions. Empirically, our method outperforms decoder-vector and LLM-based baselines and captures subtle functional distinctions between related features. Notably, our method compresses large feature circuits into interpretable supernodes automatically.
- Abstract(参考訳): スパースオートエンコーダ(SAE)は、言語モデルを解釈するための中心的なツールとなっている。
しかし、スケールが困難である2つの主要なSAE分析は、(1)多層間における意味論的に類似した特徴のマッチング、(2)大きな特徴回路を解釈可能なスーパーノードに圧縮することである。
これらは別個の問題として扱われてきたが、どちらもより基本的な課題の例であり、異なる活性化多様体上のSAE特徴間の意味的距離を推定するものである。
この問題に対して,各特徴は文献のように単一デコーダベクトルではなく,それを表現した隠蔽状態上の活性化重み付き分布によって表現される。
これらの分布を共有参照空間に投影し、ワッサーシュタイン距離と比較することにより、本手法は層間特徴比較のための統一意味計量を提供する。
我々は、我々の表現が活性化再スケーリングに不変であり、摂動下で安定であり、有限サンプルマージン条件下で真の一致を回復することを証明する。
実験により,提案手法はデコーダベクターとLCMベースのベースラインよりも優れており,関連する特徴間の微妙な機能的差異を捉えている。
特に,提案手法では,大きな特徴回路を解釈可能なスーパーノードに自動的に圧縮する。
関連論文リスト
- Sparse Semantic Dimension as a Generalization Certificate for LLMs [53.681678236115836]
Sparse Semantic Dimension (SSD)は,モデル層上で訓練されたSparse Autoencoder (SAE)のアクティブな特徴語彙から導かれる複雑性尺度である。
我々はGPT-2 Small と Gemma-2B でこの枠組みを検証し、実際のサンプルサイズで非空き証明書を提供することを実証した。
論文 参考訳(メタデータ) (2026-02-11T21:45:18Z) - Gromov Wasserstein Optimal Transport for Semantic Correspondences [38.64509144392513]
我々は、DINOv2ベースラインの性能を大幅に向上させ、競争力があり、時には最先端の手法を超越することを示す。
我々は、Gromov Wasserstein空間の滑らかさを含む最適な輸送アルゴリズムにマッチする標準近傍を置き換える。
論文 参考訳(メタデータ) (2026-02-03T04:59:28Z) - S2Sent: Nested Selectivity Aware Sentence Representation Learning [5.284254208630281]
文表現選択機構Ssuperscript2Sentを提案する。
セレクタは、モジュールの観点から空間選択(SS)およびネスト周波数選択(FS)を行う。
大規模な実験では、Stextsuperscript2Sentはベースラインメソッドよりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-08-25T16:13:42Z) - SemSim: Revisiting Weak-to-Strong Consistency from a Semantic Similarity Perspective for Semi-supervised Medical Image Segmentation [18.223854197580145]
医用画像分割のための半教師付き学習(SSL)は難しいが、非常に実践的な課題である。
セムシム(SemSim)という名前のFixMatchに基づく新しいフレームワークを提案する。
SemSimは3つの公開セグメンテーションベンチマークで最先端の手法よりも一貫した改善をもたらすことを示す。
論文 参考訳(メタデータ) (2024-10-17T12:31:37Z) - Spatial Semantic Recurrent Mining for Referring Image Segmentation [63.34997546393106]
高品質なクロスモーダリティ融合を実現するために,Stextsuperscript2RMを提案する。
これは、言語特徴の分散、空間的意味的再帰的分離、パーセマンティック・セマンティック・バランシングという三部作の作業戦略に従う。
提案手法は他の最先端アルゴリズムに対して好適に機能する。
論文 参考訳(メタデータ) (2024-05-15T00:17:48Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Multi-scale and Cross-scale Contrastive Learning for Semantic
Segmentation [5.281694565226513]
セグメンテーションネットワークによって抽出されたマルチスケール特徴の識別能力を高めるために,コントラスト学習を適用した。
まず、エンコーダのマルチスケール表現を共通の特徴空間にマッピングすることにより、教師付き局所言語制約の新しい形式をインスタンス化する。
論文 参考訳(メタデータ) (2022-03-25T01:24:24Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。