論文の概要: MonoLoss: A Training Objective for Interpretable Monosemantic Representations
- arxiv url: http://arxiv.org/abs/2602.12403v1
- Date: Thu, 12 Feb 2026 20:53:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.752001
- Title: MonoLoss: A Training Objective for Interpretable Monosemantic Representations
- Title(参考訳): MonoLoss: 解釈可能なモノセマンティック表現のためのトレーニング対象
- Authors: Ali Nasiri-Sarvi, Anh Tien Nguyen, Hassan Rivaz, Dimitris Samaras, Mahdi S. Hosseini,
- Abstract要約: スパースオートエンコーダ(SAE)は、神経細胞が複数の無関係な概念に反応する多意味神経表現を単意味的特徴に分解する。
MonoScoreは、まったく同じ量を計算するメトリクスだが、データセットの枚数で2次ではなく線形に成長するコストがかかる。
MonoLossは、解釈可能なモノセマンティック表現を学習するために意味的に一貫したアクティベーションを報酬する。
- 参考スコア(独自算出の注目度): 36.86510536729508
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Sparse autoencoders (SAEs) decompose polysemantic neural representations, where neurons respond to multiple unrelated concepts, into monosemantic features that capture single, interpretable concepts. However, standard training objectives only weakly encourage this decomposition, and existing monosemanticity metrics require pairwise comparisons across all dataset samples, making them inefficient during training and evaluation. We study a recent MonoScore metric and derive a single-pass algorithm that computes exactly the same quantity, but with a cost that grows linearly, rather than quadratically, with the number of dataset images. On OpenImagesV7, we achieve up to a 1200x speedup wall-clock speedup in evaluation and 159x during training, while adding only ~4% per-epoch overhead. This allows us to treat MonoScore as a training signal: we introduce the Monosemanticity Loss (MonoLoss), a plug-in objective that directly rewards semantically consistent activations for learning interpretable monosemantic representations. Across SAEs trained on CLIP, SigLIP2, and pretrained ViT features, using BatchTopK, TopK, and JumpReLU SAEs, MonoLoss increases MonoScore for most latents. MonoLoss also consistently improves class purity (the fraction of a latent's activating images belonging to its dominant class) across all encoder and SAE combinations, with the largest gain raising baseline purity from 0.152 to 0.723. Used as an auxiliary regularizer during ResNet-50 and CLIP-ViT-B/32 finetuning, MonoLoss yields up to 0.6\% accuracy gains on ImageNet-1K and monosemantic activating patterns on standard benchmark datasets. The code is publicly available at https://github.com/AtlasAnalyticsLab/MonoLoss.
- Abstract(参考訳): スパースオートエンコーダ(SAE)は、神経細胞が複数の無関係な概念に反応する多意味神経表現を、単一の解釈可能な概念を捉える単意味的特徴に分解する。
しかしながら、標準的なトレーニングの目標は、この分解を弱く促進するだけであり、既存のモノセマンティリティのメトリクスは、すべてのデータセットのペア比較を必要とするため、トレーニングと評価の間は効率が悪くなります。
我々は最近のMonoScore測定値を調査し、全く同じ量を計算できるシングルパスアルゴリズムを導出する。
OpenImagesV7では、トレーニング中に1200倍のスピードアップと159倍のスピードアップを実現しました。
MonoLoss(Monosemanticity Loss)は、解釈可能なモノセマンティック表現を学習するために、意味的に一貫したアクティベーションを直接報酬するプラグインである。
CLIP、SigLIP2、および事前トレーニングされたViT機能に基づいてトレーニングされたSAE全体で、BatchTopK、TopK、JumpReLU SAEを使用して、MonoLossは、ほとんどの潜伏者に対してMonoScoreを増大させる。
MonoLossはまた、すべてのエンコーダとSAEの組み合わせにおけるクラス純度(ラテントの活性化画像の分画)を一貫して改善し、最大のゲインは0.152から0.723までベースライン純度を高める。
ResNet-50とCLIP-ViT-B/32ファインタニングで補助正規化器として使用されるMonoLossは、ImageNet-1Kと標準ベンチマークデータセットのモノセマンティックアクティベートパターンで最大0.6\%の精度を得る。
コードはhttps://github.com/AtlasAnalyticsLab/MonoLoss.comで公開されている。
関連論文リスト
- Conjuring Positive Pairs for Efficient Unification of Representation Learning and Image Synthesis [3.5900418884504095]
Unified Self-Supervised Learning (SSL)メソッドは、表現学習と生成モデリングのギャップを埋める。
最近のUnified SSLメソッドは、トレーニング中に外部トークン化器を必要とするセマンティックトークン再構成のみに依存している。
本稿では,新しい統合SSLフレームワークであるSorcenについて紹介する。
論文 参考訳(メタデータ) (2025-03-19T09:53:11Z) - Mono-Forward: Backpropagation-Free Algorithm for Efficient Neural Network Training Harnessing Local Errors [0.0]
バックプロパゲーションは、ニューラルネットワークトレーニングにおける最先端の精度を達成するための標準的な方法である。
HintonのForward-Forwardフレームワークにインスパイアされた,純粋に局所的な階層学習手法であるMono-Forwardアルゴリズムを導入する。
テスト結果は、Mono-Forwardがすべてのタスクでバックプロパゲーションの正確さを一貫して一致または上回っていることを示している。
論文 参考訳(メタデータ) (2025-01-16T01:50:34Z) - Beyond Interpretability: The Gains of Feature Monosemanticity on Model Robustness [68.69369585600698]
ディープラーニングモデルは多意味性による解釈可能性の欠如に悩まされることが多い。
神経細胞が一貫したセマンティクスと異なるセマンティクスに対応するモノセマンティクスの最近の進歩は、解釈可能性を大幅に改善した。
モノセマンティックな特徴は解釈可能性を高めるだけでなく、モデル性能の具体的な向上をもたらすことを示す。
論文 参考訳(メタデータ) (2024-10-27T18:03:20Z) - $\mathbb{X}$-Sample Contrastive Loss: Improving Contrastive Learning with Sample Similarity Graphs [62.565573316667276]
サンプルが他者とどのように関連しているかを符号化する目的を開発する。
クラスやテキストのキャプション記述における類似性に基づいて視覚モデルを訓練する。
我々の目標は、特に低いデータ体制でうまく機能しているようで、CLIPが16.8%、ImageNet Realが18.1%だった。
論文 参考訳(メタデータ) (2024-07-25T15:38:16Z) - Mix-Teaching: A Simple, Unified and Effective Semi-Supervised Learning
Framework for Monocular 3D Object Detection [22.074959519526605]
Mix-Teachingは、ラベル付き画像とラベルなし画像の両方をトレーニング段階で使用するための効果的な半教師付き学習フレームワークである。
Mix-Teaching は MonoFlex と GUPNet を KITTI データセット上で様々なラベル付け比率で大幅に改善している。
論文 参考訳(メタデータ) (2022-07-10T12:07:25Z) - Fast and Data Efficient Reinforcement Learning from Pixels via
Non-Parametric Value Approximation [90.78178803486746]
離散動作,画素ベース環境のための強化学習アルゴリズムであるNonparametric Approximation of Inter-Trace Return (NAIT)を提案する。
ATARI100kの26ゲーム版と57ゲーム版の両方においてNAITを実証的に評価した。
論文 参考訳(メタデータ) (2022-03-07T00:31:31Z) - SimTriplet: Simple Triplet Representation Learning with a Single GPU [4.793871743112708]
病理画像に対する簡易三重項表現学習(SimTriplet)手法を提案する。
79,000個のラベルなしの病理パッチ画像から学習することで、simtripletは教師付き学習に比べて10.58%の優れたパフォーマンスを達成した。
論文 参考訳(メタデータ) (2021-03-09T17:46:09Z) - MonoRec: Semi-Supervised Dense Reconstruction in Dynamic Environments
from a Single Moving Camera [52.41549759529667]
MonoRecは、動的環境における単一の移動カメラから深度マップを予測する半教師付き再構築アーキテクチャである。
我々はMonoRecがマルチビューとシングルビューの両方と比較して最先端のパフォーマンスを実現していることを示す。
論文 参考訳(メタデータ) (2020-11-24T00:40:36Z) - EqCo: Equivalent Rules for Self-supervised Contrastive Learning [81.45848885547754]
本稿では,InfoNCEをベースとしたコントラスト学習フレームワークにおいて,負のサンプル数と無関係に自己教師型学習を実現する手法を提案する。
InfoMaxの原理に着想を得て、負のペアの数に応じて、対照的な損失のマージン項を適応的にスケールする必要があることを指摘する。
論文 参考訳(メタデータ) (2020-10-05T11:39:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。