論文の概要: OrtSAE: Orthogonal Sparse Autoencoders Uncover Atomic Features
- arxiv url: http://arxiv.org/abs/2509.22033v1
- Date: Fri, 26 Sep 2025 08:10:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.290581
- Title: OrtSAE: Orthogonal Sparse Autoencoders Uncover Atomic Features
- Title(参考訳): OrtSAE: 直交スパースオートエンコーダが原子の特徴を発見
- Authors: Anton Korznikov, Andrey Galichin, Alexey Dontsov, Oleg Rogov, Elena Tutubalina, Ivan Oseledets,
- Abstract要約: スパースオートエンコーダ(SAE)は、ニューラルネットワークの活性化を人間の解釈可能な特徴にスパース分解する技術である。
本研究では,これらの問題を緩和するために,学習特徴間の直交性を強制する手法であるOrthogonal SAE(OrtSAE)を紹介する。
その結果,OrtSAEはより9%の異なる特徴を発見し,機能吸収率(65%)と構成率(15%)を低減し,スプリアス相関除去性能(+6%)を向上し,従来のSAEと比較して,他のダウンストリームタスクのオンパー性能を実現していることがわかった。
- 参考スコア(独自算出の注目度): 10.871959954490217
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Sparse autoencoders (SAEs) are a technique for sparse decomposition of neural network activations into human-interpretable features. However, current SAEs suffer from feature absorption, where specialized features capture instances of general features creating representation holes, and feature composition, where independent features merge into composite representations. In this work, we introduce Orthogonal SAE (OrtSAE), a novel approach aimed to mitigate these issues by enforcing orthogonality between the learned features. By implementing a new training procedure that penalizes high pairwise cosine similarity between SAE features, OrtSAE promotes the development of disentangled features while scaling linearly with the SAE size, avoiding significant computational overhead. We train OrtSAE across different models and layers and compare it with other methods. We find that OrtSAE discovers 9% more distinct features, reduces feature absorption (by 65%) and composition (by 15%), improves performance on spurious correlation removal (+6%), and achieves on-par performance for other downstream tasks compared to traditional SAEs.
- Abstract(参考訳): スパースオートエンコーダ(SAE)は、ニューラルネットワークの活性化を人間の解釈可能な特徴にスパース分解する技術である。
しかし、現在のSAEは特徴吸収に悩まされており、特定の特徴が表現穴を作る一般的な特徴のインスタンスをキャプチャし、独立した特徴が合成表現にマージされる。
本研究では,これらの問題を緩和するために,学習特徴間の直交性を強制する手法であるOrthogonal SAE(OrtSAE)を紹介する。
OrtSAEは、SAE特徴間の高いペアワイズコサイン類似性を罰する新しいトレーニング手順を実装することにより、SAEサイズと線形にスケーリングしながら、非絡み合った特徴の開発を促進し、計算オーバーヘッドを大幅に回避する。
さまざまなモデルやレイヤにまたがってOrtSAEをトレーニングし、他のメソッドと比較します。
その結果,OrtSAEはより9%の異なる特徴を発見し,機能吸収率(65%)と構成率(15%)を低減し,スプリアス相関除去性能(+6%)を向上し,従来のSAEと比較して,他のダウンストリームタスクのオンパー性能を実現していることがわかった。
関連論文リスト
- Understanding sparse autoencoder scaling in the presence of feature manifolds [5.2924382061650395]
我々は、SAEスケーリングを理解するために、ニューラルスケーリング文献からキャパシティアロケーションモデルを適用する。
我々は,SAEが野生の病的状態にあるかどうかを論じる。
論文 参考訳(メタデータ) (2025-09-02T17:59:50Z) - Dense SAE Latents Are Features, Not Bugs [75.08462524662072]
言語モデル計算において,高密度潜伏剤が機能的役割を担っていることを示す。
位置追跡,コンテキストバインディング,エントロピー制御,文字固有出力信号,パート・オブ・音声,主成分再構成に関連するクラスを同定する。
論文 参考訳(メタデータ) (2025-06-18T17:59:35Z) - Ensembling Sparse Autoencoders [10.81463830315253]
スパースオートエンコーダ(SAE)は、ニューラルネットワークの活性化を人間の解釈可能な特徴に分解するために用いられる。
我々は,複数のSAEを包括的袋詰めとブースティングによりアンサンブルすることを提案する。
実験の結果,SAEのアンサンブルにより,言語モデルの活性化,特徴の多様性,SAEの安定性が向上することが示された。
論文 参考訳(メタデータ) (2025-05-21T23:31:21Z) - Feature Hedging: Correlated Features Break Narrow Sparse Autoencoders [6.610766275883306]
スパースオートエンコーダ(SAE)は多意味的な活性化を解釈可能な線形方向へ分解する。
SAEがトレーニング対象の「真の特徴」の数よりも狭く、特徴の間に相関関係がある場合、SAEは関連する特徴のコンポーネントをマージする。
特徴ヘッジ(feature hedging)と呼ばれるこの現象は、SAE再建損失によって引き起こされ、SAEがより狭くなるほど深刻である。
論文 参考訳(メタデータ) (2025-05-16T23:30:17Z) - Hybrid Discriminative Attribute-Object Embedding Network for Compositional Zero-Shot Learning [83.10178754323955]
HDA-OE(Hybrid Discriminative Attribute-Object Embedding)ネットワークは,属性とオブジェクトの視覚表現との複雑な相互作用を解決するために提案される。
トレーニングデータの多様性を高めるため、HDA-OEは属性駆動型データ合成(ADDS)モジュールを導入した。
HDA-OEは、モデルの識別能力をさらに向上するため、サブクラス駆動の差別的埋め込み(SDDE)モジュールを導入している。
提案モデルを3つのベンチマークデータセットで評価し,その妥当性と信頼性を検証した。
論文 参考訳(メタデータ) (2024-11-28T09:50:25Z) - Efficient Dictionary Learning with Switch Sparse Autoencoders [8.577217344304072]
本稿では,SAEのトレーニングコスト削減を目的とした新しいSAEアーキテクチャであるSwitch Sparse Autoencodersを紹介する。
専門家モデルのまばらな混合にインスパイアされたSAEは、より小さな「専門家」SAE間での経路活性化ベクトルを切り替える。
この結果,Switch SAEは,所定のトレーニング計算予算に対して,再構成と疎性フロンティアの大幅な改善をもたらすことがわかった。
論文 参考訳(メタデータ) (2024-10-10T17:59:11Z) - Adaptive Feature Selection for No-Reference Image Quality Assessment by Mitigating Semantic Noise Sensitivity [55.399230250413986]
上流タスクから有害なセマンティックノイズを除去するためのQFM-IQM(Quality-Aware Feature Matching IQA Metric)を提案する。
提案手法は,8つの標準IQAデータセット上での最先端NR-IQA法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2023-12-11T06:50:27Z) - Spatio-temporal Gait Feature with Adaptive Distance Alignment [90.5842782685509]
我々は,ネットワーク構造の最適化と抽出した歩行特徴の洗練という2つの側面から,異なる被験者の歩行特徴の差を増大させようとしている。
提案手法は時空間特徴抽出(SFE)と適応距離アライメント(ADA)から構成される。
ADAは実生活における多数の未ラベルの歩行データをベンチマークとして使用し、抽出した時間的特徴を洗練し、クラス間類似度が低く、クラス内類似度が高いようにしている。
論文 参考訳(メタデータ) (2022-03-07T13:34:00Z) - Lightweight Single-Image Super-Resolution Network with Attentive
Auxiliary Feature Learning [73.75457731689858]
本稿では,SISR の注意補助機能 (A$2$F) に基づく計算効率が高く正確なネットワークを構築した。
大規模データセットを用いた実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2020-11-13T06:01:46Z) - Improving Aspect-Level Sentiment Analysis with Aspect Extraction [104.3459510527776]
この研究は主に、事前訓練されたAEモデルから知識を移すことがALSAモデルの性能に利益をもたらすという仮説を立てている。
本研究は,3種類のベースラインALSAモデルの性能を有意に向上させることを示す。
論文 参考訳(メタデータ) (2020-05-03T06:25:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。