論文の概要: Rethinking Sparse Autoencoders: Select-and-Project for Fairness and Control from Encoder Features Alone
- arxiv url: http://arxiv.org/abs/2509.10809v1
- Date: Sat, 13 Sep 2025 06:36:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:22.787753
- Title: Rethinking Sparse Autoencoders: Select-and-Project for Fairness and Control from Encoder Features Alone
- Title(参考訳): スパースオートエンコーダの再考:エンコーダの機能からフェアネスと制御を選択・アンド・プロジェクト
- Authors: Antonio Bărbălau, Cristian Daniel Păduraru, Teodor Poncu, Alexandru Tifrea, Elena Burceanu,
- Abstract要約: スパースオートエンコーダ(SAE)に基づく表現脱バイアスのためのエンコーダにフォーカスした代替手段を提案する。
我々のフレームワークはS&P TopKと呼ばれ、フェアネス指標のSAE使用率を最大3.2倍に上回っている。
- 参考スコア(独自算出の注目度): 39.82653850064945
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sparse Autoencoders (SAEs) have proven valuable due to their ability to provide interpretable and steerable representations. Current debiasing methods based on SAEs manipulate these sparse activations presuming that feature representations are housed within decoder weights. We challenge this fundamental assumption and introduce an encoder-focused alternative for representation debiasing, contributing three key findings: (i) we highlight an unconventional SAE feature selection strategy, (ii) we propose a novel SAE debiasing methodology that orthogonalizes input embeddings against encoder weights, and (iii) we establish a performance-preserving mechanism during debiasing through encoder weight interpolation. Our Selection and Projection framework, termed S\&P TopK, surpasses conventional SAE usage in fairness metrics by a factor of up to 3.2 and advances state-of-the-art test-time VLM debiasing results by a factor of up to 1.8 while maintaining downstream performance.
- Abstract(参考訳): スパースオートエンコーダ (SAEs) は、解釈可能かつステアブルな表現を提供する能力によって、有用であることが証明されている。
SAEに基づく現在のデバイアス法は、特徴表現がデコーダ重みに格納されていると仮定して、これらのスパースアクティベーションを操作する。
私たちはこの基本的な仮定に挑戦し、エンコーダに焦点をあてた表現のデバイアス(debiasing)の代替法を導入し、3つの重要な発見に貢献する。
(i)従来と異なるSAE機能選択戦略を強調します。
(II)エンコーダ重みに対する入力埋め込みを直交化する新しいSAE脱バイアス手法を提案する。
(3)エンコーダ重量補間による脱バイアス時の性能保存機構を確立する。
我々のSelection and Projectionフレームワークは、S\&P TopKと呼ばれ、フェアネス指標における従来のSAE使用率を3.2倍に上回り、ダウンストリーム性能を維持しながら、最先端のテストタイムVLMの劣化を最大1.8倍に改善する。
関連論文リスト
- Taming Polysemanticity in LLMs: Provable Feature Recovery via Sparse Autoencoders [50.52694757593443]
既存のSAEトレーニングアルゴリズムは厳密な数学的保証を欠いていることが多く、実用的な制限に悩まされている。
まず,特徴の特定可能性という新たな概念を含む特徴回復問題の統計的枠組みを提案する。
本稿では、ニューラルネットワークのバイアスパラメータを適応的に調整し、適切なアクティベーション間隔を確保する手法である「バイアス適応」に基づく新たなSAEトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-16T20:58:05Z) - Semi-supervised Semantic Segmentation with Multi-Constraint Consistency Learning [81.02648336552421]
本稿では,エンコーダとデコーダの段階的拡張を容易にするためのマルチ制約一貫性学習手法を提案する。
自己適応型特徴マスキングとノイズ注入は、デコーダの堅牢な学習のための特徴を摂動させるために、インスタンス固有の方法で設計されている。
Pascal VOC2012およびCityscapesデータセットの実験結果から,提案したMCCLが新たな最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2025-03-23T03:21:33Z) - Theoretically informed selection of latent activation in autoencoder based recommender systems [0.0]
オートエンコーダは、より正確で計算効率のよいレコメンデーションシステムの設計に自らを貸すことができる。
この研究は、オートエンコーダのエンコーダがレコメンデーション精度を向上させるために示すべき3つの重要な数学的特性を特定する。
論文 参考訳(メタデータ) (2024-11-06T23:39:39Z) - FADE: A Task-Agnostic Upsampling Operator for Encoder-Decoder Architectures [18.17019371324024]
FADEは、新しくて、プラグアンドプレイで、軽量で、タスクに依存しないアップサンプリングオペレータである。
FADEはタスク非依存であり,多くの密集予測タスクにおいて一貫した性能向上を示す。
リージョンとディテールに敏感なタスクの両方で,ロバストな機能アップサンプリングを初めて実施しました。
論文 参考訳(メタデータ) (2024-07-18T13:32:36Z) - SA-DVAE: Improving Zero-Shot Skeleton-Based Action Recognition by Disentangled Variational Autoencoders [7.618223798662929]
本稿では,分散変分オートエンコーダを用いたSA-DVAE-セマンティックアライメントを提案する。
このアイデアは,一対のモダリティ特異的変分オートエンコーダと全補正ペナルティによって実現される。
実験の結果,SA-DAVEは既存手法よりも性能が向上していることがわかった。
論文 参考訳(メタデータ) (2024-07-18T12:35:46Z) - On Leveraging Encoder-only Pre-trained Language Models for Effective
Keyphrase Generation [76.52997424694767]
本研究では、キーフレーズ生成(KPG)におけるエンコーダのみの事前学習言語モデル(PLM)の適用について述べる。
エンコーダのみの PLM では、条件付きランダムフィールドを持つ KPE は、現在のキーフレーズの同定においてわずかに優れているが、KPG の定式化はキーフレーズの予測の幅広いスペクトルを表現している。
また,エンコーダのみの PLM を用いたエンコーダデコーダアーキテクチャを用いる場合,幅よりもモデル深度に対するパラメータ割り当てが望ましいことを示す。
論文 参考訳(メタデータ) (2024-02-21T18:57:54Z) - CONTRASTE: Supervised Contrastive Pre-training With Aspect-based Prompts
For Aspect Sentiment Triplet Extraction [13.077459544929598]
本稿では,ConTRastive Learning を用いた新しい事前学習戦略を提案する。
また,ACOS,TASD,AESCなどの他のABSAタスクに対して提案手法の利点を示す。
論文 参考訳(メタデータ) (2023-10-24T07:40:09Z) - Triple-View Knowledge Distillation for Semi-Supervised Semantic
Segmentation [54.23510028456082]
半教師付きセマンティックセグメンテーションのためのトリプルビュー知識蒸留フレームワークTriKDを提案する。
このフレームワークは、トリプルビューエンコーダとデュアル周波数デコーダを含む。
論文 参考訳(メタデータ) (2023-09-22T01:02:21Z) - Seeking Common but Distinguishing Difference, A Joint Aspect-based
Sentiment Analysis Model [43.4726612032584]
本稿では,エンコーダ共有の利点を享受するだけでなく,モデルの有効性向上にも焦点をあてる共同ABSAモデルを提案する。
具体的には、ペアエンコーダが特に候補アスペクト-オピニオン対の分類に重点を置いており、元のエンコーダはシーケンスラベリングに注意を払っている。
実験結果から,提案モデルが頑健性を示し,従来の4つのベンチマークデータセットよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2021-11-18T11:24:48Z) - Autoencoding Variational Autoencoder [56.05008520271406]
我々は,この行動が学習表現に与える影響と,自己整合性の概念を導入することでそれを修正する結果について検討する。
自己整合性アプローチで訓練されたエンコーダは、敵攻撃による入力の摂動に対して頑健な(無神経な)表現につながることを示す。
論文 参考訳(メタデータ) (2020-12-07T14:16:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。