論文の概要: Decoding Dark Matter: Specialized Sparse Autoencoders for Interpreting Rare Concepts in Foundation Models
- arxiv url: http://arxiv.org/abs/2411.00743v1
- Date: Fri, 01 Nov 2024 17:09:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:51:30.383798
- Title: Decoding Dark Matter: Specialized Sparse Autoencoders for Interpreting Rare Concepts in Foundation Models
- Title(参考訳): 暗黒物質をデコードする:基礎モデルにおける希少概念の解釈のための特別なスパースオートエンコーダ
- Authors: Aashiq Muhamed, Mona Diab, Virginia Smith,
- Abstract要約: 特殊スパースオートエンコーダ(SSAE)は、特定の点に注目して、暗黒物質の特徴を照らす。
SSAEは,汎用SAEの能力を超越して,サブドメインのテール概念を効果的に捉えていることを示す。
SSAEs の実用性について,Bias in Bios データセットのケーススタディで紹介し,SSAEs が有意な性別情報を除去するために適用した場合,最悪のグループ分類精度が 12.5% 向上することを示した。
- 参考スコア(独自算出の注目度): 26.748765050034876
- License:
- Abstract: Understanding and mitigating the potential risks associated with foundation models (FMs) hinges on developing effective interpretability methods. Sparse Autoencoders (SAEs) have emerged as a promising tool for disentangling FM representations, but they struggle to capture rare, yet crucial concepts in the data. We introduce Specialized Sparse Autoencoders (SSAEs), designed to illuminate these elusive dark matter features by focusing on specific subdomains. We present a practical recipe for training SSAEs, demonstrating the efficacy of dense retrieval for data selection and the benefits of Tilted Empirical Risk Minimization as a training objective to improve concept recall. Our evaluation of SSAEs on standard metrics, such as downstream perplexity and $L_0$ sparsity, show that they effectively capture subdomain tail concepts, exceeding the capabilities of general-purpose SAEs. We showcase the practical utility of SSAEs in a case study on the Bias in Bios dataset, where SSAEs achieve a 12.5\% increase in worst-group classification accuracy when applied to remove spurious gender information. SSAEs provide a powerful new lens for peering into the inner workings of FMs in subdomains.
- Abstract(参考訳): ファンデーションモデル(FM)に関連する潜在的なリスクの理解と緩和は、効果的な解釈可能性手法の開発に焦点をあてる。
スパースオートエンコーダ(SAEs)はFM表現を遠ざけるための有望なツールとして登場したが、データの中で稀だが重要な概念を捉えるのに苦労している。
特定サブドメインに着目し,これらの暗黒物質の特徴を照らし出すための特殊スパースオートエンコーダ(SSAE)を導入する。
本稿では,SSAEのトレーニングの実践的レシピを提案し,データ選択における高密度検索の有効性とTilted Empirical Risk Minimizationのメリットを,概念リコールを改善するためのトレーニング目標として示す。
ダウンストリームパープレキシティや$L_0$スペーサリティなどの標準指標を用いたSSAEの評価は,汎用SAEの能力を超え,サブドメインのテール概念を効果的に捉えていることを示す。
SSAEs の実用性について,Bias in Bios データセットのケーススタディで紹介し,SSAEs が有意な性別情報を取り除いた場合,最悪のグループ分類精度が 12.5 % 向上することを示した。
SSAEはサブドメイン内のFMの内部動作をピアリングするための強力な新しいレンズを提供する。
関連論文リスト
- Interpretability as Compression: Reconsidering SAE Explanations of Neural Activations with MDL-SAEs [0.0]
本稿では,SAEを損失圧縮アルゴリズムとして解釈するための情報理論フレームワークを提案する。
スパーシリティではなくMDLを使用することは、ポーシリティを過度に最大化する潜在的な落とし穴を避けることができると我々は主張する。
論文 参考訳(メタデータ) (2024-10-15T01:38:03Z) - IncSAR: A Dual Fusion Incremental Learning Framework for SAR Target Recognition [7.9330990800767385]
破滅的な忘れ方として知られる新しいタスクを学ぶとき、モデルが古い知識を忘れる傾向は、未解決の課題である。
本稿では,SAR目標認識における破滅的忘れを緩和するために,IncSARと呼ばれる漸進的学習フレームワークを提案する。
IncSARはビジョントランスフォーマー(ViT)と、遅延融合戦略によって結合された個々のブランチにカスタム設計の畳み込みニューラルネットワーク(CNN)を備える。
論文 参考訳(メタデータ) (2024-10-08T08:49:47Z) - Efficient Prompt Tuning of Large Vision-Language Model for Fine-Grained
Ship Classification [62.425462136772666]
リモートセンシング(RS-FGSC)における船のきめ細かい分類は、クラス間の高い類似性とラベル付きデータの限られた可用性のために大きな課題となる。
大規模な訓練済みビジョンランゲージモデル(VLM)の最近の進歩は、少数ショット学習やゼロショット学習において印象的な能力を示している。
本研究は, 船種別分類精度を高めるために, VLMの可能性を生かしたものである。
論文 参考訳(メタデータ) (2024-03-13T05:48:58Z) - InfoRM: Mitigating Reward Hacking in RLHF via Information-Theoretic Reward Modeling [66.3072381478251]
Reward Hacking(報酬の過度な最適化)は依然として重要な課題だ。
本稿では,報奨モデル,すなわちInfoRMのためのフレームワークを提案する。
InfoRMの過度な最適化検出機構は、有効であるだけでなく、幅広いデータセットにわたって堅牢であることを示す。
論文 参考訳(メタデータ) (2024-02-14T17:49:07Z) - Enhancing Few-shot CLIP with Semantic-Aware Fine-Tuning [61.902254546858465]
Contrastive Language-Image Pre-Trainingに基づく手法は、数発の適応タスクで有望な性能を示した。
本稿では,タスク固有のセマンティクスに焦点を合わせるために,トレーニングプロセス中にアテンションプーリング層のパラメータを微調整することを提案する。
論文 参考訳(メタデータ) (2023-11-08T05:18:57Z) - Improving Deep Representation Learning via Auxiliary Learnable Target Coding [69.79343510578877]
本稿では,深層表現学習の補助的正規化として,新たな学習対象符号化を提案する。
具体的には、より差別的な表現を促進するために、マージンベースの三重項損失と、提案した目標符号上の相関整合損失を設計する。
論文 参考訳(メタデータ) (2023-05-30T01:38:54Z) - Robust Saliency-Aware Distillation for Few-shot Fine-grained Visual
Recognition [57.08108545219043]
サンプルが少ない新しいサブカテゴリを認識することは、コンピュータビジョンにおいて不可欠で挑戦的な研究課題である。
既存の文献は、ローカルベースの表現アプローチを採用することでこの問題に対処している。
本稿では,ロバスト・サリエンシ・アウェア蒸留法(RSaD)を提案する。
論文 参考訳(メタデータ) (2023-05-12T00:13:17Z) - Uncertainty Estimation by Fisher Information-based Evidential Deep
Learning [61.94125052118442]
不確実性推定は、ディープラーニングを実用アプリケーションで信頼できるものにする鍵となる要素である。
漁業情報に基づくエビデンシャルディープラーニング(mathcalI$-EDL)を提案する。
特に,各サンプルが有する証拠の情報量を測定するためにFisher Information Matrix (FIM)を導入し,目的的損失項を動的に重み付けし,不確実なクラスの表現学習に集中させる。
論文 参考訳(メタデータ) (2023-03-03T16:12:59Z) - Boosting the Generalization Capability in Cross-Domain Few-shot Learning
via Noise-enhanced Supervised Autoencoder [23.860842627883187]
我々は、新しいノイズ強調型教師付きオートエンコーダ(NSAE)を用いて、特徴分布のより広範なバリエーションを捉えるようモデルに教える。
NSAEは入力を共同で再構築し、入力のラベルと再構成されたペアを予測することによってモデルを訓練する。
また、NSAE構造を利用して、より適応性を高め、対象領域の分類性能を向上させる2段階の微調整手順を提案する。
論文 参考訳(メタデータ) (2021-08-11T04:45:56Z) - Explaining AI-based Decision Support Systems using Concept Localization
Maps [4.9449660544238085]
概念ローカライゼーションマップ(CLMs)は、決定支援システム(DSS)として使用される説明可能な画像分類器に対する新しいアプローチである。
CLMは、訓練された画像分類器の潜在空間において、学習された概念に対応する重要な領域を特定することで、概念活性化ベクトル(CAV)を拡張する。
私たちはSimple Concept DataBase(SCDB)という新しい合成データセットを作成しました。
SCDB上でSE-ResNeXt-50を用いて,最も関連する概念に対して80%以上のローカライズリコール,およびすべての概念に対して60%以上の平均リコールを実現した。
論文 参考訳(メタデータ) (2020-05-04T11:33:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。