論文の概要: Time-Aware Feature Selection: Adaptive Temporal Masking for Stable Sparse Autoencoder Training
- arxiv url: http://arxiv.org/abs/2510.08855v1
- Date: Thu, 09 Oct 2025 23:12:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:47.885544
- Title: Time-Aware Feature Selection: Adaptive Temporal Masking for Stable Sparse Autoencoder Training
- Title(参考訳): 時間を考慮した特徴選択:安定スパースオートエンコーダ訓練のための適応的時間マスキング
- Authors: T. Ed Li, Junyu Ren,
- Abstract要約: 本稿では,アクティベーションの程度,頻度,コントリビューションの追跡によって特徴選択を調整し,時間とともに進化する重要度を計算するための新しいトレーニング手法であるAdaptive Temporal Masking(ATM)を紹介する。
ATMは、TopKやJumpReLU SAEsのような既存の方法に比べて吸収スコアが大幅に低いが、再現性は良好である。
- 参考スコア(独自算出の注目度): 0.47745223151611654
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding the internal representations of large language models is crucial for ensuring their reliability and safety, with sparse autoencoders (SAEs) emerging as a promising interpretability approach. However, current SAE training methods face feature absorption, where features (or neurons) are absorbed into each other to minimize $L_1$ penalty, making it difficult to consistently identify and analyze model behaviors. We introduce Adaptive Temporal Masking (ATM), a novel training approach that dynamically adjusts feature selection by tracking activation magnitudes, frequencies, and reconstruction contributions to compute importance scores that evolve over time. ATM applies a probabilistic masking mechanism based on statistical thresholding of these importance scores, creating a more natural feature selection process. Through extensive experiments on the Gemma-2-2b model, we demonstrate that ATM achieves substantially lower absorption scores compared to existing methods like TopK and JumpReLU SAEs, while maintaining excellent reconstruction quality. These results establish ATM as a principled solution for learning stable, interpretable features in neural networks, providing a foundation for more reliable model analysis.
- Abstract(参考訳): 大きな言語モデルの内部表現を理解することは、その信頼性と安全性を確保するために不可欠であり、将来性のある解釈可能性アプローチとしてスパースオートエンコーダ(SAE)が出現する。
しかし、現在のSAEトレーニング手法では、特徴(またはニューロン)が互いに吸収され、$L_1$ペナルティを最小限に抑えられ、モデルの振る舞いを一貫して識別し分析することが困難である。
本稿では,アクティベーションの程度,頻度,再現度を追跡することによって特徴選択を動的に調整し,時間とともに進化する重要度を計算するための新しいトレーニング手法であるAdaptive Temporal Masking(ATM)を紹介する。
ATMはこれらの重要なスコアの統計的しきい値に基づく確率的マスキング機構を適用し、より自然な特徴選択プロセスを作成する。
Gemma-2-2bモデルに関する広範な実験を通じて,ATMはTopKやJumpReLU SAEsといった既存手法に比べて吸収率を著しく低くし,再現性も良好であることを実証した。
これらの結果は、ニューラルネットワークの安定かつ解釈可能な特徴を学習するための原則的ソリューションとしてATMを確立し、より信頼性の高いモデル解析の基礎を提供する。
関連論文リスト
- The Curious Case of In-Training Compression of State Space Models [49.819321766705514]
ステートスペースモデル(SSM)は、並列化可能なトレーニングと高速推論の両方を提供する。
鍵となる設計上の課題は、表現力の最大化と計算負荷の制限の間の適切なバランスを打つことだ。
我々のアプローチである textscCompreSSM はリニアリカレントユニットのような線形時間不変SSMに適用されるが、選択モデルにも拡張可能である。
論文 参考訳(メタデータ) (2025-10-03T09:02:33Z) - Sycophancy Mitigation Through Reinforcement Learning with Uncertainty-Aware Adaptive Reasoning Trajectories [58.988535279557546]
適応推論トラジェクトリを用いたtextbf sycophancy Mitigation を提案する。
SMARTは,分布外の入力に対して強い性能を維持しながら,サイコファンティクスの挙動を著しく低下させることを示した。
論文 参考訳(メタデータ) (2025-09-20T17:09:14Z) - Artificial Intelligence-Based Multiscale Temporal Modeling for Anomaly Detection in Cloud Services [10.421371572062595]
本研究では,マルチスケール特徴認識を統合したTransformerアーキテクチャに基づく異常検出手法を提案する。
提案手法は,精度,リコール,AUC,F1スコアなどの主要な指標において,主流のベースラインモデルより優れている。
論文 参考訳(メタデータ) (2025-08-20T07:52:36Z) - Taming Polysemanticity in LLMs: Provable Feature Recovery via Sparse Autoencoders [50.52694757593443]
既存のSAEトレーニングアルゴリズムは厳密な数学的保証を欠いていることが多く、実用的な制限に悩まされている。
まず,特徴の特定可能性という新たな概念を含む特徴回復問題の統計的枠組みを提案する。
本稿では、ニューラルネットワークのバイアスパラメータを適応的に調整し、適切なアクティベーション間隔を確保する手法である「バイアス適応」に基づく新たなSAEトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-16T20:58:05Z) - Generative QoE Modeling: A Lightweight Approach for Telecom Networks [6.473372512447993]
本研究では,計算効率,解釈可能性,予測精度のバランスをとる軽量な生成モデリングフレームワークを提案する。
ベクトル量子化(VQ)を前処理技術として用いることにより、連続的なネットワーク機能は事実上離散的な分類記号に変換される。
このVQ-HMMパイプラインは、新しい未知のデータに対する確率的推論をサポートしながら、動的QoEパターンをキャプチャするモデルの能力を高める。
論文 参考訳(メタデータ) (2025-04-30T06:19:37Z) - A Novel Framework for Learning Stochastic Representations for Sequence Generation and Recognition [0.0]
シーケンシャルなデータの生成と認識は、動的環境で動作する自律システムの基本である。
パラメトリックバイアスを用いた新しいリカレントネットワーク(RNNPB)を提案する。
我々のアプローチは、時間パターンをモデル化するためのフレームワークを提供し、人工知能とロボティクスにおける堅牢なシステムの開発を前進させる。
論文 参考訳(メタデータ) (2024-12-30T07:27:50Z) - Embedded feature selection in LSTM networks with multi-objective
evolutionary ensemble learning for time series forecasting [49.1574468325115]
本稿では,Long Short-Term Memory Networkに埋め込まれた特徴選択手法を提案する。
本手法はLSTMの重みと偏りを分割的に最適化する。
イタリアとスペイン南東部の大気質時系列データの実験的評価により,従来のLSTMの能力一般化が著しく向上することが確認された。
論文 参考訳(メタデータ) (2023-12-29T08:42:10Z) - Understanding Self-attention Mechanism via Dynamical System Perspective [58.024376086269015]
SAM(Self-attention mechanism)は、人工知能の様々な分野で広く使われている。
常微分方程式(ODE)の高精度解における固有剛性現象(SP)は,高性能ニューラルネットワーク(NN)にも広く存在することを示す。
SAMは、本質的なSPを測定するためのモデルの表現能力を高めることができる剛性対応のステップサイズ適応器でもあることを示す。
論文 参考訳(メタデータ) (2023-08-19T08:17:41Z) - Stabilizing Machine Learning Prediction of Dynamics: Noise and
Noise-inspired Regularization [58.720142291102135]
近年、機械学習(ML)モデルはカオス力学系の力学を正確に予測するために訓練可能であることが示されている。
緩和技術がなければ、この技術は人工的に迅速にエラーを発生させ、不正確な予測と/または気候不安定をもたらす可能性がある。
トレーニング中にモデル入力に付加される多数の独立雑音実効化の効果を決定論的に近似する正規化手法であるLinearized Multi-Noise Training (LMNT)を導入する。
論文 参考訳(メタデータ) (2022-11-09T23:40:52Z) - Automated Learning of Interpretable Models with Quantified Uncertainty [0.0]
我々は遺伝子プログラミングに基づくシンボリックレグレッション(GPSR)の新しい枠組みを導入する。
GPSRはモデルエビデンスを用いて、進化の選択段階における置換確率を定式化する。
従来のGPSR実装と比較して、解釈可能性の向上、ノイズに対する堅牢性の向上、オーバーフィッティングの低減が示されている。
論文 参考訳(メタデータ) (2022-04-12T19:56:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。