論文の概要: Preserving Bilinear Weight Spectra with a Signed and Shrunk Quadratic Activation Function
- arxiv url: http://arxiv.org/abs/2509.01874v1
- Date: Tue, 02 Sep 2025 01:42:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.873425
- Title: Preserving Bilinear Weight Spectra with a Signed and Shrunk Quadratic Activation Function
- Title(参考訳): 符号付き低速2次活性化関数を持つ双線形重みスペクトルの保存
- Authors: Jason Abohwo, Thomas Mosen,
- Abstract要約: Signed Quadratic Shrink (SQS) は、Gated Linear Units (GLU) が解釈可能な特徴を学習できるように設計されたアクティベーション機能である。
実験の結果,SQSは最先端のアクティベーション機能と競合する性能を発揮することがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding the inner workings of machine learning models is critical for ensuring their reliability and robustness. Whilst many techniques in mechanistic interpretability focus on activation driven analyses, being able to derive meaningful features directly from the weights of a neural network would provide greater guarantees and more computational efficiency. Existing techniques for analyzing model features through weights suffer from drawbacks such as reduced performance and data inefficiency. In this paper, we introduce Signed Quadratic Shrink (SQS), an activation function designed to allow Gated Linear Units (GLUs) to learn interpretable features without these drawbacks. Our experimental results show that SQS achieves performance competitive with state-of-the-art activation functions whilst enabling weight-based interpretability
- Abstract(参考訳): マシンラーニングモデルの内部動作を理解することは、信頼性と堅牢性の確保に不可欠である。
機械論的解釈可能性の多くの技術はアクティベーション駆動分析に重点を置いているが、ニューラルネットワークの重みから直接有意義な特徴を導き出すことができれば、より高い保証と計算効率が得られるだろう。
モデルの特徴を重みを通して分析する既存の技術は、性能低下やデータ非効率といった欠点に悩まされている。
本稿では,GLU(Gated Linear Units)がこれらの欠点を伴わずに解釈可能な特徴を学習できるように設計されたアクティベーション機能であるSigned Quadratic Shrink (SQS)を紹介する。
我々の実験結果によると、SQSは重みに基づく解釈性を実現しつつ、最先端のアクティベーション機能と競合する性能を実現する。
関連論文リスト
- DimOL: Dimensional Awareness as A New 'Dimension' in Operator Learning [60.58067866537143]
本稿では,DimOL(Dimension-aware Operator Learning)を紹介し,次元解析から洞察を得る。
DimOLを実装するために,FNOおよびTransformerベースのPDEソルバにシームレスに統合可能なProdLayerを提案する。
経験的に、DimOLモデルはPDEデータセット内で最大48%のパフォーマンス向上を達成する。
論文 参考訳(メタデータ) (2024-10-08T10:48:50Z) - How Feature Learning Can Improve Neural Scaling Laws [79.59705237659547]
我々は,カーネル限界を超えたニューラルスケーリング法則の解法モデルを開発する。
モデルのサイズ、トレーニング時間、利用可能なデータの総量によるパフォーマンスのスケールアップ方法を示す。
論文 参考訳(メタデータ) (2024-09-26T14:05:32Z) - Iterative Feature Boosting for Explainable Speech Emotion Recognition [17.568724398229232]
本稿では,効率的な特徴工学手法に基づく新しい教師付きSER手法を提案する。
特徴の関連性を評価し,特徴セットを洗練させるために,結果の説明可能性に特に注意を払っている。
提案手法は,TESSデータセット上での感情認識において,ヒトレベルのパフォーマンス(HLP)および最先端の機械学習手法より優れる。
論文 参考訳(メタデータ) (2024-05-30T15:44:27Z) - Enhancing Q-Learning with Large Language Model Heuristics [0.0]
大規模言語モデル(LLM)は、単純なタスクでゼロショット学習を達成できるが、推論速度の低下と時折幻覚に悩まされる。
我々は,LLMを幻覚として活用し,強化学習のためのQ関数の学習を支援するフレームワークであるtextbfLLM-guided Q-learningを提案する。
論文 参考訳(メタデータ) (2024-05-06T10:42:28Z) - Understanding Self-attention Mechanism via Dynamical System Perspective [58.024376086269015]
SAM(Self-attention mechanism)は、人工知能の様々な分野で広く使われている。
常微分方程式(ODE)の高精度解における固有剛性現象(SP)は,高性能ニューラルネットワーク(NN)にも広く存在することを示す。
SAMは、本質的なSPを測定するためのモデルの表現能力を高めることができる剛性対応のステップサイズ適応器でもあることを示す。
論文 参考訳(メタデータ) (2023-08-19T08:17:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。