論文の概要: Adaptive Sparse Softmax: An Effective and Efficient Softmax Variant
- arxiv url: http://arxiv.org/abs/2508.03175v1
- Date: Tue, 05 Aug 2025 07:36:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:55.841988
- Title: Adaptive Sparse Softmax: An Effective and Efficient Softmax Variant
- Title(参考訳): Adaptive Sparse Softmax: 効果的で効率的なSoftmaxバリアント
- Authors: Qi Lv, Lei Geng, Ziqiang Cao, Min Cao, Sujian Li, Wenjie Li, Guohong Fu,
- Abstract要約: ソフトマックス」は現在のニューラル分類モデルの標準構成である。
本稿では,適応スパースソフトマックス (AS-Softmax) を提案する。
提案したAS-Softmaxは,5~5000以上のクラスサイズを持つテキストマルチクラス,テキストマルチラベル,テキストトークン分類,画像分類,音声分類タスクで検証する。
その結果、AS-Softmaxはソフトマックスとその変種を一貫して上回り、AS-Softmaxの損失は検証における分類性能と著しく相関していることがわかった。
- 参考スコア(独自算出の注目度): 27.488444797784563
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Softmax with the cross entropy loss is the standard configuration for current neural classification models. The gold score for a target class is supposed to be 1, but it is never reachable under the softmax schema. Such a problem makes the training process continue forever and leads to overfitting. Moreover, the "target-approach-1" training goal forces the model to continuously learn all samples, leading to a waste of time in handling some samples which have already been classified correctly with high confidence, while the test goal simply requires the target class of each sample to hold the maximum score. To solve the above weaknesses, we propose the Adaptive Sparse softmax (AS-Softmax) which designs a reasonable and test-matching transformation on top of softmax. For more purposeful learning, we discard the classes with far smaller scores compared with the actual class during training. Then the model could focus on learning to distinguish the target class from its strong opponents, which is also the great challenge in test. In addition, since the training losses of easy samples will gradually drop to 0 in AS-Softmax, we develop an adaptive gradient accumulation strategy based on the masked sample ratio to speed up training. We verify the proposed AS-Softmax on a variety of text multi-class, text multi-label, text token classification, image classification and audio classification tasks with class sizes ranging from 5 to 5000+. The results show that AS-Softmax consistently outperforms softmax and its variants, and the loss of AS-Softmax is remarkably correlated with classification performance in validation. Furthermore, adaptive gradient accumulation strategy can bring about 1.2x training speedup comparing with the standard softmax while maintaining classification effectiveness.
- Abstract(参考訳): クロスエントロピー損失を持つソフトマックスは、現在のニューラル分類モデルの標準構成である。
対象クラスのゴールドスコアは 1 であるはずであるが、ソフトマックススキーマの下では到達できない。
このような問題はトレーニングプロセスを永遠に継続させ、過度に適合させます。
さらに、"target-approach-1"トレーニングの目標は、モデルにすべてのサンプルを継続的に学習させ、すでに正しく分類されたサンプルを高い信頼性で扱うのに時間の浪費をもたらす。
上記の弱点を解決するために,適応スパースソフトマックス (AS-Softmax) を提案する。
より客観的な学習のために、トレーニング中の実際のクラスと比較してスコアがはるかに小さいクラスを捨てる。
そして、モデルは、ターゲットクラスと強力な対戦相手を区別する学習に焦点を合わせることができ、これはテストにおける大きな課題でもある。
また,AS-Softmaxのトレーニング損失は,AS-Softmaxで徐々に0に減少するので,マスク付きサンプル比に基づく適応勾配蓄積戦略を開発し,トレーニングを高速化する。
提案したAS-Softmaxは,5~5000以上のクラスサイズを持つテキストマルチクラス,テキストマルチラベル,テキストトークン分類,画像分類,音声分類タスクで検証する。
その結果、AS-Softmaxはソフトマックスとその変種を一貫して上回り、AS-Softmaxの損失は検証における分類性能と著しく相関していることがわかった。
さらに、適応勾配蓄積戦略は、標準ソフトマックスと比較して約1.2倍のトレーニングスピードアップをもたらすが、分類の有効性は維持できる。
関連論文リスト
- SeWA: Selective Weight Average via Probabilistic Masking [51.015724517293236]
より良く、より高速な収束を達成するためには、ほんの数ポイントしか必要としないことを示す。
離散選択問題を連続的な部分集合最適化フレームワークに変換する。
両凸画像チェックポイントの値よりもシャープなSeWAの安定性境界を導出する。
論文 参考訳(メタデータ) (2025-02-14T12:35:21Z) - Adaptive Sampled Softmax with Inverted Multi-Index: Methods, Theory and Applications [79.53938312089308]
MIDX-Samplerは、逆多重インデックスアプローチに基づく新しい適応型サンプリング戦略である。
本手法は, サンプリングバイアス, 勾配バイアス, 収束速度, 一般化誤差境界などの重要な問題に対処するため, 厳密な理論的解析によって裏付けられている。
論文 参考訳(メタデータ) (2025-01-15T04:09:21Z) - A two-head loss function for deep Average-K classification [8.189630642296416]
本稿では,従来のソフトマックスに加えて,複数ラベルの分類に基づく新たな損失関数を提案する。
このアプローチによって、モデルがクラス間のあいまいさをよりよく捉え、結果として、より一貫性のあるクラスのセットを返すことができることを示す。
論文 参考訳(メタデータ) (2023-03-31T15:04:53Z) - Spectral Aware Softmax for Visible-Infrared Person Re-Identification [123.69049942659285]
Visible-infrared person re-identification (VI-ReID) は、異なるモードの歩行者画像とマッチングすることを目的としている。
既存の手法は依然として、単一モダリティ分類タスクで広く使われているソフトマックス損失訓練パラダイムに従っている。
そこで本研究では, スペクトル対応ソフトマックス(SA-Softmax)の損失について提案する。
論文 参考訳(メタデータ) (2023-02-03T02:57:18Z) - NBC-Softmax : Darkweb Author fingerprinting and migration tracking [1.1470070927586016]
メトリック学習はデータから距離を学習することを目的としており、類似性に基づくアルゴリズムの性能を向上させる。
我々は,ソフトマックス損失に対するコントラッシブ・ロスに基づくクラスタリング手法であるNBC-Softmaxを提案する。
提案手法は,多数のサンプルの基準を満たすため,ブロックのコントラスト性を実現する。
論文 参考訳(メタデータ) (2022-12-15T23:00:33Z) - Towards Automated Imbalanced Learning with Deep Hierarchical
Reinforcement Learning [57.163525407022966]
不均衡学習はデータマイニングにおいて基本的な課題であり、各クラスにトレーニングサンプルの不均等な比率が存在する。
オーバーサンプリングは、少数民族のための合成サンプルを生成することによって、不均衡な学習に取り組む効果的な手法である。
我々は,異なるレベルの意思決定を共同で最適化できる自動オーバーサンプリングアルゴリズムであるAutoSMOTEを提案する。
論文 参考訳(メタデータ) (2022-08-26T04:28:01Z) - Distinction Maximization Loss: Efficiently Improving Classification
Accuracy, Uncertainty Estimation, and Out-of-Distribution Detection Simply
Replacing the Loss and Calibrating [2.262407399039118]
我々は、DisMax損失を用いた決定論的深層ニューラルネットワークのトレーニングを提案する。
DisMaxは通常、分類精度、不確実性推定、推論効率、アウト・オブ・ディストリビューション検出において、全ての現在のアプローチを同時に上回る。
論文 参考訳(メタデータ) (2022-05-12T04:37:35Z) - Real Additive Margin Softmax for Speaker Verification [14.226089039985151]
AM-Softmaxの損失は、真のマックスマージントレーニングを実装していないことを示す。
ソフトマックストレーニングにおいて真のマージン関数を含むリアルAM-Softmax損失を示す。
論文 参考訳(メタデータ) (2021-10-18T09:11:14Z) - Balanced Meta-Softmax for Long-Tailed Visual Recognition [46.215759445665434]
ソフトマックス関数は、ほとんどの分類タスクで使用されるが、長い尾の配置の下で偏りのある勾配推定を与えることを示す。
本稿では,Softmax のエレガントな非バイアス拡張である Balanced Softmax を提案する。
実験では,Quaird Meta-Softmaxが視覚認識とインスタンスセグメンテーションの両タスクにおいて,最先端の長期分類ソリューションより優れていることを示した。
論文 参考訳(メタデータ) (2020-07-21T12:05:00Z) - Taming GANs with Lookahead-Minmax [63.90038365274479]
MNIST, SVHN, CIFAR-10, ImageNetによる実験結果から, Lookahead-minmaxとAdam, Exgradientの併用が明らかとなった。
30倍のパラメータと16倍のミニバッチを使用して、クラスラベルを使わずに12.19のFIDを得ることにより、CIFAR-10上でクラス依存のBigGANのパフォーマンスを上回ります。
論文 参考訳(メタデータ) (2020-06-25T17:13:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。