論文の概要: Unpacking Softmax: How Temperature Drives Representation Collapse, Compression, and Generalization
- arxiv url: http://arxiv.org/abs/2506.01562v1
- Date: Mon, 02 Jun 2025 11:38:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.296262
- Title: Unpacking Softmax: How Temperature Drives Representation Collapse, Compression, and Generalization
- Title(参考訳): ソフトマックスを解き放つ:いかにして温度が表象の崩壊、圧縮、一般化を駆動するか
- Authors: Wojciech Masarczyk, Mateusz Ostaszewski, Tin Sum Cheng, Tomasz Trzciński, Aurelien Lucchi, Razvan Pascanu,
- Abstract要約: モデルの表現を形作る際に,ソフトマックス関数が果たす重要な役割について検討する。
ランク欠陥バイアスという概念は、ソフトマックスに基づくディープネットワークがクラス数よりもはるかに低いランクの解を見出す現象である。
本研究では,ソフトマックスのダイナミックスを利用して圧縮表現を学習するか,あるいはアウト・オブ・ディストリビューションデータ上での性能を向上させるかを示す。
- 参考スコア(独自算出の注目度): 15.458541841436967
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The softmax function is a fundamental building block of deep neural networks, commonly used to define output distributions in classification tasks or attention weights in transformer architectures. Despite its widespread use and proven effectiveness, its influence on learning dynamics and learned representations remains poorly understood, limiting our ability to optimize model behavior. In this paper, we study the pivotal role of the softmax function in shaping the model's representation. We introduce the concept of rank deficit bias - a phenomenon in which softmax-based deep networks find solutions of rank much lower than the number of classes. This bias depends on the softmax function's logits norm, which is implicitly influenced by hyperparameters or directly modified by softmax temperature. Furthermore, we demonstrate how to exploit the softmax dynamics to learn compressed representations or to enhance their performance on out-of-distribution data. We validate our findings across diverse architectures and real-world datasets, highlighting the broad applicability of temperature tuning in improving model performance. Our work provides new insights into the mechanisms of softmax, enabling better control over representation learning in deep neural networks.
- Abstract(参考訳): ソフトマックス関数はディープニューラルネットワークの基本構築ブロックであり、一般に、分類タスクの出力分布やトランスフォーマーアーキテクチャの注意重みを定義するために使用される。
広く使われていることと実証された有効性にもかかわらず、学習力学や学習表現への影響はいまだに理解されておらず、モデルの振る舞いを最適化する能力が制限されている。
本稿では,モデルの表現を形作る際に,ソフトマックス関数が果たす重要な役割について考察する。
ランク欠陥バイアスという概念は、ソフトマックスに基づくディープネットワークがクラス数よりもはるかに低いランクの解を見出す現象である。
このバイアスはソフトマックス関数の対数ノルムに依存するが、これはハイパーパラメータの影響を暗黙的に受けているか、ソフトマックス温度によって直接修正されている。
さらに,圧縮表現の学習や分布外データの性能向上のために,ソフトマックス力学を利用する方法を示す。
様々なアーキテクチャや実世界のデータセットにまたがって得られた知見を検証し、モデル性能を改善するための温度調整の幅広い適用性を強調した。
私たちの研究は、Softmaxのメカニズムに関する新たな洞察を提供し、ディープニューラルネットワークにおける表現学習のより良い制御を可能にします。
関連論文リスト
- Self-Adjust Softmax [62.267367768385434]
ソフトマックス関数はトランスフォーマーアテンションにおいて重要であり、アテンションスコアの各行を1にまとめて正規化する。
この問題に対処するために、$softmax(x)$を$x cdot Softmax(x)$に修正し、その正規化された変種である$frac(x - min(x_min,0))max(0,x_max)-min(x_min,0)cdot softmax(x)$を変更することを提案する。
論文 参考訳(メタデータ) (2025-02-25T15:07:40Z) - Understanding the differences in Foundation Models: Attention, State Space Models, and Recurrent Neural Networks [50.29356570858905]
本稿では,これらすべてのアーキテクチャの共通表現に関する原則的な調査を可能にする動的システムフレームワーク(DSF)について紹介する。
ソフトマックスアテンションと他のモデルクラスとの原理的比較を行い、ソフトマックスアテンションを近似できる理論条件について議論する。
このことは、DSFが将来のより効率的でスケーラブルな基盤モデルの体系的な開発を導く可能性を示している。
論文 参考訳(メタデータ) (2024-05-24T17:19:57Z) - Exploring the Frontiers of Softmax: Provable Optimization, Applications in Diffusion Model, and Beyond [32.734716767055836]
本稿では、2層ソフトマックスニューラルネットワークの最適化と一般化特性について理論的研究を行う。
オーバーパラメトリゼーション方式では,ソフトマックスニューラルネットワークが対象関数を学習できることが示されている。
私たちの仕事は、自然言語処理などにおけるさらなる進歩の道を開くものです。
論文 参考訳(メタデータ) (2024-05-06T08:15:29Z) - r-softmax: Generalized Softmax with Controllable Sparsity Rate [11.39524236962986]
本稿では,ソフトマックスの修正であるr-softmaxを提案し,スパース確率分布を制御可能なスペーサ率で出力する。
我々は、r-softmaxが他のソフトマックス代替品よりも優れており、元のソフトマックスと高い競争力を持つ複数のマルチラベルデータセットを示す。
論文 参考訳(メタデータ) (2023-04-11T14:28:29Z) - Sparse-softmax: A Simpler and Faster Alternative Softmax Transformation [2.3813678058429626]
ソフトマックス関数は、多クラス分類問題に対する人工ニューラルネットワークで広く用いられている。
本稿では,従来のソフトマックスで発生した問題を高次元の分類問題の観点から緩和するために,単純で簡潔なソフトマックス変種であるスパース・ソフトマックスについて実証的研究を行う。
論文 参考訳(メタデータ) (2021-12-23T09:53:38Z) - Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。
この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。
ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-01T10:03:57Z) - Robust Value Iteration for Continuous Control Tasks [99.00362538261972]
シミュレーションから物理システムへ制御ポリシを転送する場合、そのポリシは、動作の変動に対して堅牢でなければならない。
本稿では、動的プログラミングを用いて、コンパクトな状態領域上での最適値関数を計算するRobust Fitted Value Iterationを提案する。
より深い強化学習アルゴリズムや非ロバストなアルゴリズムと比較して、ロバストな値の方が頑健であることを示す。
論文 参考訳(メタデータ) (2021-05-25T19:48:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。