論文の概要: Beyond Softmax: A Natural Parameterization for Categorical Random Variables
- arxiv url: http://arxiv.org/abs/2509.24728v1
- Date: Mon, 29 Sep 2025 12:55:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.988729
- Title: Beyond Softmax: A Natural Parameterization for Categorical Random Variables
- Title(参考訳): ソフトマックスを超えて:カテゴリー的ランダム変数の自然なパラメータ化
- Authors: Alessandro Manenti, Cesare Alippi,
- Abstract要約: 階層的なバイナリ分割のシーケンスで構成される関数である$textitcatnat$関数を紹介します。
実験により,提案した関数は学習効率を向上し,一貫した試験性能を特徴とするモデルが得られることを示した。
- 参考スコア(独自算出の注目度): 61.709831225296305
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Latent categorical variables are frequently found in deep learning architectures. They can model actions in discrete reinforcement-learning environments, represent categories in latent-variable models, or express relations in graph neural networks. Despite their widespread use, their discrete nature poses significant challenges to gradient-descent learning algorithms. While a substantial body of work has offered improved gradient estimation techniques, we take a complementary approach. Specifically, we: 1) revisit the ubiquitous $\textit{softmax}$ function and demonstrate its limitations from an information-geometric perspective; 2) replace the $\textit{softmax}$ with the $\textit{catnat}$ function, a function composed of a sequence of hierarchical binary splits; we prove that this choice offers significant advantages to gradient descent due to the resulting diagonal Fisher Information Matrix. A rich set of experiments - including graph structure learning, variational autoencoders, and reinforcement learning - empirically show that the proposed function improves the learning efficiency and yields models characterized by consistently higher test performance. $\textit{Catnat}$ is simple to implement and seamlessly integrates into existing codebases. Moreover, it remains compatible with standard training stabilization techniques and, as such, offers a better alternative to the $\textit{softmax}$ function.
- Abstract(参考訳): 潜在カテゴリー変数はディープラーニングアーキテクチャでよく見られる。
個々の強化学習環境でアクションをモデル化したり、潜在変数モデルでカテゴリを表現したり、グラフニューラルネットワークでの関係を表現したりすることができる。
広く使われているにもかかわらず、その離散性は勾配差学習アルゴリズムに重大な課題をもたらす。
かなり多くの研究で勾配推定技術の改良が提案されているが、補完的なアプローチをとっている。
具体的には
1) ユビキタス$\textit{softmax}$関数を再検討し、情報幾何学的観点からその限界を示す。
2) $\textit{softmax}$ を $\textit{catnat}$ 関数に置き換える。これは階層的なバイナリ分割の列からなる関数である。
グラフ構造学習、変分オートエンコーダ、強化学習を含む豊富な実験は、提案した関数が学習効率を向上し、一貫して高いテスト性能を特徴とするモデルを生成することを実証的に示す。
$\textit{Catnat}$は実装が簡単で、既存のコードベースにシームレスに統合されます。
さらに、標準のトレーニング安定化技術と互換性があり、$\textit{softmax}$関数よりも優れた代替手段を提供する。
関連論文リスト
- $\mathbf{Li_2}$: A Framework on Dynamics of Feature Emergence and Delayed Generalization [44.614763110719274]
本稿では,複雑な構造化された入力に対して,どのような特徴が現れるのか,どのような条件でトレーニングから発生するのか,といった特徴を特徴付ける新しい枠組みを提案する。
これらの局所オプティマ誘導特徴が一般化可能か,その表現力,および群演算タスクにおけるサンプルサイズの変化について検討する。
論文 参考訳(メタデータ) (2025-09-25T20:08:09Z) - GRANDE: Gradient-Based Decision Tree Ensembles for Tabular Data [9.107782510356989]
そこで本研究では,エンドツーエンドの勾配勾配勾配を用いた軸方向決定木アンサンブルの学習手法を提案する。
Grandeはツリーアンサンブルの密度の高い表現に基づいており、ストレートスルー演算子でバックプロパゲーションを使用することができる。
提案手法は,ほとんどのデータセットにおいて,既存の勾配ブースティングおよびディープラーニングフレームワークよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-09-29T10:49:14Z) - Universal Online Learning with Gradient Variations: A Multi-layer Online Ensemble Approach [57.92727189589498]
本稿では,2段階の適応性を持つオンライン凸最適化手法を提案する。
我々は$mathcalO(log V_T)$, $mathcalO(d log V_T)$, $hatmathcalO(sqrtV_T)$ regret bounds for strong convex, exp-concave and convex loss function。
論文 参考訳(メタデータ) (2023-07-17T09:55:35Z) - Equivariance with Learned Canonicalization Functions [77.32483958400282]
正規化を行うために小さなニューラルネットワークを学習することは、事前定義を使用することよりも優れていることを示す。
実験の結果,正準化関数の学習は多くのタスクで同変関数を学習する既存の手法と競合することがわかった。
論文 参考訳(メタデータ) (2022-11-11T21:58:15Z) - Binarizing by Classification: Is soft function really necessary? [4.329951775163721]
本稿では,二項分類問題としてネットワークバイナライゼーションに取り組むことを提案する。
また、ポーズ推定モデルの軽量化手法としてバイナライゼーションを用いる。
提案手法により,最大60.6ドルのmAPを初めて達成できる。
論文 参考訳(メタデータ) (2022-05-16T02:47:41Z) - Simple Stochastic and Online Gradient DescentAlgorithms for Pairwise
Learning [65.54757265434465]
ペアワイズ学習(Pairwise learning)とは、損失関数がペアインスタンスに依存するタスクをいう。
オンライン降下(OGD)は、ペアワイズ学習でストリーミングデータを処理する一般的なアプローチである。
本稿では,ペアワイズ学習のための手法について,シンプルでオンラインな下降を提案する。
論文 参考訳(メタデータ) (2021-11-23T18:10:48Z) - Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。
本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文 参考訳(メタデータ) (2021-06-17T17:26:31Z) - Deep Reinforcement Learning of Graph Matching [63.469961545293756]
ノードとペアの制約下でのグラフマッチング(GM)は、最適化からコンピュータビジョンまでの領域におけるビルディングブロックである。
GMのための強化学習ソルバを提案する。
rgmはペアワイズグラフ間のノード対応を求める。
本手法は,フロントエンドの特徴抽出と親和性関数学習に焦点をあてるという意味において,従来のディープグラフマッチングモデルと異なる。
論文 参考訳(メタデータ) (2020-12-16T13:48:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。