論文の概要: MultiMax: Sparse and Multi-Modal Attention Learning
- arxiv url: http://arxiv.org/abs/2406.01189v2
- Date: Tue, 4 Jun 2024 07:58:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 01:28:45.138187
- Title: MultiMax: Sparse and Multi-Modal Attention Learning
- Title(参考訳): MultiMax: スパースとマルチモーダルアテンション学習
- Authors: Yuxuan Zhou, Mario Fritz, Margret Keuper,
- Abstract要約: SoftMaxは現代の機械学習アルゴリズムのユビキタスな成分である。
分散性はSoftMaxの変種族によって達成できるが、それらはしばしば代替損失関数を必要とし、多重モダリティを保たない。
入力入力範囲に応じて出力分布を適応的に変調するMultiMaxを提案する。
- 参考スコア(独自算出の注目度): 60.49318008131978
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: SoftMax is a ubiquitous ingredient of modern machine learning algorithms. It maps an input vector onto a probability simplex and reweights the input by concentrating the probability mass at large entries. Yet, as a smooth approximation to the Argmax function, a significant amount of probability mass is distributed to other, residual entries, leading to poor interpretability and noise. Although sparsity can be achieved by a family of SoftMax variants, they often require an alternative loss function and do not preserve multi-modality. We show that this trade-off between multi-modality and sparsity limits the expressivity of SoftMax as well as its variants. We provide a solution to this tension between objectives by proposing a piece-wise differentiable function, termed MultiMax, which adaptively modulates the output distribution according to input entry range. Through comprehensive analysis and evaluation, we show that MultiMax successfully produces a distribution that supresses irrelevant entries while preserving multimodality, with benefits in image classification, language modeling and machine translation. The code is available at https://github.com/ZhouYuxuanYX/MultiMax.
- Abstract(参考訳): SoftMaxは現代の機械学習アルゴリズムのユビキタスな成分である。
入力ベクトルを確率単純度にマッピングし、大きなエントリで確率質量を集中させることで入力を再重み付けする。
しかし、Argmax関数の滑らかな近似として、かなりの確率質量が他の残留成分に分配され、解釈性やノイズが低下する。
空間性はSoftMaxの変種族によって達成できるが、それらはしばしば代替の損失関数を必要とし、多重モダリティを保たない。
マルチモーダリティとスパーシリティのトレードオフは、SoftMaxの表現性だけでなく、その変種も制限することを示す。
我々は、入力入力範囲に応じて出力分布を適応的に変調するMultiMaxと呼ばれる、断片的に微分可能な関数を提案することにより、目的間の緊張を解消する。
総合的な分析と評価により、MultiMaxは、画像分類、言語モデリング、機械翻訳の利点を生かしながら、無関係なエントリを抑えながら、マルチモーダルを保ちながら、意味のないエントリを抑圧する分布を生成することに成功した。
コードはhttps://github.com/ZhouYuxuanYX/MultiMaxで入手できる。
関連論文リスト
- Revisiting the Architectures like Pointer Networks to Efficiently
Improve the Next Word Distribution, Summarization Factuality, and Beyond [37.96043934146189]
本稿では,ポインタネットワークを簡素化し,単語ごとのリランカを高速化することで,いくつかのソフトマックス代替案を提案する。
GPT-2では,提案手法はソフトマックスの混合よりも有意に効率的かつ効率的である。
T5-Smallに基づく最良の方法は、CNN/DMおよびXSUMデータセットにおいてファクトCCスコアを2ポイント改善し、ブックサム段落レベルのデータセットではMAUVEスコアを30%改善する。
論文 参考訳(メタデータ) (2023-05-20T21:52:24Z) - r-softmax: Generalized Softmax with Controllable Sparsity Rate [11.39524236962986]
本稿では,ソフトマックスの修正であるr-softmaxを提案し,スパース確率分布を制御可能なスペーサ率で出力する。
我々は、r-softmaxが他のソフトマックス代替品よりも優れており、元のソフトマックスと高い競争力を持つ複数のマルチラベルデータセットを示す。
論文 参考訳(メタデータ) (2023-04-11T14:28:29Z) - Softmax-free Linear Transformers [90.83157268265654]
視覚変換器(ViT)は、視覚知覚タスクの最先端を推し進めている。
既存の手法は理論的に欠陥があるか、視覚認識に経験的に効果がないかのいずれかである。
我々はSoftmax-Free Transformers (SOFT) のファミリーを提案する。
論文 参考訳(メタデータ) (2022-07-05T03:08:27Z) - Evidential Softmax for Sparse Multimodal Distributions in Deep
Generative Models [38.26333732364642]
確率分布の多重性を保存するスパース正規化関数である$textitev-softmax$を提案する。
本稿では,多変量オートエンコーダや自動回帰アーキテクチャなど,多種多様な生成モデルについて評価する。
論文 参考訳(メタデータ) (2021-10-27T05:32:25Z) - SOFT: Softmax-free Transformer with Linear Complexity [112.9754491864247]
視覚変換器(ViT)は、パッチワイド画像トークン化と自己認識によって、様々な視覚認識タスクの最先端を推し進めている。
線形複雑度で自己注意を近似する様々な試みが自然言語処理で行われている。
これらの制限は、近似中にソフトマックスの自己注意を維持することに根ざしている。
ソフトマックスフリー変圧器(SOFT)を初めて提案する。
論文 参考訳(メタデータ) (2021-10-22T17:57:29Z) - Breaking the Softmax Bottleneck for Sequential Recommender Systems with
Dropout and Decoupling [0.0]
SBRSのSoftmaxボトルネックには、さらに多くの側面があることが示されています。
そこで本研究では,これらの問題を緩和するために,D&D(Dropout and Decoupling)というシンプルな手法を提案する。
本手法は,様々なSoftmaxベースのSBRSアルゴリズムの精度を大幅に向上させる。
論文 参考訳(メタデータ) (2021-10-11T16:52:23Z) - Sparse Attention with Linear Units [60.399814410157425]
本稿では, ソフトマックスアクティベーションをReLUに置き換えることにより, 注目度を向上する新しい, 簡便な手法を提案する。
我々のモデルはRectified Linear Attention (ReLA)と呼ばれ、以前提案したスパースアテンション機構よりも実装が容易で効率的である。
分析の結果,RELAは高い空間性率と頭部の多様性を達成でき,ソース・ターゲット単語アライメントの精度が向上することがわかった。
論文 参考訳(メタデータ) (2021-04-14T17:52:38Z) - Argmax Flows and Multinomial Diffusion: Towards Non-Autoregressive
Language Models [76.22217735434661]
本稿では,Argmax FlowsとMultinomial Diffusionの2種類の分類モデルを提案する。
画像分割マップの言語モデリングとモデリングにおいて,我々のモデルが競合的に機能することを実証する。
論文 参考訳(メタデータ) (2021-02-10T11:04:17Z) - Effectiveness of MPC-friendly Softmax Replacement [13.710300609457267]
我々は、ソフトマックス置換の2つの用途を分析し、ソフトマックスと比較する。
置換は1層ネットワークにおいて重要なスピードアップしか提供しないのに対して、常に精度を低下させ、時には著しく低下することがわかった。
論文 参考訳(メタデータ) (2020-11-23T04:14:32Z) - Optimal Approximation -- Smoothness Tradeoffs for Soft-Max Functions [73.33961743410876]
ソフトマックス関数は近似と滑らかさの2つの主要な効率尺度を持つ。
近似と滑らか性の異なる尺度に対する最適近似-滑らか性トレードオフを同定する。
これにより、新しいソフトマックス関数が生まれ、それぞれ異なる用途に最適である。
論文 参考訳(メタデータ) (2020-10-22T05:19:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。