論文の概要: Revisiting the Architectures like Pointer Networks to Efficiently
Improve the Next Word Distribution, Summarization Factuality, and Beyond
- arxiv url: http://arxiv.org/abs/2305.12289v1
- Date: Sat, 20 May 2023 21:52:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 23:09:46.437655
- Title: Revisiting the Architectures like Pointer Networks to Efficiently
Improve the Next Word Distribution, Summarization Factuality, and Beyond
- Title(参考訳): ポインターネットワークのようなアーキテクチャを見直して、次の単語の分布、要約のファクチュアリティを効果的に改善する
- Authors: Haw-Shiuan Chang, Zonghai Yao, Alolika Gon, Hong Yu, Andrew McCallum
- Abstract要約: 本稿では,ポインタネットワークを簡素化し,単語ごとのリランカを高速化することで,いくつかのソフトマックス代替案を提案する。
GPT-2では,提案手法はソフトマックスの混合よりも有意に効率的かつ効率的である。
T5-Smallに基づく最良の方法は、CNN/DMおよびXSUMデータセットにおいてファクトCCスコアを2ポイント改善し、ブックサム段落レベルのデータセットではMAUVEスコアを30%改善する。
- 参考スコア(独自算出の注目度): 37.96043934146189
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Is the output softmax layer, which is adopted by most language models (LMs),
always the best way to compute the next word probability? Given so many
attention layers in a modern transformer-based LM, are the pointer networks
redundant nowadays? In this study, we discover that the answers to both
questions are no. This is because the softmax bottleneck sometimes prevents the
LMs from predicting the desired distribution and the pointer networks can be
used to break the bottleneck efficiently. Based on the finding, we propose
several softmax alternatives by simplifying the pointer networks and
accelerating the word-by-word rerankers. In GPT-2, our proposals are
significantly better and more efficient than mixture of softmax, a
state-of-the-art softmax alternative. In summarization experiments, without
significantly decreasing its training/testing speed, our best method based on
T5-Small improves factCC score by 2 points in CNN/DM and XSUM dataset, and
improves MAUVE scores by 30% in BookSum paragraph-level dataset.
- Abstract(参考訳): ほとんどの言語モデル(LM)で採用されている出力ソフトマックス層は、常に次の単語確率を計算する最良の方法なのだろうか?
最近のtransformerベースのlmでは、多くの注目層があるため、ポインタネットワークは冗長か?
本研究では,両質問に対する回答がノーであることを見出した。
これは、ソフトマックスボトルネックにより、LMが所望の分布を予測できなくなり、ポインタネットワークがボトルネックを効率的に壊すことができるためである。
そこで本研究では,ポインタネットワークの簡素化とワードバイワードのリカウンタの高速化により,いくつかのソフトマックス代替案を提案する。
GPT-2では,我々の提案は,最先端のソフトマックス代替品であるソフトマックスの混合よりもはるかに効率的かつ効率的である。
要約実験では,学習/テスト速度を著しく低下させることなく,cnn/dmとxsumデータセットのfactccスコアを2点改善し,本書段落レベルではmauveスコアを30%改善した。
関連論文リスト
- MultiMax: Sparse and Multi-Modal Attention Learning [60.49318008131978]
SoftMaxは現代の機械学習アルゴリズムのユビキタスな成分である。
分散性はSoftMaxの変種族によって達成できるが、それらはしばしば代替損失関数を必要とし、多重モダリティを保たない。
入力入力範囲に応じて出力分布を適応的に変調するMultiMaxを提案する。
論文 参考訳(メタデータ) (2024-06-03T10:51:43Z) - To Copy, or not to Copy; That is a Critical Issue of the Output Softmax
Layer in Neural Sequential Recommenders [48.8643117818312]
本研究では,単一隠れ状態埋め込みと静的アイテム埋め込みを出力ソフトマックス層に埋め込むという問題の原因を明らかにする。
我々は、最近提案されたSoftmax-CPRのようなソフトマックス代替案を逐次レコメンデーションタスクに適用し、新しいソフトマックスアーキテクチャが、いつコピーするか、いつ入力シーケンスからアイテムを除外するかを学ぶ際に、ニューラルエンコーダの能力を解き放つことを示した。
論文 参考訳(メタデータ) (2023-10-21T18:04:04Z) - r-softmax: Generalized Softmax with Controllable Sparsity Rate [11.39524236962986]
本稿では,ソフトマックスの修正であるr-softmaxを提案し,スパース確率分布を制御可能なスペーサ率で出力する。
我々は、r-softmaxが他のソフトマックス代替品よりも優れており、元のソフトマックスと高い競争力を持つ複数のマルチラベルデータセットを示す。
論文 参考訳(メタデータ) (2023-04-11T14:28:29Z) - A Study on ReLU and Softmax in Transformer [51.0740713922741]
Transformerアーキテクチャは、キーバリューメモリと見なせる自己アテンションとフィードフォワードネットワーク(FFN)で構成されている。
まず、FFNとキー値メモリの接続をReLUとSoftmaxの広範な研究により再構築する。
さらに、ReLUは値スロット数が大きければFFNとキー値メモリの両方でSoftmaxより優れている。
論文 参考訳(メタデータ) (2023-02-13T15:41:20Z) - To Softmax, or not to Softmax: that is the question when applying Active
Learning for Transformer Models [24.43410365335306]
ラベル付きデータセットを取得するための人的労力を減らすためのよく知られたテクニックは、textitActive Learning (AL)である。
本稿では,7つのデータセットに対して8つの選択肢を比較する。
ほとんどのメソッドは真に不確実なサンプル(外れ値)を特定するのに長けており、ラベル付けによってパフォーマンスが低下する。
論文 参考訳(メタデータ) (2022-10-06T15:51:39Z) - Softmax-free Linear Transformers [90.83157268265654]
視覚変換器(ViT)は、視覚知覚タスクの最先端を推し進めている。
既存の手法は理論的に欠陥があるか、視覚認識に経験的に効果がないかのいずれかである。
我々はSoftmax-Free Transformers (SOFT) のファミリーを提案する。
論文 参考訳(メタデータ) (2022-07-05T03:08:27Z) - A multi-model-based deep learning framework for short text multiclass
classification with the imbalanced and extremely small data set [0.6875312133832077]
本稿では,不均衡かつ極めて小さなデータセットを持つ短文マルチクラス分類のための,マルチモデルに基づくディープラーニングフレームワークを提案する。
精度、リコール、精度、F1スコアの点で最先端のベースライン性能を維持している。
論文 参考訳(メタデータ) (2022-06-24T00:51:02Z) - Breaking the Softmax Bottleneck for Sequential Recommender Systems with
Dropout and Decoupling [0.0]
SBRSのSoftmaxボトルネックには、さらに多くの側面があることが示されています。
そこで本研究では,これらの問題を緩和するために,D&D(Dropout and Decoupling)というシンプルな手法を提案する。
本手法は,様々なSoftmaxベースのSBRSアルゴリズムの精度を大幅に向上させる。
論文 参考訳(メタデータ) (2021-10-11T16:52:23Z) - Sparse Attention with Linear Units [60.399814410157425]
本稿では, ソフトマックスアクティベーションをReLUに置き換えることにより, 注目度を向上する新しい, 簡便な手法を提案する。
我々のモデルはRectified Linear Attention (ReLA)と呼ばれ、以前提案したスパースアテンション機構よりも実装が容易で効率的である。
分析の結果,RELAは高い空間性率と頭部の多様性を達成でき,ソース・ターゲット単語アライメントの精度が向上することがわかった。
論文 参考訳(メタデータ) (2021-04-14T17:52:38Z) - Effectiveness of MPC-friendly Softmax Replacement [13.710300609457267]
我々は、ソフトマックス置換の2つの用途を分析し、ソフトマックスと比較する。
置換は1層ネットワークにおいて重要なスピードアップしか提供しないのに対して、常に精度を低下させ、時には著しく低下することがわかった。
論文 参考訳(メタデータ) (2020-11-23T04:14:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。