論文の概要: Investigation of Large-Margin Softmax in Neural Language Modeling
- arxiv url: http://arxiv.org/abs/2005.10089v2
- Date: Wed, 21 Apr 2021 12:45:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 05:57:34.807463
- Title: Investigation of Large-Margin Softmax in Neural Language Modeling
- Title(参考訳): ニューラルネットワークモデリングにおける大型マージンソフトマックスの検討
- Authors: Jingjing Huo, Yingbo Gao, Weiyue Wang, Ralf Schl\"uter, Hermann Ney
- Abstract要約: ニューラルネットワークモデルに大マージンを導入することで、パープレキシティが向上し、自動音声認識における単語誤り率が向上するかどうかを検討する。
パープレキシティはわずかに劣化しているものの、大きなマージンソフトマックスを持つニューラル言語モデルでは、標準ソフトマックスベースラインと同様の単語誤り率が得られることがわかった。
- 参考スコア(独自算出の注目度): 43.51826343967195
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To encourage intra-class compactness and inter-class separability among
trainable feature vectors, large-margin softmax methods are developed and
widely applied in the face recognition community. The introduction of the
large-margin concept into the softmax is reported to have good properties such
as enhanced discriminative power, less overfitting and well-defined geometric
intuitions. Nowadays, language modeling is commonly approached with neural
networks using softmax and cross entropy. In this work, we are curious to see
if introducing large-margins to neural language models would improve the
perplexity and consequently word error rate in automatic speech recognition.
Specifically, we first implement and test various types of conventional margins
following the previous works in face recognition. To address the distribution
of natural language data, we then compare different strategies for word vector
norm-scaling. After that, we apply the best norm-scaling setup in combination
with various margins and conduct neural language models rescoring experiments
in automatic speech recognition. We find that although perplexity is slightly
deteriorated, neural language models with large-margin softmax can yield word
error rate similar to that of the standard softmax baseline. Finally, expected
margins are analyzed through visualization of word vectors, showing that the
syntactic and semantic relationships are also preserved.
- Abstract(参考訳): 訓練可能な特徴ベクトル間のクラス内コンパクト性とクラス間分離性を促進するため,顔認識コミュニティで大規模ソフトマックス法が開発され,広く利用されている。
ソフトマックスへの大マルジンの概念の導入は、識別力の強化、過度なオーバーフィット、よく定義された幾何学的直観などの優れた性質を持つと報告されている。
現在、言語モデリングはソフトマックスとクロスエントロピーを用いてニューラルネットワークで一般的にアプローチされている。
本研究では,ニューラルネットワークモデルに大規模マージンを導入することで,難易度が向上し,自動音声認識における単語誤り率が向上するかどうかを考察する。
具体的には, 顔認識における先行研究に倣って, 従来型のマージンを実装し, テストを行った。
自然言語データの分散に対処するために、単語ベクトルノルムスケーリングの異なる戦略を比較する。
その後、様々なマージンと組み合わせて最適な規範スケーリング設定を適用し、自動音声認識における実験をニューラルネットワークモデルで再現する。
パープレキシティはやや劣化しているものの、大きなマージンソフトマックスを持つニューラルネットワークモデルでは、標準のsoftmaxベースラインと同じような単語誤り率が得られる。
最後に、期待されるマージンは単語ベクトルの可視化によって分析され、構文的および意味的関係も保存される。
関連論文リスト
- Leveraging Graph-based Cross-modal Information Fusion for Neural Sign
Language Translation [46.825957917649795]
手話 (SL) は聴覚障害者の母語であり、ほとんどの人が理解できない特別な視覚言語である。
動的グラフに基づくマルチモーダル特徴融合を用いたニューラルSLTモデルを提案する。
我々はまず,マルチモーダル情報を融合したグラフニューラルネットワークをニューラルネットワーク翻訳モデルに導入した。
論文 参考訳(メタデータ) (2022-11-01T15:26:22Z) - Lexical semantics enhanced neural word embeddings [4.040491121427623]
階層的適合は、IS-A階層に本質的に格納されている意味的類似性ニュアンスをモデル化するための新しいアプローチである。
その結果、後期核融合における意味的関係を持つ神経埋め込みを専門とする階層化の有効性が示された。
論文 参考訳(メタデータ) (2022-10-03T08:10:23Z) - Quark: Controllable Text Generation with Reinforced Unlearning [68.07749519374089]
大規模言語モデルは、しばしばユーザの期待に合わない振る舞いを学ぶ。
本稿では,(不必要な)特性を定量化する報酬関数を最適化するアルゴリズムQuarkを紹介する。
未学習の毒性、ネガティブな感情、反復について、我々の実験はQuarkが強いベースラインと最先端の強化学習法の両方より優れていることを示している。
論文 参考訳(メタデータ) (2022-05-26T21:11:51Z) - Enhancing Classifier Conservativeness and Robustness by Polynomiality [23.099278014212146]
我々はその状況をいかに改善できるかを示す。
直接的に関連し、単純で、しかし重要な技術的ノベルティは、SoftRmaxです。
我々は,ソフトRmaxの2つの側面,保守性,本質的な頑健性は,逆正則化につながることを示した。
論文 参考訳(メタデータ) (2022-03-23T19:36:19Z) - Better Language Model with Hypernym Class Prediction [101.8517004687825]
クラスベース言語モデル (LM) は、コンテキストの疎結合に$n$-gramのLMで対処するために長年開発されてきた。
本研究では,このアプローチをニューラルLMの文脈で再考する。
論文 参考訳(メタデータ) (2022-03-21T01:16:44Z) - Dependency-based Mixture Language Models [53.152011258252315]
依存性に基づく混合言語モデルを紹介する。
より詳しくは、依存関係モデリングの新たな目的により、まずニューラルネットワークモデルを訓練する。
次に、前回の依存性モデリング確率分布と自己意図を混合することにより、次の確率を定式化する。
論文 参考訳(メタデータ) (2022-03-19T06:28:30Z) - Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。
本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文 参考訳(メタデータ) (2021-06-17T17:26:31Z) - Smoothing and Shrinking the Sparse Seq2Seq Search Space [2.1828601975620257]
entmaxベースのモデルは、猫を効果的に解決する。
また、Fenchel-Young損失の広い家族にラベルスムーシングを一般化する。
得られたラベルスムーズなエントマックス損失モデルにより,多言語グラフ-音素変換の新たな技術が確立された。
論文 参考訳(メタデータ) (2021-03-18T14:45:38Z) - Neural Baselines for Word Alignment [0.0]
4つの言語対に対する教師なし単語アライメントのためのニューラルモデルの検討と評価を行った。
我々は、IBM-1と隠れマルコフモデルのニューラルバージョンが、個々のモデルよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2020-09-28T07:51:03Z) - Mechanisms for Handling Nested Dependencies in Neural-Network Language
Models and Humans [75.15855405318855]
我々は,「深層学習」手法で訓練された現代人工ニューラルネットワークが,人間の文処理の中心的な側面を模倣するかどうかを検討した。
ネットワークは、大きなコーパスで次の単語を予測するためにのみ訓練されたが、分析の結果、局所的および長距離の構文合意をうまく処理する特別なユニットが出現した。
我々は,複数の名詞の単数/複数状態における体系的な変化を伴う文中の数一致の違反を人間が検出する行動実験において,モデルの予測を検証した。
論文 参考訳(メタデータ) (2020-06-19T12:00:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。