論文の概要: Investigation of Large-Margin Softmax in Neural Language Modeling
- arxiv url: http://arxiv.org/abs/2005.10089v2
- Date: Wed, 21 Apr 2021 12:45:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 05:57:34.807463
- Title: Investigation of Large-Margin Softmax in Neural Language Modeling
- Title(参考訳): ニューラルネットワークモデリングにおける大型マージンソフトマックスの検討
- Authors: Jingjing Huo, Yingbo Gao, Weiyue Wang, Ralf Schl\"uter, Hermann Ney
- Abstract要約: ニューラルネットワークモデルに大マージンを導入することで、パープレキシティが向上し、自動音声認識における単語誤り率が向上するかどうかを検討する。
パープレキシティはわずかに劣化しているものの、大きなマージンソフトマックスを持つニューラル言語モデルでは、標準ソフトマックスベースラインと同様の単語誤り率が得られることがわかった。
- 参考スコア(独自算出の注目度): 43.51826343967195
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To encourage intra-class compactness and inter-class separability among
trainable feature vectors, large-margin softmax methods are developed and
widely applied in the face recognition community. The introduction of the
large-margin concept into the softmax is reported to have good properties such
as enhanced discriminative power, less overfitting and well-defined geometric
intuitions. Nowadays, language modeling is commonly approached with neural
networks using softmax and cross entropy. In this work, we are curious to see
if introducing large-margins to neural language models would improve the
perplexity and consequently word error rate in automatic speech recognition.
Specifically, we first implement and test various types of conventional margins
following the previous works in face recognition. To address the distribution
of natural language data, we then compare different strategies for word vector
norm-scaling. After that, we apply the best norm-scaling setup in combination
with various margins and conduct neural language models rescoring experiments
in automatic speech recognition. We find that although perplexity is slightly
deteriorated, neural language models with large-margin softmax can yield word
error rate similar to that of the standard softmax baseline. Finally, expected
margins are analyzed through visualization of word vectors, showing that the
syntactic and semantic relationships are also preserved.
- Abstract(参考訳): 訓練可能な特徴ベクトル間のクラス内コンパクト性とクラス間分離性を促進するため,顔認識コミュニティで大規模ソフトマックス法が開発され,広く利用されている。
ソフトマックスへの大マルジンの概念の導入は、識別力の強化、過度なオーバーフィット、よく定義された幾何学的直観などの優れた性質を持つと報告されている。
現在、言語モデリングはソフトマックスとクロスエントロピーを用いてニューラルネットワークで一般的にアプローチされている。
本研究では,ニューラルネットワークモデルに大規模マージンを導入することで,難易度が向上し,自動音声認識における単語誤り率が向上するかどうかを考察する。
具体的には, 顔認識における先行研究に倣って, 従来型のマージンを実装し, テストを行った。
自然言語データの分散に対処するために、単語ベクトルノルムスケーリングの異なる戦略を比較する。
その後、様々なマージンと組み合わせて最適な規範スケーリング設定を適用し、自動音声認識における実験をニューラルネットワークモデルで再現する。
パープレキシティはやや劣化しているものの、大きなマージンソフトマックスを持つニューラルネットワークモデルでは、標準のsoftmaxベースラインと同じような単語誤り率が得られる。
最後に、期待されるマージンは単語ベクトルの可視化によって分析され、構文的および意味的関係も保存される。
関連論文リスト
- Collapsed Language Models Promote Fairness [88.48232731113306]
偏りのある言語モデルはトークン表現と単語埋め込みの間に崩壊したアライメントを示す。
我々は,幅広い脱バイアス法において,公平性を効果的に向上する原理的な微調整法を設計する。
論文 参考訳(メタデータ) (2024-10-06T13:09:48Z) - Explicit Word Density Estimation for Language Modelling [24.8651840630298]
ニューラルネットワークと正規化フローの連続的類似に基づく新しい言語モデル群を提案する。
本研究では,ニューラルネットワークと正規化フローの連続的類似に基づく新しい言語モデル群を提案する。
論文 参考訳(メタデータ) (2024-06-10T15:21:33Z) - Why do small language models underperform? Studying Language Model Saturation via the Softmax Bottleneck [11.416426888383873]
より小型モデルは飽和に悩まされる可能性があり,訓練の先進点における性能低下を特徴とする。
これは、より小さなモデルの隠れ次元とターゲットの文脈確率分布の高階とのミスマッチによって説明できる。
各種設定におけるソフトマックスボトルネックの影響を計測し,1000次元未満の隠れ次元に基づくモデルでは,遅延事前学習において退化した潜在表現を採用する傾向にあることを示す。
論文 参考訳(メタデータ) (2024-04-11T11:10:36Z) - Lexical semantics enhanced neural word embeddings [4.040491121427623]
階層的適合は、IS-A階層に本質的に格納されている意味的類似性ニュアンスをモデル化するための新しいアプローチである。
その結果、後期核融合における意味的関係を持つ神経埋め込みを専門とする階層化の有効性が示された。
論文 参考訳(メタデータ) (2022-10-03T08:10:23Z) - Quark: Controllable Text Generation with Reinforced Unlearning [68.07749519374089]
大規模言語モデルは、しばしばユーザの期待に合わない振る舞いを学ぶ。
本稿では,(不必要な)特性を定量化する報酬関数を最適化するアルゴリズムQuarkを紹介する。
未学習の毒性、ネガティブな感情、反復について、我々の実験はQuarkが強いベースラインと最先端の強化学習法の両方より優れていることを示している。
論文 参考訳(メタデータ) (2022-05-26T21:11:51Z) - Better Language Model with Hypernym Class Prediction [101.8517004687825]
クラスベース言語モデル (LM) は、コンテキストの疎結合に$n$-gramのLMで対処するために長年開発されてきた。
本研究では,このアプローチをニューラルLMの文脈で再考する。
論文 参考訳(メタデータ) (2022-03-21T01:16:44Z) - Dependency-based Mixture Language Models [53.152011258252315]
依存性に基づく混合言語モデルを紹介する。
より詳しくは、依存関係モデリングの新たな目的により、まずニューラルネットワークモデルを訓練する。
次に、前回の依存性モデリング確率分布と自己意図を混合することにより、次の確率を定式化する。
論文 参考訳(メタデータ) (2022-03-19T06:28:30Z) - Smoothing and Shrinking the Sparse Seq2Seq Search Space [2.1828601975620257]
entmaxベースのモデルは、猫を効果的に解決する。
また、Fenchel-Young損失の広い家族にラベルスムーシングを一般化する。
得られたラベルスムーズなエントマックス損失モデルにより,多言語グラフ-音素変換の新たな技術が確立された。
論文 参考訳(メタデータ) (2021-03-18T14:45:38Z) - Neural Baselines for Word Alignment [0.0]
4つの言語対に対する教師なし単語アライメントのためのニューラルモデルの検討と評価を行った。
我々は、IBM-1と隠れマルコフモデルのニューラルバージョンが、個々のモデルよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2020-09-28T07:51:03Z) - Mechanisms for Handling Nested Dependencies in Neural-Network Language
Models and Humans [75.15855405318855]
我々は,「深層学習」手法で訓練された現代人工ニューラルネットワークが,人間の文処理の中心的な側面を模倣するかどうかを検討した。
ネットワークは、大きなコーパスで次の単語を予測するためにのみ訓練されたが、分析の結果、局所的および長距離の構文合意をうまく処理する特別なユニットが出現した。
我々は,複数の名詞の単数/複数状態における体系的な変化を伴う文中の数一致の違反を人間が検出する行動実験において,モデルの予測を検証した。
論文 参考訳(メタデータ) (2020-06-19T12:00:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。