論文の概要: Rare Words Degenerate All Words
- arxiv url: http://arxiv.org/abs/2109.03127v1
- Date: Tue, 7 Sep 2021 14:48:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-08 14:42:20.864376
- Title: Rare Words Degenerate All Words
- Title(参考訳): まれな言葉はすべての単語を縮退させる
- Authors: Sangwon Yu, Jongyoon Song, Heeseung Kim, Seong-min Lee, Woo-Jong Ryu,
Sungroh Yoon
- Abstract要約: 本研究は, 単語埋め込みの劣化のメカニズムを, その勾配に関して解析する。
縮退問題に対処する新しい手法である適応勾配部分スケーリング(AGPS)を提案する。
- 参考スコア(独自算出の注目度): 16.97175223719216
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite advances in neural network language model, the representation
degeneration problem of embeddings is still challenging. Recent studies have
found that the learned output embeddings are degenerated into a narrow-cone
distribution which makes the similarity between each embeddings positive. They
analyzed the cause of the degeneration problem has been demonstrated as common
to most embeddings. However, we found that the degeneration problem is
especially originated from the training of embeddings of rare words. In this
study, we analyze the intrinsic mechanism of the degeneration of rare word
embeddings with respect of their gradient about the negative log-likelihood
loss function. Furthermore, we theoretically and empirically demonstrate that
the degeneration of rare word embeddings causes the degeneration of non-rare
word embeddings, and that the overall degeneration problem can be alleviated by
preventing the degeneration of rare word embeddings. Based on our analyses, we
propose a novel method, Adaptive Gradient Partial Scaling(AGPS), to address the
degeneration problem. Experimental results demonstrate the effectiveness of the
proposed method qualitatively and quantitatively.
- Abstract(参考訳): ニューラルネットワーク言語モデルの進歩にもかかわらず、埋め込みの表現退化問題は依然として難しい。
近年の研究では、学習した出力埋め込みが狭い円錐分布に分解され、各埋め込み間の類似性が正となることが示されている。
彼らは、ほとんどの埋め込みに共通する変性問題の原因を分析した。
しかし,このデジェネレーション問題は,特にレアワードの埋め込みの訓練が原因であることが判明した。
本研究では, 負の対数様損失関数に関する勾配に関して, 希少な単語埋め込みの退化の固有機構を解析した。
さらに,レアワード埋め込みの劣化が非レアワード埋め込みの劣化を引き起こし,レアワード埋め込みの劣化を防止し,全体的なデジェネレーション問題を緩和できることを理論的かつ実証的に実証した。
そこで本研究では,このデジェネレーション問題に対処するための新しい手法である適応勾配部分スケーリング(AGPS)を提案する。
実験により,提案手法の有効性を質的,定量的に検証した。
関連論文リスト
- Toward Understanding In-context vs. In-weight Learning [50.24035812301655]
本研究は,文脈内学習の出現と消失を引き起こす簡易な分布特性を同定する。
そして、この研究を完全な大規模言語モデルに拡張し、自然言語プロンプトの様々なコレクションの微調整が、文脈内および重み付き学習の振る舞いをいかに引き出すかを示す。
論文 参考訳(メタデータ) (2024-10-30T14:09:00Z) - Repetition In Repetition Out: Towards Understanding Neural Text
Degeneration from the Data Perspective [91.14291142262262]
この研究は、データの観点から、単純で基本的な説明を提示する。
予備調査では, 退化問題とトレーニングデータにおける反復の有無との間には強い相関関係がみられた。
実験の結果,訓練データにおける繰り返しのペナルティ化は,より大きなモデルサイズや命令のチューニングを考慮しても重要な課題であることがわかった。
論文 参考訳(メタデータ) (2023-10-16T09:35:42Z) - Multi-level Adaptive Contrastive Learning for Knowledge Internalization
in Dialogue Generation [37.55417272177113]
知識基底対話生成は、文脈を補うために外部知識を統合することを目的としている。
しかし、このモデルはしばしば、この情報を人間的な方法で応答に内部化するのに失敗する。
否定例を動的にサンプリングし,その後に退化挙動をペナルティ化する多段階適応コントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-13T08:16:27Z) - The Greedy and Recursive Search for Morphological Productivity [9.082163670985281]
形態素学習は、完全に生産的な規則でさえ例外があるという事実によって挑戦される。
許容原則は、生産的ルールが耐えうる例外の正確なしきい値を提供する最近の提案である。
本稿では,ルールを自動的に仮定し,語彙よりも生産性を評価する欲望検索モデルを提案する。
論文 参考訳(メタデータ) (2021-05-12T17:02:32Z) - On-the-Fly Attention Modularization for Neural Generation [54.912042110885366]
生成したテキストは反復的であり,汎用的であり,自己矛盾であり,常識を欠いている。
本研究は,インダクティブバイアスを推論中に注入する簡易かつ効果的な手法である,オンザフライアテンション・モダナイゼーションを動機とする。
論文 参考訳(メタデータ) (2021-01-02T05:16:46Z) - Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。
この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文 参考訳(メタデータ) (2020-11-18T18:52:08Z) - On Long-Tailed Phenomena in Neural Machine Translation [50.65273145888896]
最先端のニューラルネットワーク翻訳(NMT)モデルは、低周波トークンの生成に苦労する。
条件付きテキスト生成における構造的依存関係にモデルトレーニングを適応させるために,新たな損失関数である反焦点損失を提案する。
提案手法は,複数の機械翻訳(MT)データセットに対して有効であり,クロスエントロピーよりも顕著に向上することを示す。
論文 参考訳(メタデータ) (2020-10-10T07:00:57Z) - Mechanisms for Handling Nested Dependencies in Neural-Network Language
Models and Humans [75.15855405318855]
我々は,「深層学習」手法で訓練された現代人工ニューラルネットワークが,人間の文処理の中心的な側面を模倣するかどうかを検討した。
ネットワークは、大きなコーパスで次の単語を予測するためにのみ訓練されたが、分析の結果、局所的および長距離の構文合意をうまく処理する特別なユニットが出現した。
我々は,複数の名詞の単数/複数状態における体系的な変化を伴う文中の数一致の違反を人間が検出する行動実験において,モデルの予測を検証した。
論文 参考訳(メタデータ) (2020-06-19T12:00:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。