論文の概要: F^2-Softmax: Diversifying Neural Text Generation via Frequency
Factorized Softmax
- arxiv url: http://arxiv.org/abs/2009.09417v2
- Date: Sun, 4 Oct 2020 08:46:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-16 12:35:31.619158
- Title: F^2-Softmax: Diversifying Neural Text Generation via Frequency
Factorized Softmax
- Title(参考訳): F^2-Softmax:周波数分解ソフトマックスによる多様化ニューラルテキスト生成
- Authors: Byung-Ju Choi, Jimin Hong, David Keetae Park, Sang Wan Lee
- Abstract要約: 非最適テキスト生成は主に不均衡なトークン分布に起因すると我々は主張する。
本稿では,2つの新しい手法,F2-Softmax と MefMax を提案する。
- 参考スコア(独自算出の注目度): 10.222564165747613
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite recent advances in neural text generation, encoding the rich
diversity in human language remains elusive. We argue that the sub-optimal text
generation is mainly attributable to the imbalanced token distribution, which
particularly misdirects the learning model when trained with the
maximum-likelihood objective. As a simple yet effective remedy, we propose two
novel methods, F^2-Softmax and MefMax, for a balanced training even with the
skewed frequency distribution. MefMax assigns tokens uniquely to frequency
classes, trying to group tokens with similar frequencies and equalize frequency
mass between the classes. F^2-Softmax then decomposes a probability
distribution of the target token into a product of two conditional
probabilities of (i) frequency class, and (ii) token from the target frequency
class. Models learn more uniform probability distributions because they are
confined to subsets of vocabularies. Significant performance gains on seven
relevant metrics suggest the supremacy of our approach in improving not only
the diversity but also the quality of generated texts.
- Abstract(参考訳): 最近のニューラルテキスト生成の進歩にもかかわらず、人間の言語における豊富な多様性のエンコーディングはいまだに解明されていない。
下位最適テキスト生成は主に不均衡トークン分布に起因しており、特に最大類似目的の学習では学習モデルを誤った方向に向ける。
簡易かつ効果的な治療として,歪周波数分布においてもバランストレーニングを行うために,f^2-softmaxとmefmaxという2つの新しい手法を提案する。
MefMaxはトークンを周波数クラスに一意に割り当て、類似の周波数でトークンをグループ化し、クラス間で周波数質量を等化しようとする。
f^2-softmax は対象トークンの確率分布を2つの条件付き確率の積に分解する。
(i)周波数クラス、及び
(ii) 対象周波数クラスからのトークン。
モデルは語彙の部分集合に限られるため、より均一な確率分布を学ぶ。
7つの関連する指標に対する重要なパフォーマンス向上は、多様性だけでなく、生成されたテキストの品質も向上するアプローチの優位性を示唆している。
関連論文リスト
- Mitigating Frequency Bias and Anisotropy in Language Model Pre-Training with Syntactic Smoothing [6.726629754291751]
本稿では,言語モデルの周波数バイアスを定量化する手法を提案する。
そこで本研究では,事前学習中のトークン表現に対して構文的事前表現を誘導することにより,言語モデルの周波数バイアスを低減する手法を提案する。
このアプローチにより、頻度の低い英語トークンの性能が向上し、異方性も低下する。
論文 参考訳(メタデータ) (2024-10-15T10:09:57Z) - Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。
我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。
我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2~3倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-07-22T18:00:00Z) - MultiMax: Sparse and Multi-Modal Attention Learning [60.49318008131978]
SoftMaxは現代の機械学習アルゴリズムのユビキタスな成分である。
分散性はSoftMaxの変種族によって達成できるが、それらはしばしば代替損失関数を必要とし、多重モダリティを保たない。
入力入力範囲に応じて出力分布を適応的に変調するMultiMaxを提案する。
論文 参考訳(メタデータ) (2024-06-03T10:51:43Z) - r-softmax: Generalized Softmax with Controllable Sparsity Rate [11.39524236962986]
本稿では,ソフトマックスの修正であるr-softmaxを提案し,スパース確率分布を制御可能なスペーサ率で出力する。
我々は、r-softmaxが他のソフトマックス代替品よりも優れており、元のソフトマックスと高い競争力を持つ複数のマルチラベルデータセットを示す。
論文 参考訳(メタデータ) (2023-04-11T14:28:29Z) - Jam or Cream First? Modeling Ambiguity in Neural Machine Translation
with SCONES [10.785577504399077]
本稿では,ソフトマックスのアクティベーションを,あいまいさをより効果的にモデル化できるマルチラベル分類層に置き換えることを提案する。
SCONES損失関数を用いて,マルチラベル出力層を単一参照トレーニングデータ上でトレーニング可能であることを示す。
SCONESは、適切な翻訳に最も高い確率を割り当てるNMTモデルのトレーニングに利用できることを示す。
論文 参考訳(メタデータ) (2022-05-02T07:51:37Z) - Token-level Adaptive Training for Neural Machine Translation [84.69646428587548]
異なるトークンが異なる周波数で現れるため、自然言語にはトークンの不均衡現象が存在する。
バニラNMTモデルは、通常、異なる周波数のターゲットトークンに対して、自明な等重の目的を採用する。
低周波トークンは、無視された後に翻訳品質に影響を与える重要な意味情報を運ぶことができる。
論文 参考訳(メタデータ) (2020-10-09T05:55:05Z) - Deep F-measure Maximization for End-to-End Speech Understanding [52.36496114728355]
本稿では,F測度に対する微分可能な近似法を提案し,標準バックプロパゲーションを用いてネットワークをトレーニングする。
我々は、アダルト、コミュニティ、犯罪の2つの標準フェアネスデータセットの実験を行い、ATISデータセットの音声・インテリジェンス検出と音声・COCOデータセットの音声・イメージ概念分類を行った。
これらの4つのタスクのすべてにおいて、F測定は、クロスエントロピー損失関数で訓練されたモデルと比較して、最大8%の絶対的な絶対的な改善を含む、マイクロF1スコアの改善をもたらす。
論文 参考訳(メタデータ) (2020-08-08T03:02:27Z) - Towards Discriminability and Diversity: Batch Nuclear-norm Maximization
under Label Insufficient Situations [154.51144248210338]
Batch Nuclear-norm Maximization (BNM) は、学習シナリオのラベルが不十分な場合の学習を促進するために提案されている。
BNMはライバルより優れており、既存のよく知られた手法でうまく機能する。
論文 参考訳(メタデータ) (2020-03-27T05:04:24Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。