論文の概要: Smoothing and Shrinking the Sparse Seq2Seq Search Space
- arxiv url: http://arxiv.org/abs/2103.10291v1
- Date: Thu, 18 Mar 2021 14:45:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-19 14:04:45.951486
- Title: Smoothing and Shrinking the Sparse Seq2Seq Search Space
- Title(参考訳): スパースSeq2Seq検索空間の平滑化と縮小
- Authors: Ben Peters and Andr\'e F. T. Martins
- Abstract要約: entmaxベースのモデルは、猫を効果的に解決する。
また、Fenchel-Young損失の広い家族にラベルスムーシングを一般化する。
得られたラベルスムーズなエントマックス損失モデルにより,多言語グラフ-音素変換の新たな技術が確立された。
- 参考スコア(独自算出の注目度): 2.1828601975620257
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current sequence-to-sequence models are trained to minimize cross-entropy and
use softmax to compute the locally normalized probabilities over target
sequences. While this setup has led to strong results in a variety of tasks,
one unsatisfying aspect is its length bias: models give high scores to short,
inadequate hypotheses and often make the empty string the argmax -- the
so-called cat got your tongue problem. Recently proposed entmax-based sparse
sequence-to-sequence models present a possible solution, since they can shrink
the search space by assigning zero probability to bad hypotheses, but their
ability to handle word-level tasks with transformers has never been tested. In
this work, we show that entmax-based models effectively solve the cat got your
tongue problem, removing a major source of model error for neural machine
translation. In addition, we generalize label smoothing, a critical
regularization technique, to the broader family of Fenchel-Young losses, which
includes both cross-entropy and the entmax losses. Our resulting label-smoothed
entmax loss models set a new state of the art on multilingual
grapheme-to-phoneme conversion and deliver improvements and better calibration
properties on cross-lingual morphological inflection and machine translation
for 6 language pairs.
- Abstract(参考訳): 現在のシーケンスからシーケンスへのモデルは、クロスエントロピーを最小化し、softmaxを使ってターゲットシーケンス上の局所正規化確率を計算するように訓練されている。
モデルは短く不適切な仮説に高いスコアを与え、しばしば空の文字列をargmaxにします。
最近提案された entmax-based sparse sequence-to-sequence model は、ゼロ確率を悪い仮説に割り当てることで探索空間を縮小できるが、変圧器によるワードレベルタスクの処理能力は検証されていない。
本研究では,entmaxを用いたモデルが猫の舌問題を効果的に解決し,ニューラルマシン翻訳におけるモデルエラーの原因を取り除いたことを示す。
さらに,限界正規化手法であるラベル平滑化を,クロスエントロピーとエントマックス損失の両方を含むフェンチェル・ヤング損失の広いファミリーに一般化する。
得られたラベルスムーズなエントマックス損失モデルにより,多言語グラファイム-音素変換技術が新たに確立され,言語間のモーフィジカルインフレクションと機械翻訳におけるキャリブレーション特性が向上した。
関連論文リスト
- Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。
我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。
我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2~3倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-07-22T18:00:00Z) - A Pseudo-Semantic Loss for Autoregressive Models with Logical
Constraints [87.08677547257733]
ニューロシンボリックAIは、純粋にシンボリックな学習とニューラルな学習のギャップを埋める。
本稿では,ニューラルネットワークの出力分布に対するシンボリック制約の可能性を最大化する方法を示す。
また,スドクと最短経路予測の手法を自己回帰世代として評価した。
論文 参考訳(メタデータ) (2023-12-06T20:58:07Z) - Variational Classification [51.2541371924591]
我々は,変分オートエンコーダの訓練に用いるエビデンスローバウンド(ELBO)に類似した,モデルの訓練を目的とした変分目的を導出する。
軟質マックス層への入力を潜伏変数のサンプルとして扱うことで, 抽象化された視点から, 潜在的な矛盾が明らかとなった。
我々は、標準ソフトマックス層に見られる暗黙の仮定の代わりに、選択された潜在分布を誘導する。
論文 参考訳(メタデータ) (2023-05-17T17:47:19Z) - r-softmax: Generalized Softmax with Controllable Sparsity Rate [11.39524236962986]
本稿では,ソフトマックスの修正であるr-softmaxを提案し,スパース確率分布を制御可能なスペーサ率で出力する。
我々は、r-softmaxが他のソフトマックス代替品よりも優れており、元のソフトマックスと高い競争力を持つ複数のマルチラベルデータセットを示す。
論文 参考訳(メタデータ) (2023-04-11T14:28:29Z) - Jam or Cream First? Modeling Ambiguity in Neural Machine Translation
with SCONES [10.785577504399077]
本稿では,ソフトマックスのアクティベーションを,あいまいさをより効果的にモデル化できるマルチラベル分類層に置き換えることを提案する。
SCONES損失関数を用いて,マルチラベル出力層を単一参照トレーニングデータ上でトレーニング可能であることを示す。
SCONESは、適切な翻訳に最も高い確率を割り当てるNMTモデルのトレーニングに利用できることを示す。
論文 参考訳(メタデータ) (2022-05-02T07:51:37Z) - X-model: Improving Data Efficiency in Deep Learning with A Minimax Model [78.55482897452417]
ディープラーニングにおける分類と回帰設定の両面でのデータ効率の向上を目標とする。
両世界の力を生かすために,我々は新しいX-モデルを提案する。
X-モデルは、特徴抽出器とタスク固有のヘッドの間でミニマックスゲームを行う。
論文 参考訳(メタデータ) (2021-10-09T13:56:48Z) - Stochastic Projective Splitting: Solving Saddle-Point Problems with
Multiple Regularizers [4.568911586155097]
本稿では、包含問題に対する単調アルゴリズムの射影分割(PS)系列の新たな変種について述べる。
勾配降下上昇に伴う収束問題なしに、ロバストMLのような応用で生じるmin-maxおよび非協調ゲーム定式化を解くことができる。
論文 参考訳(メタデータ) (2021-06-24T14:48:43Z) - Investigation of Large-Margin Softmax in Neural Language Modeling [43.51826343967195]
ニューラルネットワークモデルに大マージンを導入することで、パープレキシティが向上し、自動音声認識における単語誤り率が向上するかどうかを検討する。
パープレキシティはわずかに劣化しているものの、大きなマージンソフトマックスを持つニューラル言語モデルでは、標準ソフトマックスベースラインと同様の単語誤り率が得られることがわかった。
論文 参考訳(メタデータ) (2020-05-20T14:53:19Z) - Aligned Cross Entropy for Non-Autoregressive Machine Translation [120.15069387374717]
非自己回帰モデルの学習における代替的損失関数としてアライメントクロスエントロピー(AXE)を提案する。
AXEに基づく条件付きマスキング言語モデル(CMLM)のトレーニングは、主要なWMTベンチマークの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2020-04-03T16:24:47Z) - Limits of Detecting Text Generated by Large-Scale Language Models [65.46403462928319]
誤情報キャンペーンで使用される可能性があるため、長く一貫性のあるテキストを生成できる大規模な言語モデルが危険であると考える者もいる。
ここでは、仮説テスト問題として大規模言語モデル出力検出を定式化し、テキストを真あるいは生成されたものと分類する。
論文 参考訳(メタデータ) (2020-02-09T19:53:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。