論文の概要: The Unreasonable Effectiveness of Random Target Embeddings for
Continuous-Output Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2310.20620v1
- Date: Tue, 31 Oct 2023 16:53:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 14:03:09.948622
- Title: The Unreasonable Effectiveness of Random Target Embeddings for
Continuous-Output Neural Machine Translation
- Title(参考訳): 連続出力ニューラルマシン翻訳におけるランダムターゲット埋め込みの有効性
- Authors: Evgeniia Tokarchuk and Vlad Niculae
- Abstract要約: 連続出力ニューラルマシン翻訳(CoNMT)は、離散的な次ワード予測問題を埋め込み予測に置き換える。
完全ランダムな出力埋め込みは、特に大きなデータセットにおいて、厳しい事前訓練されたものよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 12.890478409191031
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Continuous-output neural machine translation (CoNMT) replaces the discrete
next-word prediction problem with an embedding prediction. The semantic
structure of the target embedding space (i.e., closeness of related words) is
intuitively believed to be crucial. We challenge this assumption and show that
completely random output embeddings can outperform laboriously pretrained ones,
especially on larger datasets. Further investigation shows this surprising
effect is strongest for rare words, due to the geometry of their embeddings. We
shed further light on this finding by designing a mixed strategy that combines
random and pre-trained embeddings for different tokens.
- Abstract(参考訳): 連続出力ニューラルマシン翻訳(CoNMT)は、離散的な次ワード予測問題を埋め込み予測に置き換える。
対象埋め込み空間のセマンティック構造(すなわち、関連する単語の近接性)は直感的に重要であると信じられている。
この仮定に挑戦し、特に大規模なデータセットにおいて、完全にランダムな出力の埋め込みが、厳しい事前訓練よりも優れていることを示す。
さらなる調査により、この驚くべき効果は、その埋め込みの幾何学のため、稀な単語にとって最も強いことが示されている。
我々は、ランダムとトレーニング済みの異なるトークンの埋め込みを組み合わせた混合戦略を設計することで、この発見にさらに光を当てた。
関連論文リスト
- Discussion: Effective and Interpretable Outcome Prediction by Training Sparse Mixtures of Linear Experts [4.178382980763478]
我々は,ゲートと専門家のサブネットの両方がロジスティック回帰器である,スパースミクチャー・オブ・エキスパートを訓練することを提案する。
このアンサンブルのようなモデルは、各サブネット内の入力機能のサブセットを自動的に選択しながら、エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2024-07-18T13:59:10Z) - Deep Sketched Output Kernel Regression for Structured Prediction [21.93695380726788]
カーネルによる損失は、構造化された出力予測タスクを定義するための原則化された方法を提供する。
我々は、構造化出力予測タスクを解決するためにニューラルネットワークをトレーニングする方法の課題に取り組む。
論文 参考訳(メタデータ) (2024-06-13T15:56:55Z) - Structured Radial Basis Function Network: Modelling Diversity for
Multiple Hypotheses Prediction [51.82628081279621]
多重モード回帰は非定常過程の予測や分布の複雑な混合において重要である。
構造的放射基底関数ネットワークは回帰問題に対する複数の仮説予測器のアンサンブルとして提示される。
この構造モデルにより, このテッセルレーションを効率よく補間し, 複数の仮説対象分布を近似することが可能であることが証明された。
論文 参考訳(メタデータ) (2023-09-02T01:27:53Z) - Toward Robust Uncertainty Estimation with Random Activation Functions [3.0586855806896045]
本稿では,ランダムアクティベーション関数(RAF)アンサンブルを用いた不確実性定量化手法を提案する。
RAF アンサンブルは、合成データセットと実世界のデータセットの両方において、最先端のアンサンブル不確実性定量化手法より優れている。
論文 参考訳(メタデータ) (2023-02-28T13:17:56Z) - Neuro-Symbolic Entropy Regularization [78.16196949641079]
構造化予測では、目的は構造化されたオブジェクトをエンコードする多くの出力変数を共同で予測することである。
エントロピー正則化(Entropy regularization)という1つのアプローチは、決定境界が低確率領域にあるべきであることを示唆している。
我々は、モデルが有効対象を確実に予測することを奨励する損失、ニューロシンボリックエントロピー正規化を提案する。
論文 参考訳(メタデータ) (2022-01-25T06:23:10Z) - Alleviate Exposure Bias in Sequence Prediction \\ with Recurrent Neural
Networks [47.52214243454995]
繰り返しニューラルネットワーク(RNN)を訓練する一般的な戦略は、各ステップで入力として地上の真実を取ることです。
本稿では,RNNの長期的依存関係をよりよく把握するための,完全微分可能なトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-22T06:15:22Z) - Learning Output Embeddings in Structured Prediction [73.99064151691597]
構造化予測に対する強力で柔軟なアプローチは、予測される構造化対象を潜在的に無限次元の特徴空間に埋め込むことである。
原空間における予測は、前像問題の解法により計算される。
本研究では,新しい特徴空間に出力埋め込みと回帰関数の有限近似を共同で学習することを提案する。
論文 参考訳(メタデータ) (2020-07-29T09:32:53Z) - Network Moments: Extensions and Sparse-Smooth Attacks [59.24080620535988]
ガウス入力を受ける小片方向線形(PL)ネットワーク(Affine,ReLU,Affine)の第1モーメントと第2モーメントの正確な解析式を導出する。
本研究では,新しい分散式を効率的に近似し,より厳密な分散推定を行うことを示す。
論文 参考訳(メタデータ) (2020-06-21T11:36:41Z) - Ambiguity in Sequential Data: Predicting Uncertain Futures with
Recurrent Models [110.82452096672182]
逐次データによる曖昧な予測を扱うために,Multiple hypothesis Prediction(MHP)モデルの拡張を提案する。
また、不確実性を考慮するのに適した曖昧な問題に対する新しい尺度も導入する。
論文 参考訳(メタデータ) (2020-03-10T09:15:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。