論文の概要: Alleviate Exposure Bias in Sequence Prediction \\ with Recurrent Neural
Networks
- arxiv url: http://arxiv.org/abs/2103.11603v1
- Date: Mon, 22 Mar 2021 06:15:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-24 05:46:38.924089
- Title: Alleviate Exposure Bias in Sequence Prediction \\ with Recurrent Neural
Networks
- Title(参考訳): リカレントニューラルネットワークを用いたシーケンス予測における露光バイアスの軽減
- Authors: Liping Yuan, Jiangtao Feng, Xiaoqing Zheng, Xuanjing Huang
- Abstract要約: 繰り返しニューラルネットワーク(RNN)を訓練する一般的な戦略は、各ステップで入力として地上の真実を取ることです。
本稿では,RNNの長期的依存関係をよりよく把握するための,完全微分可能なトレーニングアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 47.52214243454995
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A popular strategy to train recurrent neural networks (RNNs), known as
``teacher forcing'' takes the ground truth as input at each time step and makes
the later predictions partly conditioned on those inputs. Such training
strategy impairs their ability to learn rich distributions over entire
sequences because the chosen inputs hinders the gradients back-propagating to
all previous states in an end-to-end manner. We propose a fully differentiable
training algorithm for RNNs to better capture long-term dependencies by
recovering the probability of the whole sequence. The key idea is that at each
time step, the network takes as input a ``bundle'' of similar words predicted
at the previous step instead of a single ground truth. The representations of
these similar words forms a convex hull, which can be taken as a kind of
regularization to the input. Smoothing the inputs by this way makes the whole
process trainable and differentiable. This design makes it possible for the
model to explore more feasible combinations (possibly unseen sequences), and
can be interpreted as a computationally efficient approximation to the beam
search. Experiments on multiple sequence generation tasks yield performance
improvements, especially in sequence-level metrics, such as BLUE or ROUGE-2.
- Abstract(参考訳): 教師強制'として知られるリカレントニューラルネットワーク(recurrent neural networks, rnns)をトレーニングする一般的な戦略は、基底真理を各時間ステップの入力として取り、後続の予測を部分的にこれらの入力で条件付けする。
このようなトレーニング戦略は、選択された入力がすべての前の状態にエンドツーエンドで逆伝播する勾配を妨げるため、シーケンス全体にわたって豊富な分布を学習する能力を損なう。
本稿では,RNNに対して,シーケンス全体の確率を回復することにより,長期的依存関係をよりよく捉えるための,完全微分可能なトレーニングアルゴリズムを提案する。
鍵となる考え方は、各ステップにおいて、ネットワークは単一の根拠真理ではなく、前のステップで予測される類似の単語の'`bundle''を入力として取ることである。
これらの類似した単語の表現は凸殻を形成し、入力に対する正規化の一種とみなすことができる。
このように入力を滑らかにすることで、プロセス全体がトレーニング可能で微分可能になります。
この設計により、モデルはより実現可能な組み合わせ(おそらく見えないシーケンス)を探索することができ、ビーム探索に対する計算効率の良い近似として解釈することができる。
複数のシーケンス生成タスクの実験は、特にBLUEやROUGE-2のようなシーケンスレベルのメトリクスのパフォーマンス改善をもたらす。
関連論文リスト
- Distributive Pre-Training of Generative Modeling Using Matrix-Product
States [0.0]
本稿では,基本的なテンソルネットワーク操作,例えば和と圧縮を利用した代替的なトレーニング手法を検討する。
トレーニングアルゴリズムは、製品状態表現におけるすべてのトレーニングデータから構築された重ね合わせ状態を圧縮する。
MNISTデータセット上でアルゴリズムをベンチマークし、新しい画像と分類タスクを生成するための妥当な結果を示す。
論文 参考訳(メタデータ) (2023-06-26T15:46:08Z) - Return of the RNN: Residual Recurrent Networks for Invertible Sentence
Embeddings [0.0]
本研究では、教師なし符号化タスクで訓練された残効再帰ネットワークを用いて、非可逆文埋め込みのための新しいモデルを提案する。
ニューラルネットワーク翻訳モデルに共通する確率的出力ではなく、回帰に基づく出力層を用いて入力シーケンスのワードベクトルを再構成する。
RNNはLSTMや2次最適化法などのメモリユニットを必要とすることを考えると、このモデルはADAMによる高精度かつ高速なトレーニングを実現している。
論文 参考訳(メタデータ) (2023-03-23T15:59:06Z) - Theoretical Characterization of How Neural Network Pruning Affects its
Generalization [131.1347309639727]
この研究は、異なるプルーニング率がモデルの勾配降下ダイナミクスと一般化にどのように影響するかを研究する最初の試みである。
プルーニング率が一定の閾値以下である限り、勾配降下はトレーニング損失をゼロに導くことができる。
より驚くべきことに、プルーニング分数が大きくなるにつれて、一般化境界はより良くなる。
論文 参考訳(メタデータ) (2023-01-01T03:10:45Z) - Boosted Dynamic Neural Networks [53.559833501288146]
典型的なEDNNは、ネットワークバックボーンの異なる層に複数の予測ヘッドを持つ。
モデルを最適化するために、これらの予測ヘッドとネットワークバックボーンは、トレーニングデータのバッチ毎にトレーニングされる。
トレーニングと2つのフェーズでのインプットの異なるテストは、トレーニングとデータ分散のテストのミスマッチを引き起こす。
EDNNを勾配強化にインスパイアされた付加モデルとして定式化し、モデルを効果的に最適化するための複数のトレーニング手法を提案する。
論文 参考訳(メタデータ) (2022-11-30T04:23:12Z) - Towards Better Out-of-Distribution Generalization of Neural Algorithmic
Reasoning Tasks [51.8723187709964]
ニューラルネットワーク推論タスクのOOD一般化について検討する。
目標は、ディープニューラルネットワークを使用して入出力ペアからアルゴリズムを学ぶことである。
論文 参考訳(メタデータ) (2022-11-01T18:33:20Z) - Pretraining Graph Neural Networks for few-shot Analog Circuit Modeling
and Design [68.1682448368636]
本稿では、新しい未知のトポロジや未知の予測タスクに適応可能な回路表現を学習するための教師付き事前学習手法を提案する。
異なる回路の変動位相構造に対処するため、各回路をグラフとして記述し、グラフニューラルネットワーク(GNN)を用いてノード埋め込みを学習する。
出力ノード電圧の予測における事前学習GNNは、新しい未知のトポロジや新しい回路レベル特性の予測に適応可能な学習表現を促進することができることを示す。
論文 参考訳(メタデータ) (2022-03-29T21:18:47Z) - Dual Lottery Ticket Hypothesis [71.95937879869334]
Lottery Ticket hypothesis (LTH)は、スパースネットワークトレーニングを調査し、その能力を維持するための新しい視点を提供する。
本稿では,LTHの当選チケットをトレーニング可能なサブネットワークとして,その性能をベンチマークとして検討する。
本稿では,簡単なスパースネットワークトレーニング戦略であるランダムスパースネットワークトランスフォーメーション(RST)を提案し,DLTHを裏付ける。
論文 参考訳(メタデータ) (2022-03-08T18:06:26Z) - SparseGAN: Sparse Generative Adversarial Network for Text Generation [8.634962333084724]
本稿では,識別器への入力として,意味解釈可能ながスパース文表現を生成するスパースGANを提案する。
このような意味豊かな表現により、効率の良い対人訓練のための不要なノイズを低減できるだけでなく、学習過程全体を完全に差別化できる。
論文 参考訳(メタデータ) (2021-03-22T04:44:43Z) - Nested Learning For Multi-Granular Tasks [24.600419295290504]
元のトレーニングディストリビューションからないサンプルに、粗悪に一般化する。
標準ディープニューラルネットワーク(DNN)は通常、特定のタスクに対してエンドツーエンドでトレーニングされる。
ネスト学習の概念として,入力の階層的表現を得る方法を紹介する。
ネスト学習は、標準のエンドツーエンド方式でトレーニングされた同じネットワークよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-07-13T14:27:14Z) - Neural Execution Engines: Learning to Execute Subroutines [29.036699193820215]
本稿では, ソート, 最短経路, 最小スパンニング木などの共通アルゴリズムを構成する数値サブルーチンのレベルでの一般化問題について検討する。
データを一般化するために、バイナリ表現で数値を符号化すると、加算や乗算のような下流のタスクで訓練されたリッチな構造で埋め込みされることを示す。
論文 参考訳(メタデータ) (2020-06-15T01:51:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。