論文の概要: Analyzing the Source and Target Contributions to Predictions in Neural
Machine Translation
- arxiv url: http://arxiv.org/abs/2010.10907v3
- Date: Fri, 25 Jun 2021 14:32:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 23:50:19.069437
- Title: Analyzing the Source and Target Contributions to Predictions in Neural
Machine Translation
- Title(参考訳): ニューラルマシン翻訳におけるソース分析と予測への目標貢献
- Authors: Elena Voita, Rico Sennrich, Ivan Titov
- Abstract要約: 生成プロセスに対するソースとターゲットの相対的コントリビューションを明確に評価するNMTモデルを解析する。
より多くのデータでトレーニングされたモデルは、ソース情報に依存しやすく、よりシャープなトークンコントリビューションを持つ傾向にあります。
- 参考スコア(独自算出の注目度): 97.22768624862111
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In Neural Machine Translation (and, more generally, conditional language
modeling), the generation of a target token is influenced by two types of
context: the source and the prefix of the target sequence. While many attempts
to understand the internal workings of NMT models have been made, none of them
explicitly evaluates relative source and target contributions to a generation
decision. We argue that this relative contribution can be evaluated by adopting
a variant of Layerwise Relevance Propagation (LRP). Its underlying
'conservation principle' makes relevance propagation unique: differently from
other methods, it evaluates not an abstract quantity reflecting token
importance, but the proportion of each token's influence. We extend LRP to the
Transformer and conduct an analysis of NMT models which explicitly evaluates
the source and target relative contributions to the generation process. We
analyze changes in these contributions when conditioning on different types of
prefixes, when varying the training objective or the amount of training data,
and during the training process. We find that models trained with more data
tend to rely on source information more and to have more sharp token
contributions; the training process is non-monotonic with several stages of
different nature.
- Abstract(参考訳): ニューラルネットワーク翻訳(およびより一般的には、条件付き言語モデリング)では、ターゲットトークンの生成は、ターゲットシーケンスのソースとプレフィックスの2つのタイプのコンテキストに影響される。
NMTモデルの内部動作を理解するために多くの試みがなされているが、いずれも相対的な情報源と世代決定への目標貢献を明示的に評価するものではない。
この相対的貢献は、Layerwise Relevance Propagation (LRP)の変種を採用することで評価できると論じる。
他の方法とは異なり、トークンの重要性を反映した抽象的な量ではなく、それぞれのトークンの影響の比率を評価する。
我々は、LPPをTransformerに拡張し、生成プロセスに対するソースおよびターゲット相対的コントリビューションを明確に評価するNMTモデルの解析を行う。
本研究は,プレフィックスの種類による条件づけや,トレーニング目標やトレーニングデータ量の変化,トレーニングプロセスにおける貢献度の変化を分析する。
より多くのデータでトレーニングされたモデルは、ソース情報に依存する傾向があり、より鋭いトークンコントリビュートを持つ傾向があることが分かりました。
関連論文リスト
- The mechanistic basis of data dependence and abrupt learning in an
in-context classification task [0.3626013617212666]
本研究では,言語固有の特定の分布特性が,2種類の学習のトレードオフや同時出現を制御していることを示す。
インコンテキスト学習は、誘導ヘッドの突然の出現によって駆動され、その後、インウェイト学習と競合する。
注意に基づくネットワークの急激な遷移は、ICLを実現するのに必要な多層演算の特定の連鎖によって生じると提案する。
論文 参考訳(メタデータ) (2023-12-03T20:53:41Z) - Latent State Models of Training Dynamics [51.88132043461152]
異なるランダムなシードでモデルをトレーニングし、トレーニングを通じてさまざまなメトリクスを計算します。
次に、結果のメトリクス列に隠れマルコフモデル(HMM)を適合させる。
我々はHMM表現を用いて相転移を研究し、収束を遅くする潜伏状態(detour state)を特定する。
論文 参考訳(メタデータ) (2023-08-18T13:20:08Z) - Comparative layer-wise analysis of self-supervised speech models [29.258085176788097]
標準相関解析(CCA)に基づく軽量解析ツールを用いて、各層に符号化された音響・音声・単語レベルの特性を測定する。
これらの特性は、モデルによって異なる層間で進化し、その変動は事前学習対象の選択に関係している。
CCAのトレンドは、下流タスクの関心層を選択するための信頼性の高いガイダンスを提供し、シングルレイヤのパフォーマンスがすべてのレイヤで一致または改善されることに気付き、事前学習されたモデルをより効率的に使用するための意味を示唆している。
論文 参考訳(メタデータ) (2022-11-08T00:59:05Z) - Learning to Generalize to More: Continuous Semantic Augmentation for
Neural Machine Translation [50.54059385277964]
CsaNMT(Continuous Semantic Augmentation)と呼ばれる新しいデータ拡張パラダイムを提案する。
CsaNMTは各トレーニングインスタンスを、同じ意味の下で適切なリテラル式をカバーできる隣接領域で拡張する。
論文 参考訳(メタデータ) (2022-04-14T08:16:28Z) - Bridging the Data Gap between Training and Inference for Unsupervised
Neural Machine Translation [49.916963624249355]
UNMTモデルは、翻訳されたソースと推論中の自然言語で擬似並列データに基づいて訓練される。
トレーニングと推論のソース差はUNMTモデルの翻訳性能を妨げている。
本稿では、擬似並列データ自然言語を同時に用いたオンライン自己学習手法を提案する。
論文 参考訳(メタデータ) (2022-03-16T04:50:27Z) - The Grammar-Learning Trajectories of Neural Language Models [42.32479280480742]
ニューラルネットワークモデルは,データ上での終末性能が異なるにもかかわらず,同じ順序で言語現象を取得することを示す。
以上の結果から,NLMは一貫した発達段階を示すことが示唆された。
論文 参考訳(メタデータ) (2021-09-13T16:17:23Z) - Learning Neural Models for Natural Language Processing in the Face of
Distributional Shift [10.990447273771592]
特定のデータセットでひとつのタスクを実行するための強力な神経予測器をトレーニングするNLPのパラダイムが、さまざまなアプリケーションで最先端のパフォーマンスを実現している。
データ分布が定常である、すなわち、トレーニングとテストの時間の両方で、データは固定された分布からサンプリングされる、という仮定に基づいて構築される。
この方法でのトレーニングは、人間が絶えず変化する情報の流れの中で学習し、操作できる方法と矛盾する。
データ分散がモデル寿命の経過とともにシフトすることが期待される実世界のユースケースに不適応である。
論文 参考訳(メタデータ) (2021-09-03T14:29:20Z) - Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。
提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。
分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文 参考訳(メタデータ) (2020-11-13T10:53:27Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。