論文の概要: Attention Weights in Transformer NMT Fail Aligning Words Between
Sequences but Largely Explain Model Predictions
- arxiv url: http://arxiv.org/abs/2109.05853v1
- Date: Mon, 13 Sep 2021 10:44:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-14 16:08:22.837757
- Title: Attention Weights in Transformer NMT Fail Aligning Words Between
Sequences but Largely Explain Model Predictions
- Title(参考訳): 変圧器NMTにおける系列間の単語の重み付けと大まかに説明されたモデル予測
- Authors: Javier Ferrando and Marta R. Costa-juss\`a
- Abstract要約: NMTモデルは2つの文脈の予測における寄与を規制するために非形式的トークンに注意を向けることを示す。
本稿では,単語アライメントの誤り率を大幅に低減する手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work proposes an extensive analysis of the Transformer architecture in
the Neural Machine Translation (NMT) setting. Focusing on the encoder-decoder
attention mechanism, we prove that attention weights systematically make
alignment errors by relying mainly on uninformative tokens from the source
sequence. However, we observe that NMT models assign attention to these tokens
to regulate the contribution in the prediction of the two contexts, the source
and the prefix of the target sequence. We provide evidence about the influence
of wrong alignments on the model behavior, demonstrating that the
encoder-decoder attention mechanism is well suited as an interpretability
method for NMT. Finally, based on our analysis, we propose methods that largely
reduce the word alignment error rate compared to standard induced alignments
from attention weights.
- Abstract(参考訳): 本研究は,neural machine translation (nmt) 設定におけるトランスフォーマーアーキテクチャの広範囲な解析を提案する。
エンコーダ・デコーダのアテンション機構に着目し、アテンション重みは、主にソースシーケンスからの非形式的トークンに依存することにより、アライメントエラーを系統的に行うことを示す。
しかし、NMTモデルでは、これらのトークンに注意を向け、ターゲットシーケンスのソースとプレフィックスである2つのコンテキストの予測への貢献を規制している。
モデル動作に対する誤ったアライメントの影響について,エンコーダ・デコーダのアライメント機構がnmtの解釈可能性に適していることを示す。
最後に,本分析に基づいて,注目重みからの標準誘導アライメントと比較して単語アライメント誤り率を大幅に低減する手法を提案する。
関連論文リスト
- Noise-Free Explanation for Driving Action Prediction [11.330363757618379]
我々は, この欠陥を解消するための, 実装が容易だが効果的な方法を提案する: 平滑な騒音ノルム注意(SNNA)
変換された値ベクトルのノルムで注意を重み付け、アテンション勾配でラベル固有の信号を誘導し、入力摂動をランダムにサンプリングし、対応する勾配を平均化し、ノイズのない属性を生成する。
定性的かつ定量的な評価結果は、より明確な視覚的説明図を作成し、入力画素の重要度をランク付けする他のSOTA注意に基づく説明可能な方法と比較して、SNNAの優位性を示している。
論文 参考訳(メタデータ) (2024-07-08T19:21:24Z) - Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。
本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文 参考訳(メタデータ) (2023-05-28T06:30:29Z) - Video Anomaly Detection via Prediction Network with Enhanced
Spatio-Temporal Memory Exchange [21.334952965297667]
ビデオ異常検出は、ほとんどの異常は少なく、決定論的ではないため、難しい作業である。
大規模なメモリ交換を拡張した畳み込みLSTM自動エンコーダ予測フレームワークを設計する。
3つのベンチマークで評価した結果,我々のフレームワークは既存の予測に基づく異常検出手法よりも優れていた。
論文 参考訳(メタデータ) (2022-06-26T16:10:56Z) - Unraveling Attention via Convex Duality: Analysis and Interpretations of
Vision Transformers [52.468311268601056]
本稿では凸双対性のレンズを通して注意を解析する。
我々は、大域的最適性に対して解釈可能で解ける等価な有限次元凸問題を導出する。
自己認識ネットワークがトークンを暗黙的にクラスタリングする方法を示す。
論文 参考訳(メタデータ) (2022-05-17T04:01:15Z) - On the Locality of Attention in Direct Speech Translation [0.1749935196721634]
トランスフォーマーは複数のNLPタスクにまたがって最先端の結果を得た。
直接音声翻訳における自己注意の有用性について論じる。
論文 参考訳(メタデータ) (2022-04-19T17:43:37Z) - Exploring Unsupervised Pretraining Objectives for Machine Translation [99.5441395624651]
教師なし言語間事前訓練は、ニューラルマシン翻訳(NMT)の強力な結果を得た
ほとんどのアプローチは、入力の一部をマスキングしてデコーダで再構成することで、シーケンス・ツー・シーケンスアーキテクチャにマスク付き言語モデリング(MLM)を適用する。
マスキングと、実際の(完全な)文に似た入力を生成する代替目的を、文脈に基づいて単語を並べ替えて置き換えることにより比較する。
論文 参考訳(メタデータ) (2021-06-10T10:18:23Z) - Bayesian Attention Belief Networks [59.183311769616466]
注意に基づくニューラルネットワークは、幅広いタスクにおいて最先端の結果を得た。
本稿では,非正規化注意重みをモデル化してデコーダネットワークを構築するベイズ的注意信念ネットワークについて紹介する。
提案手法は, 精度, 不確実性推定, ドメイン間の一般化, 敵攻撃において, 決定論的注意と最先端の注意よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-09T17:46:22Z) - SparseBERT: Rethinking the Importance Analysis in Self-attention [107.68072039537311]
トランスフォーマーベースのモデルは、その強力な能力のために自然言語処理(NLP)タスクに人気がある。
事前学習モデルの注意マップの可視化は,自己着脱機構を理解するための直接的な方法の一つである。
本研究では,sparsebert設計の指導にも適用可能な微分可能アテンションマスク(dam)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-25T14:13:44Z) - On the Inference Calibration of Neural Machine Translation [54.48932804996506]
校正と翻訳性能と誤校正の言語特性の相関について検討した。
そこで本研究では,推論キャリブレーションと翻訳性能を両立できる新しいラベル平滑化手法を提案する。
論文 参考訳(メタデータ) (2020-05-03T02:03:56Z) - Evaluating Robustness to Input Perturbations for Neural Machine
Translation [28.719601085732204]
本稿では,入力に小さな摂動を加えた場合の相対的劣化と変換の変化を計測する追加指標を提案する。
その結果,提案手法は,単語正規化手法を用いた場合の摂動に対する頑健性向上の傾向を明らかにした。
論文 参考訳(メタデータ) (2020-05-01T19:54:46Z) - Accurate Word Alignment Induction from Neural Machine Translation [33.21196289328584]
本稿では2つの単語アライメント誘導手法 Shift-Att と Shift-AET を提案する。
主なアイデアは、to-be-alignedターゲットトークンがデコーダ入力であるときに、ステップでアライメントを誘導することである。
3つの公開データセットの実験では、両方のメソッドが対応する神経ベースラインよりも優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2020-04-30T14:47:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。