論文の概要: Modeling Concentrated Cross-Attention for Neural Machine Translation
with Gaussian Mixture Model
- arxiv url: http://arxiv.org/abs/2109.05244v2
- Date: Tue, 14 Sep 2021 01:33:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-17 12:00:47.663006
- Title: Modeling Concentrated Cross-Attention for Neural Machine Translation
with Gaussian Mixture Model
- Title(参考訳): ガウス混合モデルを用いたニューラルマシン翻訳のための集中的クロス・アテンションのモデル化
- Authors: Shaolei Zhang, Yang Feng
- Abstract要約: クロスアテンションはニューラルマシン翻訳(NMT)の重要な構成要素である
本研究では,ガウス混合モデル(GMM)を用いて,横断的注意の集中度をモデル化する。
- 参考スコア(独自算出の注目度): 6.487736084189248
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cross-attention is an important component of neural machine translation
(NMT), which is always realized by dot-product attention in previous methods.
However, dot-product attention only considers the pair-wise correlation between
words, resulting in dispersion when dealing with long sentences and neglect of
source neighboring relationships. Inspired by linguistics, the above issues are
caused by ignoring a type of cross-attention, called concentrated attention,
which focuses on several central words and then spreads around them. In this
work, we apply Gaussian Mixture Model (GMM) to model the concentrated attention
in cross-attention. Experiments and analyses we conducted on three datasets
show that the proposed method outperforms the baseline and has significant
improvement on alignment quality, N-gram accuracy, and long sentence
translation.
- Abstract(参考訳): クロスアテンションはニューラル・マシン・トランスレーション(NMT)の重要な構成要素であり、従来手法ではドット積の注意によって常に実現されていた。
しかし、ドット積の注意は単語間のペアワイズ相関のみを考慮し、長い文を扱うときに分散し、ソース近傍の関係を無視する。
言語学にインスパイアされた上記の問題は、集中的注意と呼ばれるある種の横断的注意を無視して、いくつかの中心的な単語に焦点を合わせ、その周辺に広がる。
本研究では,ガウス混合モデル(GMM)を用いて,横断的注意の集中度をモデル化する。
3つのデータセットを用いた実験および解析により,提案手法がベースラインを上回り,アライメント品質,n-gram精度,長文翻訳において有意な改善を示した。
関連論文リスト
- Attention Overlap Is Responsible for The Entity Missing Problem in Text-to-image Diffusion Models! [3.355491272942994]
本研究では, 実体欠落問題の原因となる3つの要因について検討し, クロスアテンションダイナミクスに着目した。
実体間の注意マップの重複を減らすことは、実体の欠落率を効果的に最小化することを発見した。
論文 参考訳(メタデータ) (2024-10-28T12:43:48Z) - Mitigating Modality Prior-Induced Hallucinations in Multimodal Large Language Models via Deciphering Attention Causality [20.41579586967349]
MLLM(Multimodal Large Language Models)は、産業と学術の両方に焦点を合わせている。
MLLMは視覚や言語に先立って導入されたバイアスに悩まされ、多モード幻覚を引き起こすことがある。
MLLMに構造因果モデリングを適用した因果推論フレームワークCausalMMを提案する。
論文 参考訳(メタデータ) (2024-10-07T06:45:22Z) - Learning Feature Matching via Matchable Keypoint-Assisted Graph Neural
Network [52.29330138835208]
画像のペア間の局所的な特徴の正確なマッチングは、コンピュータビジョンの課題である。
従来の研究では、注意に基づくグラフニューラルネットワーク(GNN)と、画像内のキーポイントに完全に接続されたグラフを使用するのが一般的だった。
本稿では,非繰り返しキーポイントをバイパスし,マッチング可能なキーポイントを利用してメッセージパッシングを誘導する,疎注意に基づくGNNアーキテクチャであるMaKeGNNを提案する。
論文 参考訳(メタデータ) (2023-07-04T02:50:44Z) - Cross-modal Attention Congruence Regularization for Vision-Language
Relation Alignment [105.70884254216973]
我々は、"mug"から"grass"への指示言語注意を促すことで、関係アライメントを強制できることを示します。
我々は、このソフトリレーションアライメントの概念が、視覚と言語注意の一致を強制することと等価であることを証明した。
UNITERにCACR(Cross-modal Attention Congruence Regularization)の損失を適用し,Winogroundに対する最先端アプローチを改善した。
論文 参考訳(メタデータ) (2022-12-20T18:53:14Z) - On the Locality of Attention in Direct Speech Translation [0.1749935196721634]
トランスフォーマーは複数のNLPタスクにまたがって最先端の結果を得た。
直接音声翻訳における自己注意の有用性について論じる。
論文 参考訳(メタデータ) (2022-04-19T17:43:37Z) - Bridging the Gap between Language Models and Cross-Lingual Sequence
Labeling [101.74165219364264]
大規模言語間事前学習言語モデル (xPLM) は、言語間シーケンスラベリングタスクにおいて有効であることを示す。
大きな成功にもかかわらず、事前学習と微調整の段階の間には訓練対象のギャップがあるという経験的観察を描いている。
本稿では,まず,言語間インフォーマティブ・スパン・マスキング(CLISM)と呼ばれるxSLのための事前学習タスクを設計し,目的のギャップを解消する。
第2に、コントラスト学習を利用して入力並列表現間の一貫性を促進するContrAstive-Consistency Regularization (CACR)を提案する。
論文 参考訳(メタデータ) (2022-04-11T15:55:20Z) - Bayesian Attention Belief Networks [59.183311769616466]
注意に基づくニューラルネットワークは、幅広いタスクにおいて最先端の結果を得た。
本稿では,非正規化注意重みをモデル化してデコーダネットワークを構築するベイズ的注意信念ネットワークについて紹介する。
提案手法は, 精度, 不確実性推定, ドメイン間の一般化, 敵攻撃において, 決定論的注意と最先端の注意よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-09T17:46:22Z) - Learning Relation Alignment for Calibrated Cross-modal Retrieval [52.760541762871505]
言語的・視覚的関係のセマンティックな距離を計測し,関係の一貫性を定量化するための新しい指標ISD(Intra-modal Self-attention Distance)を提案する。
ISDを最適化し、モダル間アライメントを介してモダル内アライメントを相互に調整するための正規化訓練法である、モダル内アライメント(IAIS)について述べる。
論文 参考訳(メタデータ) (2021-05-28T14:25:49Z) - Enriched Attention for Robust Relation Extraction [10.925904231385207]
関係抽出モデルは、複数の実体と関係を持つ長い文にうまくスケールしない。
注意することで、モデルは関係抽出に関連する入力文の一部に集中することができる。
私達のモデルは2つの一般的なベンチマークの同等のセットアップを使用して前の仕事より優秀です。
論文 参考訳(メタデータ) (2021-04-22T07:17:19Z) - Discrete Variational Attention Models for Language Generation [51.88612022940496]
本稿では,言語における離散性に起因する注意機構のカテゴリー分布を考慮した離散的変動注意モデルを提案する。
離散性の特質により,提案手法の訓練は後部崩壊に支障を来さない。
論文 参考訳(メタデータ) (2020-04-21T05:49:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。