論文の概要: Tri-Attention: Explicit Context-Aware Attention Mechanism for Natural
Language Processing
- arxiv url: http://arxiv.org/abs/2211.02899v1
- Date: Sat, 5 Nov 2022 13:07:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 15:15:42.079441
- Title: Tri-Attention: Explicit Context-Aware Attention Mechanism for Natural
Language Processing
- Title(参考訳): Tri-Attention:自然言語処理におけるコンテキスト認識の明示的注意機構
- Authors: Rui Yu, Yifeng Li, Wenpeng Lu, Longbing Cao
- Abstract要約: 自然言語処理のための新しい三重注意(Tri-Attention)フレームワークを開発した。
Tri-Attentionは、クエリ、キー、コンテキストを、関連スコアを計算するための第3の次元として組み込むことによって、明示的に相互作用する。
3つのNLPタスクの実験は、Tri-Attentionが30の最先端非アテンションアプローチより優れていることを示した。
- 参考スコア(独自算出の注目度): 36.210058079145085
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In natural language processing (NLP), the context of a word or sentence plays
an essential role. Contextual information such as the semantic representation
of a passage or historical dialogue forms an essential part of a conversation
and a precise understanding of the present phrase or sentence. However, the
standard attention mechanisms typically generate weights using query and key
but ignore context, forming a Bi-Attention framework, despite their great
success in modeling sequence alignment. This Bi-Attention mechanism does not
explicitly model the interactions between the contexts, queries and keys of
target sequences, missing important contextual information and resulting in
poor attention performance. Accordingly, a novel and general triple-attention
(Tri-Attention) framework expands the standard Bi-Attention mechanism and
explicitly interacts query, key, and context by incorporating context as the
third dimension in calculating relevance scores. Four variants of Tri-Attention
are generated by expanding the two-dimensional vector-based additive,
dot-product, scaled dot-product, and bilinear operations in Bi-Attention to the
tensor operations for Tri-Attention. Extensive experiments on three NLP tasks
demonstrate that Tri-Attention outperforms about 30 state-of-the-art
non-attention, standard Bi-Attention, contextual Bi-Attention approaches and
pretrained neural language models1.
- Abstract(参考訳): 自然言語処理(NLP)では、単語や文の文脈が重要な役割を果たす。
節のセマンティックな表現や歴史的対話のような文脈情報は、会話の本質的な部分を形成し、現在ある句や文を正確に理解する。
しかし、標準的なアテンションメカニズムは通常、クエリとキーを使って重みを生成するが、コンテキストを無視してBi-Attentionフレームワークを形成する。
このBi-Attentionメカニズムは、コンテキスト、クエリ、ターゲットシーケンスのキー間の相互作用を明示的にモデル化していない。
したがって、新規で一般的な三重注意(Tri-Attention)フレームワークは、標準のBi-Attentionメカニズムを拡張し、関連するスコアを計算する3次元としてコンテキストを組み込むことで、クエリ、キー、コンテキストを明示的に相互作用する。
二次元ベクトル系添加物、ドット積、スケールドドット積、および双線型演算を、トライアテンションのテンソル演算に拡張することにより、トリアテンションの4つの変種が生成される。
3つのNLPタスクに関する大規模な実験は、Tri-Attentionが、最先端の非アテンション、標準のBi-Attention、文脈のBi-Attentionアプローチ、事前訓練されたニューラルネットワークモデル1の約30よりも優れていることを示している。
関連論文リスト
- Can Linguistic Knowledge Improve Multimodal Alignment in Vision-Language
Pretraining? [34.609984453754656]
本研究の目的は,意味表現や構文構造を含む包括的言語知識がマルチモーダルアライメントに与える影響を明らかにすることである。
具体的には、最初の大規模マルチモーダルアライメント探索ベンチマークであるSNAREを設計、リリースする。
論文 参考訳(メタデータ) (2023-08-24T16:17:40Z) - DiPlomat: A Dialogue Dataset for Situated Pragmatic Reasoning [89.92601337474954]
プラグマティック推論は、実生活における会話でしばしば起こる暗黙の意味を解読する上で重要な役割を担っている。
そこで我々は,現実的な推論と会話理解の場所に関するマシンの能力のベンチマークを目的とした,新しい挑戦であるDiPlomatを紹介した。
論文 参考訳(メタデータ) (2023-06-15T10:41:23Z) - A semantically enhanced dual encoder for aspect sentiment triplet
extraction [0.7291396653006809]
アスペクト・センチメント・トリプルト抽出(ASTE)はアスペクト・ベースの感情分析(ABSA)の重要なサブタスクである
従来の研究は、革新的なテーブル充填戦略によるASTEの強化に重点を置いてきた。
本稿では,BERTをベースとした基本エンコーダと,Bi-LSTMネットワークとGCN(Graph Convolutional Network)で構成される特定のエンコーダの両方を利用するフレームワークを提案する。
ベンチマークデータセットを用いた実験により,提案フレームワークの最先端性能を実証した。
論文 参考訳(メタデータ) (2023-06-14T09:04:14Z) - Type-enhanced Ensemble Triple Representation via Triple-aware Attention
for Cross-lingual Entity Alignment [12.894775396801958]
TTEA -- Triple-aware Attention for Cross-lingual Entityアライメントによる型付きアンサンブルトリプル表現を提案する。
我々のフレームワークは三重要素の役割の多様性をモデル化するために三重要素の強化を利用する。
我々のフレームワークは、3つの実世界の言語間データセットの実験において最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2023-05-02T15:56:11Z) - Understanding and Constructing Latent Modality Structures in Multi-modal
Representation Learning [53.68371566336254]
優れたパフォーマンスの鍵は、完全なモダリティアライメントではなく、有意義な潜在モダリティ構造にある、と我々は主張する。
具体的には,1)モダリティ内正規化のための深い特徴分離損失,2)モダリティ間正規化のためのブラウン橋損失,3)モダリティ内正規化およびモダリティ間正規化のための幾何学的整合損失を設計する。
論文 参考訳(メタデータ) (2023-03-10T14:38:49Z) - TAGPRIME: A Unified Framework for Relational Structure Extraction [71.88926365652034]
TAGPRIMEは、与えられた条件に関する情報を入力テキストに追加するシーケンスタグ付けモデルである。
事前学習された言語モデルにおける自己認識機構により、プライミングワードは、出力された文脈化された表現に、与えられた条件に関するより多くの情報を含む。
5つの異なる言語にまたがる10のデータセットをカバーする3つのタスクに関する大規模な実験と分析は、TAGPRIMEの汎用性と有効性を示している。
論文 参考訳(メタデータ) (2022-05-25T08:57:46Z) - Context-Aware Interaction Network for Question Matching [51.76812857301819]
本研究では,二つのシーケンスを整合させ,それらの意味関係を推定する文脈認識インタラクションネットワーク(coin)を提案する。
具体的には,(1)コンテキスト情報を効果的に統合するためのコンテキスト対応のクロスアテンション機構,(2)整列表現を柔軟に補間するゲート融合層を備える。
論文 参考訳(メタデータ) (2021-04-17T05:03:56Z) - Within-Document Event Coreference with BERT-Based Contextualized
Representations [1.0152838128195465]
イベントコアファレンスは情報抽出の難しい問題であり続けている。
近年の文脈化言語表現の進歩は多くのタスクで成功している。
本稿では、予め訓練されたBERTモデルから派生した表現を用いて神経分類器を訓練し、コアファレンスチェーンを作成する3つの部分のアプローチを提案する。
論文 参考訳(メタデータ) (2021-02-15T21:12:43Z) - Topic-Aware Multi-turn Dialogue Modeling [91.52820664879432]
本稿では,トピック認識発話を教師なしでセグメント化して抽出する,多元対話モデリングのための新しいソリューションを提案する。
トピック・アウェア・モデリングは、新たに提案されたトピック・アウェア・セグメンテーション・アルゴリズムとトピック・アウェア・デュアル・アテンション・マッチング(TADAM)ネットワークによって実現されている。
論文 参考訳(メタデータ) (2020-09-26T08:43:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。