論文の概要、ライセンス

# (参考訳) DGA-Net Dynamic Gaussian Attention Network for Semantic Matching [全文訳有]

DGA-Net Dynamic Gaussian Attention Network for Sentence Semantic Matching ( http://arxiv.org/abs/2106.04905v1 )

ライセンス: CC BY 4.0
Kun Zhang, Guangyi Lv, Meng Wang, and Enhong Chen(参考訳) 文意味マッチングにはエージェントが2つの文間の意味的関係を決定する必要があるが、近年では表現学習技術の進歩や人間の行動のインスピレーションによって進歩が進んでいる。 これらの手法の中で、注意機構は重要な部分を効果的に選択することで重要な役割を果たす。 しかし、現在の注意法は静的な方法で重要な部分すべてに焦点を当てるか、1つの注意ステップで1つの重要な部分だけを動的に選択する。 そこで本稿では,現在の静的および動的アテンション手法の利点を組み合わせるために,新しい動的ガウス注意ネットワーク(DGA-Net)を設計する。 具体的には、まず事前訓練された言語モデルを用いて入力文を符号化し、大域的な視点から意味表現を構築する。 次に,動的ガウス的注意力(dga)を開発し,その重要部分と対応する局所的文脈を,詳細な視点から動的に把握する。 最後に,グローバル情報と詳細なローカル情報を組み合わせて,文の意味関係を包括的かつ正確に決定する。 2つの一般的な文意味マッチングタスクに関する大規模な実験により,提案したDGA-Netが注意機構の能力向上に有効であることを実証した。

Sentence semantic matching requires an agent to determine the semantic relation between two sentences, where much recent progress has been made by the advancement of representation learning techniques and inspiration of human behaviors. Among all these methods, attention mechanism plays an essential role by selecting important parts effectively. However, current attention methods either focus on all the important parts in a static way or only select one important part at one attention step dynamically, which leaves a large space for further improvement. To this end, in this paper, we design a novel Dynamic Gaussian Attention Network (DGA-Net) to combine the advantages of current static and dynamic attention methods. More specifically, we first leverage pre-trained language model to encode the input sentences and construct semantic representations from a global perspective. Then, we develop a Dynamic Gaussian Attention (DGA) to dynamically capture the important parts and corresponding local contexts from a detailed perspective. Finally, we combine the global information and detailed local information together to decide the semantic relation of sentences comprehensively and precisely. Extensive experiments on two popular sentence semantic matching tasks demonstrate that our proposed DGA-Net is effective in improving the ability of attention mechanism.
公開日: Wed, 9 Jun 2021 08:43:04 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
1 2 0 2 n u J 1 2 0 2 n u J 0.85
9 ] L C . s c [ 9 ]LC。 sc [ 0.60
1 v 5 0 9 4 0 1 v 5 0 9 4 0 0.85
. 6 0 1 2 : v i X r a . 6 0 1 2 : v i X r a 0.85
DGA-Net: Dynamic Gaussian Attention Network for DGA-Net:動的ガウス注意ネットワーク 0.83
Sentence Semantic Matching Kun Zhang1,2(cid:63), Guangyi Lv3, Meng Wang1,2, and Enhong Chen3 文の意味マッチング Kun Zhang1,2(cid:63), Guangyi Lv3, Meng Wang1,2, Enhong Chen3 0.74
1 Key Laboratory of Knowledge Engineering with Big Data, Hefei University of Technology, Hefei University of Technology, 1 Key Laboratory of Knowledge Engineering with Big Data 0.78
China 2 School of Computer Science and Information Engineering, Hefei University of Technology, 中国 Hefei University of Technology, 2 School of Computer Science and Information Engineering (英語) 0.82
3 School of Computer Science and Technology, University of Science and Technology of 3th School of Computer Science and Technology, University of Science and Technology 0.84
China {zhang1028kun, eric.mengwang}@gmail.com 中国 zhang1028kun, eric.mengwang}@gmail.com 0.73
{gylv, cheneh}@mail.ustc.edu.cn gylv, cheneh}@mail.ustc.edu.cn 0.70
China, China Abstract. 中国、中国、 抽象。 0.76
Sentence semantic matching requires an agent to determine the semantic relation between two sentences, where much recent progress has been made by advancement of representation learning techniques and inspiration of human behaviors. 文意味マッチングにはエージェントが2つの文間の意味的関係を決定する必要があるが、近年の進歩は表現学習技術の進歩と人間の行動のインスピレーションによってなされている。 0.66
Among all these methods, attention mechanism plays an essential role by selecting important parts effectively. これらの手法の中で、注意機構は重要な部分を効果的に選択することで重要な役割を果たす。 0.57
However, current attention methods either focus on all the important parts in a static way or only select one important part at one attention step dynamically, which leaves a large space for further improvement. しかし、現在の注意法は静的な方法で重要な部分すべてに焦点を当てるか、1つの注意ステップで1つの重要な部分だけを動的に選択する。 0.65
To this end, in this paper, we design a novel Dynamic Gaussian Attention Network (DGA-Net) to combine the advantages of current static and dynamic attention methods. そこで本稿では,現在の静的および動的アテンション手法の利点を組み合わせるために,新しい動的ガウス注意ネットワーク(DGA-Net)を設計する。 0.80
More specifically, we first leverage pre-trained language model to encode the input sentences and construct semantic representations from a global perspective. 具体的には、まず事前訓練された言語モデルを用いて入力文を符号化し、大域的な視点から意味表現を構築する。 0.59
Then, we develop a Dynamic Gaussian Attention (DGA) to dynamically capture the important parts and corresponding local contexts from a detailed perspective. 次に,動的ガウス的注意力(dga)を開発し,その重要部分と対応する局所的文脈を,詳細な視点から動的に把握する。 0.70
Finally, we combine the global information and detailed local information together to decide the semantic relation of sentences comprehensively and precisely. 最後に,グローバル情報と詳細なローカル情報を組み合わせて,文の意味関係を包括的かつ正確に決定する。 0.84
Extensive experiments on two popular sentence semantic matching tasks demonstrate that our proposed DGA-Net is effective in improving the ability of attention mechanism. 2つの一般的な文意味マッチングタスクに関する大規模な実験により,提案したDGA-Netが注意機構の能力向上に有効であることを実証した。 0.55
1 Introduction Sentence semantic matching is a long-lasting theme of Natural Language Processing (NLP), which requires an agent to determine the semantic relations between two sentences. 1 はじめに 文意味マッチングは自然言語処理(NLP)の長いテーマであり、エージェントが2つの文間の意味的関係を決定する必要がある。 0.71
For example, in Natural Language Inference (NLI), it is used to determine whether a hypothesis can be inferred reasonably from a given premise [15]. 例えば、自然言語推論(NLI)では、仮説が所定の前提[15]から合理的に推論できるかどうかを決定するために用いられる。 0.79
In Paraphrase Identification (PI), it is utilized to identify whether two sentences express the same meaning or not [9]. パラフレーズ識別(PI)では、2つの文が同じ意味を表わすかどうかを識別するために用いられる。 0.74
Fig 1 gives us two representative examples of NLI and PI. 図1は NLI と PI の2つの代表的な例を示します。 0.66
As a fundamental technology, sentence semantic matching has been applied successfully in many NLP fields, e g , information retrieval [7,26], question answering [18], 基本技術として,多くのNLP分野,例えば情報検索[7,26],質問応答[18]において文意味マッチングが成功している。 0.80
(cid:63) Corresponding Author (cid:63)対応する著者 0.65
英語(論文から抽出)日本語訳スコア
2 Kun et al 2 Kun et al 0.85
Fig. 1. Two example from different sentence semantic matching datasets (colored words are the important parts that need attention). フィギュア。 1. 異なる文意味マッチングデータセットからの2つの例(色の単語は注意を必要とする重要な部分である)。 0.65
and dialog system [24]. 対話システム[24]です 0.54
With advanced representation learning techniques [8,11,31], numerous efforts have been dedicated to this task, where the dominant trend is to build complex structures with attention. 高度な表現学習技術 [8,11,31] では,この課題に多くの努力が払われてきた。
訳抜け防止モード: 高度な表現学習技術 [8,11,31 ] により, この課題に多くの努力が注がれている。 注目された複雑な構造を構築する傾向にあります
0.71
For example, self-attention [28] can generate better representations by relating elements at different positions in a single sentence. 例えば、[28]は一文中の異なる位置にある要素を関連付けることで、より良い表現を生成することができる。 0.66
Coattention [15,34] focuses on sentence interaction from a detailed perspective. Coattention [15,34]は、詳細な観点からの文の相互作用に焦点を当てている。 0.55
Dynamic re-read attention [35] is able to select the important parts in a dynamic way based on learned information. 動的再読注意[35]は、学習情報に基づいて動的に重要な部分を選択することができる。 0.85
They all help to achieve impressive performance. 彼らはすべて素晴らしいパフォーマンスを達成するのに役立ちます。 0.57
However, most work either focuses on all the important parts in a static way [3] or only selects one important part at each selection in a dynamic way [35]. しかし、ほとんどの作業は静的な[3]方法で重要な部分すべてに焦点を当てるか、動的な[35]方法で選択するごとに重要な部分だけを選択します。 0.76
They either are incapable of adapting to dynamic changes during the sentence understanding process or ignore the importance of local structures. 文理解過程において動的変化に適応できないか、あるいは局所構造の重要性を無視できる。
訳抜け防止モード: 彼らにはできないか 文理解過程における動的変化への適応 あるいは、ローカル構造の重要性を無視する。
0.80
For example, in Fig 1, colored words illustrate the focus points. 例えば、図1では、色付きの単語が焦点ポイントを表しています。 0.68
When selecting the important parts as the static attention methods do, the representations of two sentences may be similar since many of the important words are the same (e g ,woman, shirt). 静的注意法で重要な部分を選択する場合、重要な単語の多くは同じ(例えば、女性、シャツ)ため、2つの文の表現は似ている可能性がある。 0.77
When employing the dynamic attention methods [35], the attributes of the selected parts may be missed since dynamic methods only select one important word at each step and ignore the local contexts (e g ,woman with purple shirt, woman with blue shirt). ダイナミックアテンション法[35]を用いる場合、ダイナミックメソッドが各ステップで1つの重要な単語だけを選択し、ローカルコンテキスト(例えば、紫のシャツの女性、青のシャツの女性)を無視しているため、選択された部品の属性を見逃すことができる。 0.74
All these will lead to a wrong decision. これらすべてが間違った判断につながるでしょう。 0.69
Therefore, how to leverage attention mechanism to select proper information for precise sentence semantic understanding and matching is the main challenge that we need to consider. したがって,注意機構を活用して正確な文の意味理解とマッチングのための適切な情報を選択することは,検討すべき課題である。 0.70
To this end, in this paper, we propose an effective Dynamic Gaussian Attention Network (DGA-Net) approach to combine the advantages of current static and dynamic attention methods. そこで本稿では,現在の静的注意法と動的注意法を組み合わせた効果的な動的ガウス的注意ネットワーク(dga-net)手法を提案する。 0.79
In concerned details, we first utilize pre-trained BERT to model the semantic meanings of input words and sentences globally. まず,事前学習したBERTを用いて,入力語や文の意味を世界規模でモデル化する。 0.55
Based on the dynamic attention mechanism and Gaussian distribution, we develop a novel Dynamic Gaussian Attention (DGA) to pay close attention to one important part and corresponding local contexts among sentences at each attention step simultaneously. ダイナミックアテンション機構とガウス分布に基づいて,各アテンションステップにおける文の1つの重要な部分と対応するローカルコンテキストに,同時に注目する新しい動的ガウスアテンション(DGA)を開発する。 0.69
Along this line, we can not only focus on the most important part of sentences dynamically, but also use the local context to support the understanding of these selected parts precisely. この線に沿って、文の最も重要な部分を動的にフォーカスするだけでなく、ローカルコンテキストを使ってこれらの選択された部分の理解を正確にサポートする。 0.72
Extensive evaluations on two popular sentence semantic matching tasks (i.e., NLI and PI) demonstrate the effectiveness of our proposed DGA-Net method and its advantages over state-of-the-art sentence encoding-based baselines. 2つの一般的な文意味マッチングタスク(NLIとPI)の広範囲な評価は、提案手法の有効性と最先端の文エンコーディングベースラインに対する利点を示している。 0.69
2 Related Work With the available large annotated datasets, such as SNLI [1], SCITAIL [14], and Quora Question Pair [13], as well as various neural networks, such as LSTM [4], GRU [6], and 2 関連作業 SNLI [1]、SCITAIL [14]、Quora Question Pair [13]のような利用可能な大規模なアノテートデータセットに加えて、LSTM [4]、GRU [6]といったさまざまなニューラルネットワークも利用可能である。 0.73
NLI examplep: A womanwith purple shirtis paintingan image of a womanwith a blue shirt.h: A womanwith blue shirtpaintsa portrait of a personwith shirt. NLI例:紫のシャツを塗った女性、青のシャツを塗った女性、青のシャツを塗った女性。 0.64
(Contradiction):PI example:a:What are good ways to createa dashboard for my data in metabase?b: What are some good ways to createthe look of an app in powerpoint? (対照的):PIの例:a:メタベースでデータ用のダッシュボードを作成するには,どのようなよい方法がありますか?b: パワーポイントでアプリのルックアップを作成するには,どのような方法がありますか?
訳抜け防止モード: (矛盾)pi例 : a : what metabaseで私のデータのためのダッシュボードを作る良い方法はありますか? infoq: powerpointでアプリの外観を作るには、どのような良い方法がありますか?
0.78
(No) (no) 0.74
英語(論文から抽出)日本語訳スコア
DGA-Net for Sentence Semantic Matching 文意味マッチングのためのDGA-Net 0.59
3 attention mechanism [22,28,35,36,37], plenty of methods have been developed to represent and evaluate sentence semantic meanings. 3 注意機構 [22,28,35,36,37] 文の意味を表現し評価するための手法が数多く開発されている。 0.73
Among all methods, attention mechanism has become the essential module, which helps models capture semantic relations and properly align the elements of sentences. すべての手法の中で、注意機構が重要なモジュールとなり、モデルが意味的関係を捉え、文の要素を適切に整合させるのに役立つ。 0.60
For example, Liu et al [19] proposed inner-attention to pay more attention to the important words among sentences. 例えば、liu et al [19]は文中の重要な単語にもっと注意を払うよう内部介入を提案した。 0.67
In order to better capture the interaction of sentences, Kim et al [15] utilized co-attention network to model the interaction among sentence pairs. 文同士の相互作用をよりよく捉えるために,Kimらは共注意ネットワークを用いて文対間の相互作用をモデル化した。 0.72
Moreover, Cho [12] and Shen [25] proposed to utilize multi-head attention to model sentence semantics and interactions from multiple aspects without RNN/CNN structure. さらに,Ch[12] とShen[25] は,RNN/CNN構造を使わずに,複数の側面からの文の意味や相互作用をモデル化するための多面的注意の活用を提案した。 0.61
They took full advantage of attention mechanism for better sentence semantic modeling and achieved impressive performance on sentence semantic matching task. 彼らは、より優れた文意味モデリングのための注意機構をフル活用し、文意味マッチングタスクにおける印象的なパフォーマンスを実現した。
訳抜け防止モード: 彼らはより優れた文意味モデリングのための注意機構を最大限に活用した 文意味マッチングタスクで 素晴らしいパフォーマンスを達成しました
0.56
Despite the success of using attention mechanism in a static way, researchers also learn from human behaviors and propose dynamic attention methods. 静的な注意機構の使用の成功にもかかわらず、研究者は人間の行動から学び、動的注意法を提案する。 0.73
By conducting a lab study, Zheng et al [38] observed that users generally read the document from top to bottom with the reading attention decays monotonically. 実験室での研究により、Zhengら[38]は、ユーザーが一般的に文書を上から下まで読み、読み上げ注意が単調に減衰するのを観察した。 0.65
Moreover, in a specific scenario (e g , Answer Selection), users tend to pay more attention to the possible segments that are relevant to what they want. さらに、特定のシナリオ(例えば、回答の選択)では、ユーザは、自分が望むものに関連する可能性のあるセグメントにもっと注意を払う傾向がある。 0.76
They will reread more snippets of candidate answers with more skip and up transition behaviors, and ignore the irrelevant parts [17]. 候補の回答のスニペットをより多くのスキップとアップの移行動作で読み上げ、無関係な部分[17]を無視します。 0.60
Furthermore, Zhang et al [35] designed a novel dynamic re-read attention to further improve model performance. さらに、zhang氏ら[35]は、モデルパフォーマンスをさらに向上させるために、新しい動的再読点をデザインした。 0.60
They tried to select one important word at each attention calculation and repeated this operation for precise sentence semantic understanding. 彼らは各注意計算で一つの重要な単語を選択し、この操作を繰り返して正確な文の意味理解を試みた。 0.63
However, static attention methods select all the important parts at one time, which may lead to a misunderstanding of sentence semantics since there are too many similar but semantically different important parts. しかし,静的アテンション法は,すべての重要な部分を一度に選択するので,類似しているが意味的に異なる重要な部分が多すぎるため,文意味論の誤解を招く可能性がある。 0.70
Dynamic methods only select one important part at each operation, which may lose some important attributes of the important parts. 動的メソッドは各操作において重要な部分のみを選択し、重要な部分の重要な属性を失う可能性がある。 0.77
Thus, we propose a DGA-Net to select the important parts and corresponding local context in sentences for better sentence semantic understanding and matching. そこで本稿では,文中の重要な部分とそれに対応する局所的コンテキストを選択するためのDGA-Netを提案する。 0.72
3 Problem Statement and Model Structure 3 問題ステートメントとモデル構造 0.79
In this section, we formulate the NLI task as a supervised classification problem and introduce the structure and technical details of our proposed DGA-Net. 本稿では,NLIタスクを教師付き分類問題として定式化し,提案するDGA-Netの構造と技術的詳細を紹介する。 0.73
3.1 Problem Statement } First, we define our task in a formal way. 3.1 問題ステートメント } まず、タスクを正式な方法で定義します。 0.80
Given two sentences sa = {wa 2 , ..., wa la }. sa = {wa 2 , ..., wa la } という2つの文が与えられる。 0.66
Our goal is to learn a classifier ξ which is able to precisely and sb = {wb predict the relation y = ξ(sa, sb) between sa and sb. 我々のゴールは、正確に sb = {wb で y = y(sa, sb) と sb の関係を予測できる分類器を学習することである。 0.74
Here, wa j are one-hot vectors which represent the ith and jth word in the sentences. ここで wa j は文中の ith と jth の単語を表す 1-ホットベクトルである。 0.77
la and lb indicate the total number of words in sa and sb, respectively. la と lb はそれぞれ sa と sb の単語の総数を示す。 0.68
i and wb 1 , wa 私とwbは 1 , wa 0.69
1, wb 2, ..., wb lb 1、wb 2, ..., wb lb 0.70
In order to model sentence semantic meanings more precisely and comprehensively, 文の意味をより正確に包括的にモデル化するために 0.68
the following important challenge should be considered: 重要な課題は次のとおりである。 0.64
– How to overcome the shortcomings of static and dynamic attention methods, and leverage attention operation to select proper information for precise sentence semantic understanding and matching? -静的・動的注意法の欠点を克服し、注意操作を利用して正確な文意味理解とマッチングのための適切な情報を選択する方法。 0.77
英語(論文から抽出)日本語訳スコア
4 Kun et al 4 Kun et al 0.85
Fig. 2. Architecture of Dynamic Gaussian Attention Network (DGA-Net). フィギュア。 2. Dynamic Gaussian Attention Network (DGA-Net) のアーキテクチャ。 0.71
To this end, we propose a novel Dynamic Gaussian Attention Network (DGA-Net) to そこで本稿では,動的ガウス注意ネットワーク(DGA-Net)を提案する。 0.83
tackle the above issue and doing better sentence semantic matching. 上記の問題に取り組み 文のセマンティックマッチングを改善します 0.57
3.2 Dynamic Gaussian Attention Network 3.2 dynamic gaussian attention network 0.82
The overall architecture of DGA-Net is shown in Figure 2, which consists of three main components: 1) Input Processing: utilizing pre-train BERT to generate the extravagant representation of input words; 2) Dynamic Gaussian Attention: selecting one important part and proper local structure at each step and dynamically reading these contextual parts with all learned information; 3) Label Prediction: predicting the final results based on the expanded semantic representations. DGA-Netの全体的なアーキテクチャは図2で示される: 入力処理: 事前訓練されたBERTを使用して入力語の外乱表現を生成する; 2) 動的ガウス的注意: 各ステップで重要な部分と適切な局所構造を選択し、これらのコンテキストを全ての学習情報で動的に読み取る; 3) ラベル予測: 拡張された意味表現に基づいて最終結果を予測する。 0.84
Input Processing By making full use of large corpus and multi-layer transformers, BERT [8] has accomplished much progress in many natural language tasks and become a powerful tool to process the raw input sentences. 入力処理 大規模なコーパスと多層変換器をフル活用することにより,BERT [8] は多くの自然言語処理において多くの進歩を遂げ,生の入力文を処理する強力なツールとなった。
訳抜け防止モード: 大規模コーパスとマルチ層トランスフォーマのフル活用による入力処理 bert [8 ]は多くの自然言語タスクで大きな進歩を遂げました 生の入力文を処理する強力なツールになります
0.85
Therefore, we also employ BERT to encode the input sentences. したがって,入力文の符号化にはbertを用いる。 0.60
In order to make full use of BERT and encode sentence comprehensively, we use the weighted sum of all the hidden states from different transformer layers of BERT as the final contextual representations of input sentences. BERTをフル活用し,文を包括的にエンコードするために,入力文の最終的な文脈表現として,BERTの異なるトランスフォーマー層からの隠蔽状態の重み付け和を用いる。 0.79
Specifically, the input sentence sa = {wa } 2, ..., wb lb will be split into BPE tokens [23]. 具体的には、入力文 sa = {wa } 2, ..., wb lb は bpe トークン [23] に分割される。 0.75
Then, we leverage a special token “[SEP]” to concatenate two sentences and add “[CLS]” token at the beginning and the end of concatenated sentences. 次に、特別なトークン“[SEP]”を利用して、2つの文を連結し、連結された文の開始と終了に“[CLS]”トークンを追加する。 0.76
As illustrated in Fig 2(A), suppose the final number of tokens in the sentence pair is lab, and BERT generates L hidden states for each BPE token t , (1 ≤ l ≤ L, 1 ≤ t ≤ lab). 図2(A)に示すように、文対における最後のトークン数は実験室であり、BERT は各 BPE トークン t , (1 ≤ l ≤ L, 1 ≤ t ≤ lab) に対して L の隠れ状態を生成する。 0.85
The contextual representation for tth token in BERT l input sentence pair at token level is then a per-layer weighted sum of transformer block output, with weights α1, α2, ..., αL. トークンレベルでの bert l 入力文対における tth トークンの文脈表現は、ウェイト α1, α2, ..., αl を持つトランスフォーマーブロック出力の層ごとの重み付き和である。 0.78
} and sb = {wb } と sb = {wb 0.83
1, wb 1 , wa 1、wb 1 , wa 0.76
2 , ..., wa la 2 , ..., wa la 0.73
L(cid:88) l=1 l(cid:88) l=1 0.67
ht = αlBERT l t , ht = αlBERT l t , 0.92
1 ≤ t ≤ lab, 1 ≤ t ≤ lab である。 0.82
(1) Weighted SumOperation(A) Input Processing(A)Dynamic Gaussian Attention (DGA)(B)Label Prediction(C)Pre-Tra ined BERT (base)2bwPooling and Matching(|(,))abPyssghGRUGRUGR UDGA UnitDGA UnitDGA Unit1cCLS1aw2awaalwS EP1bwCLSbblwWeighted Sum OperationGRUDGA UnitGRU1h2halh2alh3alh1alhablhDynamic Gaussian Attention (B)2c3cTcTransformer blockTransformer blockTransformer block12L12,...,ablhhh,tc121,,...,,..,aaabl llhhhhhAttention UnitGaussian DistributionPosition GenerationMultiplica tionght1h1h2h1Th (1) Weighted SumOperation(A) Input Processing(A)Dynamic Gaussian Attention (DGA)(B)Label Prediction(C)Pre-Tra ined BERT (base)2bwPooling and Matching(|(,))abPysghGRUGRUDGA UnitDGA UnitDGA UnitDGA UnitDGA Unit1cCLS1aw2awaalwS EP1bwCLSbblwWeighted Sum OperationGRUDGA UnitGRU1h2halh2alh.3 alh.1alh.1alh.ablhDy namic Gaussian Attention (B)2c3cTcTransformer blockTransformer blockTransformer blockS1.1cTcTcTcTran sformer blockTransformer blockTransformer blockAlformer blockS1h1h1h,h1h,hhh ,a.h.h.h.h.h.h.1h.1h .h.1h.1h.1h.
訳抜け防止モード: (1) 重み付きSumOperation(A)入力処理(A)Dynamic Gaussian Attention(DGA)(B)Lab el Prediction(C)Pre - Trained BERT(base)2bwPooling And Matching(|(,))abPyssghGRUGRUDG A UnitDGA UnitDGA UnitDGA UnitDGA UnitD1cCLS1aw2awaalw SEP1bwCLSbblwWeighte d Sum OperationGRUDGA UnitGRU1h2halh2alh2a lh.3alh.1alh.ablhDyn amic Gaussian Attention (B)2c3cTcTransformer BlockTransformer BlockTransformer BlockUl.1,ablhh,tc12 , ... ,ablhhhhhhhhhh.Att UnitGaussian DistributionPoitionM ultiplicationMultih1 h1hh2hhhhhhhhhhhhhhh hh.At UnitGausian DistributionPoition
0.74
英語(論文から抽出)日本語訳スコア
DGA-Net for Sentence Semantic Matching 文意味マッチングのためのDGA-Net 0.59
5 where αl is the weight for the lth layer in BERT and will be learned during the training. 5 ここで αl は bert の lth 層の重みであり、訓練中に学習される。 0.73
ht is the representation for the tth token. ht は t 番目のトークンの表現である。 0.66
Moreover, we treat the output BERT L 0 of the first special token “[CLS]” in the last block as the contextual representation hg for input sentences globally. さらに、最後のブロックの「[CLS]”」の最初の特別なトークンの出力BERT L 0を、世界規模の入力文の文脈表現hgとして扱う。 0.67
Along this line, we can model the semantic meanings of words and sentences comprehensively, which lays a good foundation for subsequent study. この線に沿って、単語や文の意味を包括的にモデル化することができ、これがその後の研究の基盤となる。 0.58
Fig. 3. The processing of Dynamic Gaussian Attention (DGA) calculation. フィギュア。 3. 動的ガウス注意(DGA)計算の処理 0.62
Dynamic Gaussian Attention As introduced in Section 1, static attention methods select all the important parts at one time, which may lead to a misunderstanding of sentence semantic meanings since there are too many similar but semantically different important parts. 動的ガウス的注意 第1節で紹介されたように、静的注意法は、全ての重要な部分を一度に選択する。
訳抜け防止モード: 動的ガウス的注意 第1節で紹介された静的注意法は、一度にすべての重要な部分を選択する。 文の意味の意味を誤解させます 類似点が多すぎるが、意味的に重要な部分が異なる。
0.68
Meanwhile, dynamic attention methods [35] try to select one important part at step, which can alleviate the problem that static attention methods suffer from. 一方,動的注意手法 [35] は,静的注意手法が抱える問題を軽減するために,段階的に重要な部分を選択する。 0.81
However, it still causes the model to lose some important attributes of important parts and lead to an incorrect result. しかし、それでもモデルが重要な部分のいくつかの重要な属性を失い、誤った結果をもたらす。 0.74
Therefore, it is crucial to employ attention mechanism in a proper way for better sentence semantic understanding and matching. したがって、文章の意味理解とマッチングを改善するためには、適切な方法で注意機構を採用することが不可欠である。
訳抜け防止モード: それゆえ 重要なのは 文章の意味理解とマッチングを改善するための適切な方法で注意機構を用いる。
0.75
Inspired by previous work [35,38] and Gaussian distribution, we design a novel Dynamic Gaussian Attention (DGA) unit to select the important part and proper local context simultaneously. 先行研究 [35,38] とガウス分布に着想を得て, 重要な部分と適切な局所文脈を同時に選択する新しい動的ガウス的注意(dga)ユニットを設計した。 0.70
Fig 2(B) and Fig 3 illustrate the entire processing of DGA calculation. 図2(B)と図3は、DGA計算の全体処理を示しています。 0.73
During each DGA operation, we first calculate the attention weight among input sequence. 各DGA操作において、まず、入力シーケンス間の注意重みを算出する。 0.68
Meanwhile, we leverage a position generation method G(·) to predict the focus point, which can be visualized as the yellow bar in Fig 3. 一方、位置生成法g(·)を用いてフォーカスポイントを予測し、図3ではイエローバーとして可視化できる。 0.68
Then, we generate a Gaussian distribution with the focus point as the center. 次に、焦点点を中心とするガウス分布を生成する。 0.59
Next, we multiply the attention weight and Gaussian distribution to get the DGA result. 次に、注意重みとガウス分布を乗算してDGA結果を得る。 0.65
Along this line, the attention weights of the words that are close to the important part will be preserved, and the rest will be discarded. この線に沿って、重要な部分に近い単語の注意重みが保存され、残りは破棄される。 0.60
In other words, we can focus on the important part and corresponding local context for better semantic understanding. 言い換えれば、重要な部分とそれに対応するローカルコンテキストに注目して、セマンティック理解を改善することができる。 0.62
Inspired by DRr-Net [35], we also repeat DGA operation many times for the final decision. DRr-Net[35]にインスパイアされ、最終決定のために何度もDGA操作を繰り返す。 0.64
Specifically, DGA unit treats {hi|i = 1, 2, ..., lab} as the inputs, and produces an important position pt at attention step t. The representation ct for this position is derived as a weighted summation over the inputs within the window [pt − D 2 ]; D is the window size. 具体的には、DGA ユニットは入力として {hi|i = 1, 2, ..., lab} を扱い、注意ステップ t において重要な位置 pt を生成する。
訳抜け防止モード: 具体的には、dga単位は { hi|i = 1, 2, 2, } を扱う。 この位置の表現 ct は、ウィンドウ [pt − d 2 ] 内の入力の重み付け和として導出される。 dはウィンドウサイズです。
0.59
Since we select these important parts in a sequential manner, GRU is adopted to encoder these important parts. これらの重要な部分を逐次的に選択するため、GRUはこれらの重要な部分をエンコーダとして採用する。 0.61
This process can be formulated as follows: この過程は次のように定式化できる。 0.57
2 , pt + D 2 , pt + D 0.85
H = [h1, h2, ..., hlab ], ct = F(pt, H, ¯ht−1, hg), H = [h1, h2, ..., hlab ], ct = F(pt, H, sht−1, hg) 0.87
(2) where G(·) is position generation function. (2) G(·) は位置生成関数である。 0.76
F(·) denotes DGA function. F(·) は DGA 関数を表す。 0.88
T is the dynamic attention length. Tは動的注意長である。 0.79
In order to take global information into consideration, we also treat the global representation hg as an additional context in G(·) and F(·). グローバルな情報を考慮に入れるため、グローバルな表現 hg を G(·) および F(·) における追加の文脈として扱う。 0.77
¯hT can be regarded as the dynamic locally-aware representation for the input sentence pair. ht は、入力文対の動的局所認識表現と見なすことができる。 0.64
¯ht = GRU(¯ht−1, ct), sht = GRU( sht−1, ct) 0.74
pt = G(H, ¯ht−1, hg), pt = G(H, sht−1, hg) 0.89
t = 1, 2, ..., T, t = 1, 2, ..., T, 0.77
(A) Attention Weight (B) Gaussian Distribution (C) DGA Result (A)注意重量(B)ガウス分布(C)DGA結果 0.76
英語(論文から抽出)日本語訳スコア
6 Kun et al 6 Kun et al 0.85
lab(cid:88) lab (複数形 labs) 0.59
Different from DRr-Net [35] that treats the word that has biggest weight as the current selection, we intend to use MLP to predict the focus point at current step. 最大重みを持つ単語を現在の選択として扱うDRr-Net[35]と異なり、現在のステップのフォーカスポイントを予測するためにMLPを使用するつもりです。 0.77
More specifically, we utilize position generation function G(·) to generate the important position pt at attention step t as follows: 具体的には、位置生成関数G(·)を用いて注意ステップtにおける重要な位置ptを生成する。 0.75
(W p 1 hi) + W p (Wp) 1 hi) + W p 0.79
¯ht−1 + W p sht−1 + W p 0.77
mt = pt = lab · sigmoid(vT 3 , vp, Up} are trainable parameters. mt = pt = lab · sigmoid(vT 3 , vp, Up} は訓練可能なパラメータである。 0.90
T is transposition operation. where {W p As the result of sigmoid(·) function, pt ∈ [0, lab]. Tは転置操作です。 ここで {Wp は sigmoid(·) 関数の結果であり、pt ∈ [0, lab] である。 0.78
Along this line, we are able to use all the learned information to generate the important position at each attention step. この線に沿って、私たちはすべての学習情報を使用して、各注意ステップで重要な位置を生成することができます。
訳抜け防止モード: この線に沿って、私たちは 学習した全ての情報を使って 各注意ステップで重要な位置を生成する。
0.79
p tanh(Upmt)), p tanh (upmt))) 0.72
1 , W p 2 , W p 1, Wp。 2, Wp。 0.72
3 hg, (3) i=1 3hg (3) i=1 0.65
2 After getting the important position pt, it is urgent to ensure its exact meaning in the sentence, which is in favor of overcoming the issue in section 3.1. 2 ptの重要な地位を得た後、文中のその正確な意味を保証することが急務であり、第3.1節の問題を克服することを優先する。 0.71
Inspired by the observation that adjacent words contribute more for understanding current phrase than distant ones, we develop a novel DGA method by placing a Gaussian distribution centered around pt to further process the attention weights. そこで本研究では,ptを中心にしたガウス分布を配置し,注目重みを更に処理することで,隣接する単語が現在語句の理解に寄与することを示す新しいDGA法を開発した。 0.74
The implementation function F(·) can be formulated as follows: 実装関数 F(·) は次のように定式化できる。 0.75
gt =exp(− (s − pt)2 lab(cid:88) gt =exp(− (s − pt)2 lab(cid:88) 0.98
αa =ωT ¯αa =αa · gt, αa =ωT >αa =αa · gt, 0.61
ct = d tanh(WdH + (Ud ct = d tanh(WdH + (Ud) 0.90
2σ2 ), ¯ht−1 + Mdhg) ⊗ elab ), (cid:80)lab exp(¯αa i ) k=1 exp(¯αa k) 2σ2 ), ht−1 + mdhg) , (cid:80)lab exp(αa i ) k=1 exp(αa k) 0.68
hi, i=1 (4) こんにちわ i=1 (4) 0.62
where {ωd, Wd, Ud, Md} are trainable parameters. ここで {ωd, Wd, Ud, Md} はトレーニング可能なパラメータである。 0.67
gt is Gaussian distribution centered 2 , and elab ∈ Rlab is a row vector of 1. gt は 2 中心のガウス分布であり、elab ∈ Rlab は 1 の行ベクトルである。 0.86
In this operation, we utilize around pt, σ = D the Gaussian distribution to optimize the original attention value αa so that the model can focus on the important position and its corresponding context, capture the local structure of sentences, and represent the sentence semantic more precisely. 本手法では,pt, σ = d付近でガウス分布を用い, モデルが重要な位置とその文脈に焦点を合わせ, 文の局所構造を捉え, 文の意味をより正確に表現できるように元の注意値 αa を最適化する。 0.81
Label Prediction After finishing the dynamic selections, we first adopt attention pooling to fuse all the selected important parts to generate a locally-aware representation ¯h from a detailed perspective as follows: ラベル予測 動的選択の完了後、まず注意プーリングを採用して、選択された重要な部分全てを融合させ、次のような詳細な視点から局所的に認識された表現を生成します。 0.58
¯H = [¯h1, ¯h2, ..., ¯hlab ], αb = ωTtanh(W ¯H + b), すなわち、αb = ωTtanh(W >H + b) である。 0.52
¯hi. (5) lab(cid:88) そうです。 (5) lab (複数形 labs) 0.64
i=1 (cid:80)lab i=1 (cid:80)lab 0.71
exp(αb i ) k=1 exp(αb k) exp(αb i ) k=1 exp(αb k) 0.88
¯h = After getting the locally-aware representation ¯h, we leverage heuristic matching [3] between h generated from a global aspect and ¯h generated from a detailed aspect. ※h= 局所的に認識された表現 sh を得た後、大域的な側面から生成される h と詳細な側面から生成される sh の間のヒューリスティックマッチング [3] を利用する。 0.54
Then we send the result u to a two-layer MLP for final classification. 次に、最終的な分類のために結果 u を2層 MLP に送る。 0.73
This process is formulated as follows: この過程は次のように定式化される。 0.46
u = [hg, ¯h, hg (cid:12) ¯h, ¯h − hg], P (y|(sa, sb)) = MLP(u), u = [hg, ~hh, hg (cid:12) ~h, ~hh − hg], P (y|(sa, sb)) = MLP(u) 0.92
(6) (6) 0.85
英語(論文から抽出)日本語訳スコア
err 翻訳エラー 0.00
英語(論文から抽出)日本語訳スコア
8 Kun et al 8 Kun et al 0.85
Table 2. Experimental Results on Quora and MSRP datasets. 表2。 QuoraおよびMSRPデータセットの実験結果 0.73
Quora MSRP 80.7% 76.4% 78.6% Quora MSRP 80.7% 76.4% 78.6% 0.71
Model (1) CENN [33] (2) MP-CNN [10] 88.2%(3) BiMPM [29] (4) DRCN [15] 90.2% 82.5% (5) DRr-Net [35] 89.7% 82.5% (6) BERT-base [8] 91.1% 84.3% 91.7% 84.5% (7) DGA-Net Model (1) CENN [33] (2) MP-CNN [10] 88.2%(3) BiMPM [29] (4) DRCN [15] 90.2% 82.5% (5) DRr-Net [35]89.7% 82.5% (6) BERT-base [8] 91.1% 84.3% 91.7% 84.5% (7) DGA-Net 0.84
- Table 3. Ablation performance (accuracy) of DGA-Net. - 表3。 dga-netのアブレーション性能(精度) 0.76
Model (1) BERT-base (2) DGA-Net (w/o vector hg) (3) DGA-Net (w/o vector ¯h) (4) DRr-Net (5) Multi-GRU + DGA (6) DGA-Net (w/o local context) (7) DGA-Net Model (1) BERT-base (2) DGA-Net (w/o vector hg) (3) DGA-Net (w/o vector shh) (4) DRr-Net (5) Multi-GRU + DGA (6) DGA-Net (w/o local context) (7) DGA-Net 0.82
SNLI test SICK test SNLIテストSICKテスト 0.69
88.5% 90.3% 83.2% 85.3% 87.5% 89.4% 87.8% 87.5% 88.1% 88.4% 90.5% 88.5% 90.72% 88.36% 88.5% 90.3% 83.2% 85.3% 87.5% 89.4% 87.8% 87.5% 88.1% 88.4% 90.5% 88.5% 90.72% 88.36% 0.60
Dataset. In order to evaluate the model performance comprehensively, we employ two sentence semantic matching tasks: Natural Language Inference (NLI) and Paraphrase Identification (PI) to conduct the experiments. データセット。 モデルの性能を総合的に評価するために,自然言語推論(NLI)とパラフレーズ同定(PI)という2つの文意味マッチングタスクを用いて実験を行った。 0.75
NLI task requires an agent to predict the semantic relation from premise sentence to hypothesis sentence among “Entailment, Contradiction, Neutral”. NLIタスクは、”Entailment, Contradiction, Neutral”の中で、前提文から仮説文への意味的関係を予測するためにエージェントを必要とする。
訳抜け防止モード: NLIタスクにはエージェントが必要です 含意,矛盾,中立」の中で,前提文から仮説文への意味的関係を予測する。
0.70
We select two well-studied and public available datasets: SNLI [1] and SICK [20]. SNLI [1] と SICK [20] の2つのよく研究され、公開されているデータセットを選択します。 0.56
Meanwhile, PI task requires an agent to identify whether two sentences express the same semantic meaning or not. 一方、piタスクでは、エージェントが2つの文が同じ意味を持つかどうかを識別する必要がある。 0.57
For this task, we select Quora [13] and MSRP [9] to evaluate the model performance. このタスクでは,モデル性能を評価するために quora [13] と msrp [9] を選択した。 0.77
4.2 Experiment Results In this section, we will give a detailed analysis about the models and experimental results. 4.2実験結果 本節では,モデルと実験結果について詳細な分析を行う。 0.74
Here, we use Accuracy on different test sets to evaluate the model performance. ここでは,モデル性能を評価するために,異なるテストセットの精度を用いる。 0.83
Performance on SNLI and SICK. SNLIとSICKの性能 0.53
Table 1 reports the results of DGA-Net compared with other published baselines. 表1は、他の公開されたベースラインと比較してDGA-Netの結果を報告します。 0.50
We can observe that DGA-Net achieves highly comparable performance on different NLI test set. DGA-Netは、異なるNLIテストセットにおいて、非常に同等のパフォーマンスを達成する。 0.58
Specifically, we make full use of pre-trained language model to get the comprehensive understanding about the semantic meanings. 具体的には,事前学習した言語モデルを用いて,意味的意味を包括的に理解する。 0.75
This is one of the important reasons that DGA-Net is capable of outperforming other BERT-free models by a large margin. これはDGA-Netが他のBERTフリーモデルよりも大きなマージンで性能を発揮できる重要な理由の1つである。 0.66
Furthermore, we develop a novel DGA unit to further improve the capability of dynamic attention mechanism. さらに,ダイナミックアテンション機構の能力を向上させるため,新しいDGAユニットを開発した。 0.80
Instead of only selecting one important part at each attention operation, DGA can select the important part and proper local context simultaneously at each step. 各注意操作において重要な部分のみを選択する代わりに、DGAは各ステップで重要な部分と適切なローカルコンテキストを同時に選択することができる。 0.73
Therefore, the local context of the sentence can be fully explored, and sentence semantics can be represented more precisely. したがって、文の局所的な文脈を完全に探索することができ、文の意味論をより正確に表現することができる。 0.58
This is another reason that DGA-Net achieves better performance than all baselines, including the BERT-base model. これは、DGA-NetがBERTベースモデルを含むすべてのベースラインよりも優れたパフォーマンスを達成する別の理由である。 0.57
Among all baselines, DRr-Net [35] and DSA [32] are current state-of-the-art methods without BERT. 全てのベースラインの中で、DRr-Net [35] と DSA [32] はBERTのない最先端の手法である。 0.56
DSA [32] modifies the dynamic routing in capsule network and develops a DSA to model sentences. DSA[32]はカプセルネットワークの動的ルーティングを変更し、文をモデル化するDSAを開発する。 0.71
It utilizes CNN to capture the local context information and encodes each word into a meaningful representation space. CNNを利用してローカルコンテキスト情報をキャプチャし、各単語を意味のある表現空間にエンコードする。 0.76
DRr-Net adopts multi-layer GRU to encode the sentence semantic meanings from a global perspective and designs a dynamic re-read attention to select one important part at each attention step for detailed sentence semantic modeling. DRr-Netは、多層GRUを用いて、グローバルな視点から文の意味を符号化し、動的再読取を設計し、各注意ステップにおいて重要な部分を選択する。 0.69
They all achieved impressive performances. 彼らはみな印象的なパフォーマンスを成し遂げた。 0.52
However, both RNN and CNN structures have some weaknesses in extracting features or generating semantic representations compared with BERT. しかし、RNNとCNNの構造は、BERTと比較して特徴抽出や意味表現の生成にいくつかの弱点がある。 0.55
We can できるわ 0.62
英語(論文から抽出)日本語訳スコア
DGA-Net for Sentence Semantic Matching 文意味マッチングのためのDGA-Net 0.59
9 observe from Table 1 that the BERT-base model outperforms them by a large margin. 9 Table 1 から BERT ベースのモデルの方が大きなマージンで優れています。 0.77
Meanwhile, their attention operations either select too many important parts at one time or only focus on one important part at each operation, which may lead to a misunderstanding of the sentence semantic meanings. 一方、それらの注意操作は、一度に重要部分の数が多すぎるか、あるいは各操作において重要な部分のみにのみ焦点を合わせている。
訳抜け防止モード: 一方 彼らの注意操作は 一度に 重要な部品を多すぎるか それぞれの操作で重要な部分だけに集中し 意味意味の意味の誤解につながる可能性がある。
0.75
Thus, their performance is not as good as DGA-Net reaches. したがって、彼らのパフォーマンスはDGA-Netほど良くない。 0.82
On the other hand, apart from the powerful encoding ability, BERT still focuses on the importance of words to the sequence and has some weaknesses in distinguishing the exact meanings of sentences. 一方で、強力なエンコーディング能力とは別に、bertは文列に対する単語の重要性に重点を置いており、文の正確な意味を区別する上での弱点がある。
訳抜け防止モード: 一方、強力なエンコーディング能力は別として。 BERTはまだシーケンスに対する単語の重要性に焦点を当てている 文の意味を正確に区別するには弱点があります
0.76
By taking the local context into consideration and leveraging DGA to get the precise meanings of sentences, DGA-Net is able to achieve better performance than BERT. ローカルコンテキストを考慮し、DGAを利用して文の意味を正確に把握することで、DGA-NetはBERTよりも優れたパフォーマンスを実現することができる。 0.63
Performance on Quora and MSRP. QuoraとMSRPのパフォーマンス。 0.74
Besides NLI task, we also select PI task to better evaluate the model performance on sentence semantic similarity identification. また,NLIタスクの他に,文の意味的類似性識別に基づくモデル性能評価のためのPIタスクを選択する。 0.68
Table 2 illustrates the experimental results on Quora and MSRP datasets. 表2はQuoraとMSRPデータセットの実験結果を示している。 0.71
Different from the results on NLI datasets, our proposed DGA-Net achieves the best performance compared with other baselines on both test sets, revealing the superiority of our proposed DGA-Net. NLIデータセットと異なり、提案したDGA-Netは、両テストセットの他のベースラインと比較して最高の性能を達成し、提案したDGA-Netの優位性を明らかにした。 0.61
Besides, we can obtain that almost all the methods have better performance on Quora dataset and the improvement of our proposed DGA-Net on Quora dataset is also larger than the improvement on MSRP dataset. さらに,Quoraデータセット上では,ほぼすべてのメソッドのパフォーマンスが向上しており,提案したQuoraデータセット上でのDGA-Netの改善もMSRPデータセットよりも大きいことがわかった。 0.68
Quora dataset [13] has more than 400k sentence pairs, which is much larger than MSRP dataset. Quoraデータセット[13]は400k以上の文ペアを持ち、MSRPデータセットよりもはるかに大きい。 0.77
Large data is capable of helping to model to better analyze the data and get close to the upper bound of the performance. 大規模データは、データをよりよく分析し、パフォーマンスの上限に近づくためにモデルを作成するのに役立ちます。 0.82
Meanwhile, we also speculate that the inter-sentence interactions is probably another possible reason. 一方、文間相互作用はおそらく別の可能性があると推測する。 0.58
Quora dataset contains many sentence pairs with less complicated interactions (e g , many identical words in two sentences) [16]. Quoraデータセットには、より複雑な相互作用の少ない多くの文対が含まれている(例:2つの文で多くの同一の単語) [16]。 0.67
4.3 Ablation Performance 4.3 アブレーション性能 0.72
The overall performance has proven the superiority of DGA-Net. 全体的なパフォーマンスはDGA-Netよりも優れていた。 0.64
However, which part is more important for performance improvement is still unclear. しかしながら、パフォーマンス改善においてどの部分がより重要かはまだ不明である。 0.66
Thus, we conduct an ablation study on two NLI test sets to examine the effectiveness of each component. そこで,2つのNLIテストセットのアブレーション実験を行い,各コンポーネントの有効性を検討した。 0.71
Recall the model structure, two important semantic representations are hg from BERT output and ¯h from DGA output. モデル構造をリコールすると、2つの重要なセマンティック表現はBERT出力のhgとDGA出力のshである。 0.64
As illustrated in Table 3(2)-(3), when we remove the global representation h, we can observe that the model performance has a big drop. 表3(2)-(3)に示すように、大域的な表現hを取り除いた場合、モデルの性能が大きく低下するのが観察できる。 0.68
This result is in line with our intuitive. この結果は私たちの直感的な結果と一致している。 0.46
We should have a comprehensive understanding about the sentence before making a decision. 決定を下す前に、文について包括的に理解すべきである。 0.54
Only the important parts are insufficient for the decision making. 重要な部分だけが意思決定に不十分です。 0.76
Meanwhile, when removing the detailed representation ¯h, model performance is worse than BERT-base model. 一方、詳細な表現を削除した場合、モデル性能はBERTベースモデルよりも悪い。 0.69
we speculate that DGA is in the training process but not in the predicting process, which decreases the model performance. DGAはトレーニングプロセスにあるが、予測プロセスにはないと推測し、モデル性能を低下させる。 0.73
Besides, we investigate the effectiveness of BERT encoder and local context. さらに,BERTエンコーダとローカルコンテキストの有効性を検討した。 0.60
When replacing BERT with multi-layer GRUs, we can observe that its performance is still better than DRr-Net, suggesting the importance of local context utilization. BERTを多層GRUに置き換える場合、その性能はDRr-Netよりも優れており、局所的な文脈利用の重要性が示唆される。 0.71
Meanwhile, its performance is not comparable with BERT-base, let alone the entire DGA-Net, proving the importance of BERT. 一方、その性能はBERTベースに匹敵するものではなく、DGA-Net全体がBERTの重要性を証明している。
訳抜け防止モード: 一方、その性能はBERTに匹敵しない -ベース、もちろんDGA全体 - Net。 BERTの重要性を証明する。
0.72
When removing the local context, the performance of DGA-Net is capable of optimizing the BERT-base model, proving the effectiveness of local context utilization. ローカルコンテキストを除去する場合、DGA-Netの性能はBERTベースモデルを最適化し、ローカルコンテキスト利用の有効性を証明できる。 0.77
In other words, both BERT encoder and local context utilization are indispensable for DGA-Net to achieve better performance. 言い換えれば、BERTエンコーダとローカルコンテキストの利用は、DGA-Netがより良いパフォーマンスを達成するために不可欠である。 0.59
英語(論文から抽出)日本語訳スコア
10 Kun et al 10 Kun et al 0.85
Fig. 4. Performance of DGA-Net with different window sizes (1-6), and attention lengths (1-8). フィギュア。 4. 異なるウィンドウサイズ(1-6)、注目長(1-8)のDGA-Netの性能。 0.68
4.4 Sensitivity of Parameters 4.4 パラメータの感度 0.80
There are two hyper-parameters that affect the model performance: 1) The window size D in DGA unit; 2) The dynamic attention length T in DGA unit. モデル性能に影響を与える2つのハイパーパラメータが存在する: 1) dga単位のウィンドウサイズd、2) dga単位の動的注意長t。 0.71
Therefore, we evaluate DGA-Net performance on two NLI test sets with different hyper-parameter settings. そこで我々は,異なるパラメータ設定の2つのNLIテストセット上でDGA-Netの性能を評価する。 0.60
The results are summarized in Figure 4. 結果は図4にまとめられている。 0.84
When talking about the window size in DGA unit, we can observe that the model performance first increases and then becomes smooth with the increase of window size. DGAユニットのウィンドウサイズについて語るとき、まずモデルの性能が向上し、次にウィンドウサイズが大きくなると滑らかになるのが観察できる。 0.78
We speculate that a too small or too big window cannot help to capture the local structure for precisely semantic understanding. 我々は、小さすぎるか大きすぎるウィンドウが局所構造を正確に理解するのに役に立たないと推測する。 0.74
When the window size is D = 4, DGA will consider two words on each side of the center word, which is suitable for leveraging local context to enhance the semantic understanding of sentences. ウィンドウサイズがD = 4のとき、DGAは中心単語の両側で2つの単語を考慮し、局所的な文脈を利用して文の意味的理解を強化するのに適している。 0.73
As for the dynamic attention length, Bowman et al [1] has conducted that the average length is 14.1 for premise and 8.3 for hypothesis in SNLI. ダイナミックアテンション長については、ボウマンとアル [1] は平均の長さが前提で14.1、SNLIで仮説で8.3であることを示した。 0.62
From Figure 4(B), 4 is suitable for dynamic attention length. 図4(B)では、4は動的注意長に適している。 0.80
Too short reading length may cause the model to ignore some important parts. 読み込み長が短すぎると、モデルは重要な部分を無視する可能性がある。 0.66
Meanwhile, too long reading length may weaken the ability of precisely local structure capturing and semantic understanding. 一方、長読長が長すぎると、正確な局所構造キャプチャと意味理解の能力が低下する可能性がある。 0.54
5 Conclusion and Future Work 5 結論と今後の課題 0.79
In this paper, we proposed an effective Dynamic Gaussian Attention Network (DGANet) approach for sentence semantic matching, a novel architecture that not only models sentence semantics in a global perspective, but also utilizes local structure to support the analysis of the important parts step by step. 本稿では,文意味マッチングのための動的ガウス注意ネットワーク(DGANet)アプローチを提案する。このアーキテクチャは,グローバルな視点で文意味をモデル化するだけでなく,局所的な構造を利用して,重要な部分の分析を段階的に支援する。 0.84
To be specific, we first make full use of pre-trained language model to evaluate semantic meanings of words and sentences from a global perspective. 具体的には、まず事前学習された言語モデルを用いて、グローバルな視点から単語や文の意味的意味を評価する。
訳抜け防止モード: 具体的に言うと、 まずは事前訓練された言語モデルを使い 言葉や文の意味をグローバルな視点から評価することです
0.81
Then, we design a novel Dynamic Gaussian Attention (DGA) to pay close attention to one important part and corresponding local context among sentences simultaneously at each attention operation. 次に,各注意操作において,ある重要な部分と対応する局所的文脈に注意を払うために,新しい動的ガウス的注意 (dga) を設計する。 0.70
By taking the local information into consideration, DGA-Net is capable of measuring the sentence semantics more comprehensively. ローカル情報を考慮に入れることで、DGA-Netは文の意味をより包括的に測定することができる。 0.65
Finally, we integrate the global semantic representation from Bert and detailed semantic representation from DGA to further improve the model performance on sentence semantic matching. 最後に,Bertのグローバルセマンティック表現とDGAの詳細なセマンティック表現を統合し,文セマンティックマッチングにおけるモデル性能をさらに向上させる。 0.78
Extensive evaluations on two sentence semantic matching tasks (i.e., NLI and PI) demonstrate the superiority of our proposed DGA-Net. 2つの文意味マッチングタスク(NLIとPI)の広範囲な評価は、提案したDGA-Netの優位性を示している。
訳抜け防止モード: 2つの文意味マッチングタスク(NLI)の大規模評価 PI)は提案したDGA-Netの優位性を示す。
0.69
In the future, we will focus on providing more information for dynamic attention to better local important parts selecting and sentence semantic understanding. 将来的には,局所的な重要な部分の選択や文の意味理解に動的に注意を向ける情報の提供に注力していく。 0.67
Accuracy(%)(A)The window size D in DGA unit0.780.820.860.90 123456Full TestHard TestSICK TestAccuracy(%)(B)Th e dynamic attention length T in DGA unit123456780.780.82 0.860.90 A)DGAユニット0.780.820.860.901234 56Full TestSICK TestAccuracy(%)(B)DG Aユニット123456780.780.820.86 0.90の動的注意長T 0.82
英語(論文から抽出)日本語訳スコア
DGA-Net for Sentence Semantic Matching 文意味マッチングのためのDGA-Net 0.59
11 Acknowledgements This work was supported in part by grants from the National Natural Science Foundation of China (Grant No. 11 覚書 この研究は、中国国立自然科学財団(grant no.)からの助成金によって支援された。 0.66
62006066), the Open Project Program of the National Laboratory of Pattern Recognition (NLPR), and the Fundamental Research Funds for the Central Universities, HFUT. 62006066は、国立パターン認識研究所(nlpr)のオープンプロジェクトプログラムであり、中央大学の基礎研究基金であるhfutである。 0.63
References 1. Bowman, S.R., Angeli, G., Potts, C., Manning, C.D. 参考文献 1. Bowman, S.R., Angeli, G., Potts, C., Manning, C.D. 0.82
: A large annotated corpus for learning 学習のための大きな注釈付きコーパス 0.65
natural language inference. In: EMNLP (2015) 自然言語の推測です in: emnlp (2015) 0.70
2. Chen, Q., Zhu, X.D., Ling, Z.H., Wei, S., Jiang, H., Inkpen, D.: Recurrent neural networkbased sentence encoder with gated attention for natural language inference. 2. chen, q., zhu, x.d., ling, z.h., wei, s., jiang, h., inkpen, d.: recurrent neural network based sentence encoder with gateed attention for natural language inference (英語) 0.81
In: RepEval@EMNLP. 略称はRepEval@EMNLP。 0.57
pp. 36–40 (2017) pp. 36–40 (2017) 0.85
3. Chen, Q., Zhu, X., Ling, Z., Wei, S., Jiang, H., Inkpen, D.: Enhanced lstm for natural lan- 3. Chen, Q., Zhu, X., Ling, Z., Wei, S., Jiang, H., Inkpen, D.: 自然ランの拡張lstm- 0.84
guage inference. In: ACL. ゲージ推論。 略称:ACL。 0.52
pp. 1657–1668 (2017) pp. 1657–1668 (2017) 0.85
4. Cheng, J., Dong, L., Lapata, M.: Long short-term memory-networks for machine reading. 4. Cheng, J., Dong, L., Lapata, M.: 機械読み取りのための短期記憶ネットワーク。 0.88
In: EMNLP. pp. EMNLP。 pp. 0.61
551–561 (2016) 551–561 (2016) 0.84
5. Choi, J., Yoo, K.M., Lee, S.g.: Learning to compose task-specific tree structures. 5. Choi, J., Yoo, K.M., Lee, S.g.: タスク固有のツリー構造を構成することを学ぶ。 0.77
In: AAAI (2018) 院:ああい (2018) 0.64
6. Chung, J., Gulcehre, C., Cho, K., Bengio, Y.: Empirical evaluation of gated recurrent neural 6. Chung, J., Gulcehre, C., Cho, K., Bengio, Y.: ゲートリカレント神経の実験的評価 0.81
networks on sequence modeling. シーケンス・モデリングのネットワークです 0.76
CoRR abs/1412.3555 (2014) corr abs/1412.3555 (2014) 0.61
7. Clark, P., Etzioni, O., Khot, T., Sabharwal, A., Tafjord, O., Turney, P.D., Khashabi, D.: Combining retrieval, statistics, and inference to answer elementary science questions. 7. Clark, P., Etzioni, O., Khot, T., Sabharwal, A., Tafjord, O., Turney, P.D., Khashabi, D。
訳抜け防止モード: 7. Clark, P., Etzioni, O., Khot, T. Sabharwal, A., Tafjord, O., Turney, P.D. Khashabi, D. 検索、統計、推論を組み合わせて基礎科学の質問に答える。
0.85
In: AAAI (2016) イン:AAAI(2016年) 0.72
8. Devlin, J., Chang, M.W., Lee, K., Toutanova, K.: Bert: Pre-training of deep bidirectional 8. Devlin, J., Chang, M.W., Lee, K., Toutanova, K.: Bert: 深層双方向の事前学習 0.88
transformers for language understanding. 言語理解のためのトランスフォーマー 0.78
arXiv preprint arXiv:1810.04805 (2018) arXiv preprint arXiv:1810.04805 (2018) 0.75
9. Dolan, W.B., Brockett, C.: Automatically constructing a corpus of sentential paraphrases. 9. Dolan, W.B., Brockett, C.: センセーショナルパラフレーズのコーパスを自動で構築する。 0.81
In: IWP (2005) 院 IWP (2005) 0.54
10. He, H., Gimpel, K., Lin, J.: Multi-perspective sentence similarity modeling with convolu- 10. He, H., Gimpel, K., Lin, J.:convoluを用いた多文類似性モデリング 0.82
tional neural networks. 集中型ニューラルネットワーク。 0.72
In: EMNLP. pp. EMNLP。 pp. 0.61
1576–1586 (2015) 1576–1586 (2015) 0.84
11. Hong, R., He, Y., Wu, L., Ge, Y., Wu, X.: Deep attributed network embedding by preserving 11. Hong, R., He, Y., Wu, L., Ge, Y., Wu, X.: 保存によるディープ属性ネットワーク埋め込み 0.85
structure and attribute information. 構造と属性の情報です 0.89
IEEE TSMC:S (2019), preprint IEEE TSMC:S (2019) プレプリント 0.79
12. Im, J., Cho, S.: Distance-based self-attention network for natural language inference. 12. Im, J., Cho, S.: 自然言語推論のための距離に基づく自己認識ネットワーク。 0.80
CoRR abs/1712.02047 (2017) CoRR abs/1712.02047 (2017) 0.75
13. Iyer, S., Dandekar, N., Csernai, K.: First quora dataset release: Question pairs (2017) 14. 13. Iyer, S., Dandekar, N., Csernai, K.: 最初のquoraデータセットリリース: Question pairs (2017) 14。 0.87
Khot, T., Sabharwal, A., Clark, P.: Scitail: A textual entailment dataset from science question Khot, T., Sabharwal, A., Clark, P.: Scitail: A textual entailment dataset from Science question 0.88
answering. In: AAAI (2018) 答えろ in: aaai (2018) 0.52
15. Kim, S., Hong, J.H., Kang, I., Kwak, N.: Semantic sentence matching with densely- 15. Kim, S., Hong, J.H., Kang, I., Kwak, N.:Semantic sentence matching with densely- 0.92
connected recurrent and co-attentive information. コネクテッド・リカレントとコアテンティブ・インフォメーション。 0.24
CoRR abs/1805.11360 (2018) CoRR abs/1805.11360 (2018) 0.71
16. Lan, W., Xu, W.: Neural network models for paraphrase identification, semantic textual similarity, natural language inference, and question answering. 16. Lan, W., Xu, W.: パラフレーズ識別、意味的テキスト類似性、自然言語推論、質問応答のためのニューラルネットワークモデル。 0.82
In: COLING. 原題:Coling。 0.50
pp. 3890–3902 (2018) pp. 3890–3902 (2018) 0.85
17. Li, X., Mao, J., Wang, C., Liu, Y., Zhang, M., Ma, S.: Teach machine how to read: reading behavior inspired relevance estimation. 17. li, x., mao, j., wang, c., liu, y., zhang, m., ma, s.: teach machine how to read: reading behavior inspired associated estimation (英語)
訳抜け防止モード: 17. Li, X., Mao, J., Wang, C. Liu, Y., Zhang, M., Ma, S. 読み方を教える機械 読書行動は関連性評価にインスパイアされた。
0.84
In: Proceedings of the 42nd International ACM SIGIR Conference on Research and Development in Information Retrieval. 第42回国際情報検索研究・開発会議(ACM SIGIR)に参加して 0.62
pp. 795–804 (2019) pp. 795–804 (2019) 0.85
18. Liu, Q., Huang, Z., Huang, Z., Liu, C., Chen, E., Su, Y., Hu, G.: Finding similar exercises in 18. Liu, Q., Huang, Z., Huang, Z., Liu, C., Chen, E., Su, Y., Hu, G.: 同様のエクササイズを見つける 0.85
online education systems. オンライン教育システム。 0.88
In: SIGKDD. 略称はSIGKDD。 0.26
pp. 1821–1830. pp. 1821–1830. 0.78
ACM (2018) ACM (2018) 0.85
英語(論文から抽出)日本語訳スコア
12 Kun et al 12 Kun et al 0.85
19. Liu, Y., Sun, C., Lin, L., Wang, X.: Learning natural language inference using bidirectional 19. Liu, Y., Sun, C., Lin, L., Wang, X.:双方向による自然言語推論の学習 0.90
lstm model and inner-attention. lstmモデルとインナーアテンション。 0.66
CoRR abs/1605.09090 (2016) CoRR abs/1605.09090(2016年) 0.49
20. Marelli, M., Bentivogli, L., Baroni, M., Bernardi, R., Menini, S., Zamparelli, R.: Semeval2014 task 1: Evaluation of compositional distributional semantic models on full sentences through semantic relatedness and textual entailment. 20. Marelli, M., Bentivogli, L., Baroni, M., Bernardi, R., Menini, S., Zamparelli, R.: Semeval 2014 task 1: 意味的関連性とテキスト的関連性による全文における構成的分布意味モデルの評価。 0.86
In: SemEval. In:SemEval。 0.71
pp. 1–8 (2014) pp. 1–8 (2014) 0.85
21. Mou, L., Men, R., Li, G., Xu, Y., Zhang, L., Yan, R., Jin, Z.: Natural language inference by 21. Mou, L., Men, R., Li, G., Xu, Y., Zhang, L., Yan, R., Jin, Z.: 自然言語推論 0.84
tree-based convolution and heuristic matching. ツリーベースの畳み込みとヒューリスティックマッチング。 0.61
In: ACL. pp. 略称:ACL。 pp. 0.76
130–136 (2016) 130–136 (2016) 0.84
22. Parikh, A.P., T¨ackstr¨om, O., Das, D., Uszkoreit, J.: A decomposable attention model for 22. Parikh, A.P., T sackstr .om, O., Das, D., Uszkoreit, J.: 分解可能な注意モデル 0.83
natural language inference. In: EMNLP. 自然言語の推測です EMNLP。 0.57
pp. 2249–2255 (2016) pp. 2249–2255 (2016) 0.85
23. Sennrich, R., Haddow, B., Birch, A.: Neural machine translation of rare words with subword 23. Sennrich, R., Haddow, B., Birch, A.: Neural Machine translation of rare words with subword 0.87
units. arXiv preprint arXiv:1508.07909 (2015) ユニット。 arXiv preprint arXiv:1508.07909 (2015) 0.71
24. Serban, I.V., Sordoni, A., Bengio, Y., Courville, A.C., Pineau, J.: Building end-to-end dialogue systems using generative hierarchical neural network models. 24. Serban, I.V., Sordoni, A., Bengio, Y., Courville, A.C., Pineau, J.: 生成階層型ニューラルネットワークモデルを用いたエンドツーエンド対話システムの構築。 0.82
In: AAAI. vol. イン:AAAI。 Vol. 0.65
16 (2016) 25. 16 (2016) 25. 0.85
Shen, T., Zhou, T., Long, G., Jiang, J., Pan, S., Zhang, C.: Disan: Directional self-attention Shen, T., Zhou, T., Long, G., Jiang, J., Pan, S., Zhang, C.: Disan: Directional self-attention 0.94
network for rnn/cnn-free language understanding. rnn/cnnフリー言語理解のためのネットワーク 0.65
CoRR abs/1709.04696 (2017) CoRR abs/1709.04696 (2017) 0.71
26. Sun, P., Wu, L., Zhang, K., Fu, Y., Hong, R., Wang, M.: Dual learning for explainable recommendation: Towards unifying user preference prediction and review generation. 26. Sun, P., Wu, L., Zhang, K., Fu, Y., Hong, R., Wang, M.: 説明可能なレコメンデーションのためのデュアルラーニング: ユーザ好みの予測とレビュー生成の統合を目指して。 0.83
In: WWW. pp. 略称:WWW。 pp. 0.72
837–847 (2020) 837–847 (2020) 0.84
27. Tay, Y., Tuan, L.A., Hui, S.C.: A compare-propagate architecture with alignment factoriza- 27. tay, y., tuan, l.a., hui, s.c.: a comparison-propagate architecture with alignment factoriza- 0.80
tion for natural language inference. 自然言語推論のための重み付け。 0.70
CoRR abs/1801.00102 (2017) corr abs/1801.00102 (2017) 0.61
28. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A.N., Kaiser, Ł., 28. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A.N., Kaiser, 0.85
Polosukhin, I.: Attention is all you need. Polosukhin, I.: 注意が必要だ。 0.75
In: NIPS. pp. 略称はNIPS。 pp. 0.68
5998–6008 (2017) 5998–6008 (2017) 0.84
29. Wang, Z., Hamza, W., Florian, R.: Bilateral multi-perspective matching for natural language 29. Wang, Z., Hamza, W., Florian, R.: 自然言語に対する双方向多視点マッチング 0.86
sentences. CoRR abs/1702.03814 (2017) 文だ CoRR abs/1702.03814 (2017) 0.56
30. Weeds, J., Clarke, D., Reffin, J., Weir, D., Keller, B.: Learning to distinguish hypernyms and 30. weeds, j., clarke, d., reffin, j., weir, d., keller, b.: learning to distinguish hypernyms and 0.81
co-hyponyms. co-hyponyms 0.77
In: COLING. 原題:Coling。 0.50
pp. 2249–2259 (2014) pp. 2249–2259 (2014) 0.85
31. Wu, L., Yang, Y., Zhang, K., Hong, R., Fu, Y., Wang, M.: Joint item recommendation and attribute inference: An adaptive graph convolutional network approach. 31. Wu, L., Yang, Y., Zhang, K., Hong, R., Fu, Y., Wang, M.: 共同項目推薦と属性推論: 適応グラフ畳み込みネットワークアプローチ。 0.80
In: SIGIR. pp. 略称:SIGIR。 pp. 0.65
679– 688 (2020) 679– 688 (2020) 0.99
32. Yoon, D., Lee, D., Lee, S.: Dynamic self-attention: Computing attention over words dynam- 32. Yoon, D., Lee, D., Lee, S.: Dynamic self-attention: Computing attention over words dynam- 0.92
ically for sentence embedding. 文章を埋め込むのに 熱心です 0.36
arXiv preprint arXiv:1808.07383 (2018) arXiv preprint arXiv:1808.07383 (2018) 0.75
33. Zhang, K., Chen, E., Liu, Q., Liu, C., Lv, G.: A context-enriched neural network method for 33. Zhang, K., Chen, E., Liu, Q., Liu, C., Lv, G. : 文脈に富むニューラルネットワーク手法 0.84
recognizing lexical entailment. 語彙の含意を認識します 0.47
In: AAAI. pp. イン:AAAI。 pp. 0.73
3127–3133 (2017) 3127–3133 (2017) 0.84
34. Zhang, K., Lv, G., Chen, E., Wu, L., Liu, Q., Chen, C.P. 34. Zhang, K., Lv, G., Chen, E., Wu, L., Liu, Q., Chen, C.P. 0.88
: Context-aware dual-attention net- 文脈認識型デュアルアテンションネット 0.40
work for natural language inference. 自然言語推論のための作業。 0.72
In: PAKDD. pp. PAKDD。 pp. 0.59
185–198 (2019) 185–198 (2019) 0.84
35. Zhang, K., Lv, G., Wang, L., Wu, L., Chen, E., Wu, F., Xie, X.: Drr-net: Dynamic re-read network for sentence semantic matching. 35. Zhang, K., Lv, G., Wang, L., Wu, L., Chen, E., Wu, F., Xie, X.: Drr-net: 文意味マッチングのための動的再読ネットワーク。 0.86
In: Proceedings of the AAAI Conference on Artificial Intelligence. 人工知能学会(AAAI Conference on Artificial Intelligence)の略。 0.72
vol. 33, pp. Vol. 33, pp。 0.75
7442–7449 (2019) 7442–7449 (2019) 0.84
36. Zhang, K., Lv, G., Wu, L., Chen, E., Liu, Q., Wu, H., Xie, X., Wu, F.: Multilevel imageenhanced sentence representation net for natural language inference. 36. zhang, k., lv., g., wu, l., chen, e., liu, q., wu, h., xie, x., wu, f.: multilevel imageenhanced sentence representation net for natural language inference
訳抜け防止モード: 36. Zhang, K., Lv, G., Wu, L. Chen, E., Liu, Q., Wu, H. Xie, X., Wu, F. : 自然言語推論のためのマルチレベル画像強調文表現ネット
0.86
IEEE TSMC:S (2019), preprint IEEE TSMC:S (2019) プレプリント 0.79
37. Zhang, K., Wu, L., Lv, G., Wang, M., Chen, E., Ruan, S.: Making the relation matters: Relation of relation learning network for sentence semantic matching. 37. zhang, k., wu, l., lv, g., wang, m., chen, e., ruan, s.: making the relation matters: relation learning network for sentence semantic matching (英語)
訳抜け防止モード: 37. Zhang, K., Wu, L., Lv, G. Wang, M., Chen, E., Ruan, S. 関係を大切にする 文意味マッチングにおける関係学習ネットワークの関係
0.81
In: AAAI (2021), preprint イン:AAAI(2021年)、プレプリント 0.69
38. Zheng, Y., Mao, J., Liu, Y., Ye, Z., Zhang, M., Ma, S.: Human behavior inspired machine 38. Zheng, Y., Mao, J., Liu, Y., Ye, Z., Zhang, M., Ma, S. : 人間の行動に触発された機械 0.88
reading comprehension. In: SIGIR. 理解を読んで 略称:SIGIR。 0.58
pp. 425–434 (2019) pp. 425–434 (2019) 0.85
                         ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。