論文の概要、ライセンス

# (参考訳) Match-Ignition:長文マッチングのためのPageRankを変換器にプラグインする [全文訳有]

Match-Ignition: Plugging PageRank into Transformer for Long-form Text Matching ( http://arxiv.org/abs/2101.06423v1 )

ライセンス: CC BY 4.0
Liang Pang, Yanyan Lan, Xueqi Cheng(参考訳) セマンティックテキストマッチングモデルは、コミュニティの質問応答、情報検索、対話に広く利用されている。 しかし、これらのモデルは長文のテキストマッチング問題にうまく対応できない。 これは、通常、長い形式のテキストマッチングの設定にはノイズが多く、既存の意味テキストマッチングでは、このノイズ情報からキーマッチング信号をキャプチャすることが難しいためである。 さらに、これらのモデルは、マッチングプロセスですべてのテキストデータを無差別に使用するため、計算コストがかかる。 そこで本論文では,効率と有効性の問題に取り組むため,新しい階層型雑音フィルタリングモデルを提案する。 基本的なアイデアは、よく知られたpagerankアルゴリズムをトランスフォーマーに挿入し、マッチングプロセスで文と単語レベルのノイズ情報の両方を識別してフィルタリングするというものだ。 雑音文は通常、文が長文の基本単位であるため検出しやすいので、文の類似度グラフに基づいて直接pagerankを使用して情報をフィルタリングする。 語は具体的意味を表現するために文脈に依存する必要があるが, 単語間の文脈依存性を反映するために, フィルタリング処理とマッチング処理を共同で学習することを提案する。 具体的には、まず、Transformerの各自己注意ブロックの注意点に基づいて単語グラフを構築し、次にこのグラフにPageRankを適用することでキーワードを選択する。 このようにして、ノイズの多い単語はマッチングプロセスでレイヤごとにフィルタアウトされる。 実験の結果,Match-Ignitionは従来のテキストマッチングモデルと最近の長文マッチングモデルの両方に優れていた。 また,Match-Ignitionが長文のマッチングに有用な重要な文や単語を効率的にキャプチャできることを示すために,詳細な分析を行う。

Semantic text matching models have been widely used in community question answering, information retrieval, and dialogue. However, these models cannot well address the long-form text matching problem. That is because there are usually many noises in the setting of long-form text matching, and it is difficult for existing semantic text matching to capture the key matching signals from this noisy information. Besides, these models are computationally expensive because they simply use all textual data indiscriminately in the matching process. To tackle the effectiveness and efficiency problem, we propose a novel hierarchical noise filtering model in this paper, namely Match-Ignition. The basic idea is to plug the well-known PageRank algorithm into the Transformer, to identify and filter both sentence and word level noisy information in the matching process. Noisy sentences are usually easy to detect because the sentence is the basic unit of a long-form text, so we directly use PageRank to filter such information, based on a sentence similarity graph. While words need to rely on their contexts to express concrete meanings, so we propose to jointly learn the filtering process and the matching process, to reflect the contextual dependencies between words. Specifically, a word graph is first built based on the attention scores in each self-attention block of Transformer, and keywords are then selected by applying PageRank on this graph. In this way, noisy words will be filtered out layer by layer in the matching process. Experimental results show that Match-Ignition outperforms both traditional text matching models for short text and recent long-form text matching models. We also conduct detailed analysis to show that Match-Ignition can efficiently capture important sentences or words, which are helpful for long-form text matching.
公開日: Sat, 16 Jan 2021 10:34:03 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
Match-Ignition: Plugging PageRank into Transformer Match-Ignition: PageRank を Transformer にプラグインする 0.63
for Long-form Text Matching 長文テキストマッチング用 0.61
Liang Pang, Yanyan Lan, Xueqi Cheng Liang Pang, Yanyan Lan, Xueqi Cheng 0.85
{pangliang,lanyanyan, cxq}@ict.ac.cn pangliang,lanyanyan, cxq}@ict.ac.cn 0.75
Institute of Computing Technology, Chinese Academy of Sciences, Beijing, China 北京・中国科学院 計算技術研究所 0.49
CAS Key Lab of Network Data Science and Technology, cas key lab of network data science and technology(英語) 0.78
1 2 0 2 n a J 1 2 0 2 n a J 0.85
6 1 ] L C . s c [ 6 1 ]LC。 sc [ 0.60
1 v 3 2 4 6 0 1 v 3 2 4 6 0 0.85
. 1 0 1 2 : v i X r a . 1 0 1 2 : v i X r a 0.85
ABSTRACT Semantic text matching models have been widely used in community question answering, information retrieval, and dialogue. ABSTRACTセマンティックテキストマッチングモデルは、コミュニティの質問応答、情報検索、対話に広く利用されている。 0.74
However, these models cannot well address the long-form text matching problem. しかし、これらのモデルは長文のテキストマッチング問題にうまく対応できない。 0.64
That is because there are usually many noises in the setting of long-form text matching, and it is difficult for existing semantic text matching to capture the key matching signals from this noisy information. これは、通常、長い形式のテキストマッチングの設定にはノイズが多く、既存の意味テキストマッチングでは、このノイズ情報からキーマッチング信号をキャプチャすることが難しいためである。 0.74
Besides, these models are computationally expensive because they simply use all textual data indiscriminately in the matching process. さらに、これらのモデルは、マッチングプロセスですべてのテキストデータを無差別に使用するため、計算コストがかかる。 0.62
To tackle the effectiveness and efficiency problem, we propose a novel hierarchical noise filtering model in this paper, namely Match-Ignition. そこで本論文では,効率と有効性の問題に取り組むため,新しい階層型雑音フィルタリングモデルを提案する。 0.89
The basic idea is to plug the wellknown PageRank algorithm into the Transformer, to identify and filter both sentence and word level noisy information in the matching process. 基本的なアイデアは、よく知られたpagerankアルゴリズムをtransformerに挿入し、マッチングプロセスで文と単語レベルのノイズ情報の両方を識別およびフィルタリングする。 0.80
Noisy sentences are usually easy to detect because the sentence is the basic unit of a long-form text, so we directly use PageRank to filter such information, based on a sentence similarity graph. 雑音文は通常、文が長文の基本単位であるため検出しやすいので、文の類似度グラフに基づいて直接pagerankを使用して情報をフィルタリングする。 0.73
While words need to rely on their contexts to express concrete meanings, so we propose to jointly learn the filtering process and the matching process, to reflect the contextual dependencies between words. 語は具体的意味を表現するために文脈に依存する必要があるが, 単語間の文脈依存性を反映するために, フィルタリング処理とマッチング処理を共同で学習することを提案する。 0.77
Specifically, a word graph is first built based on the attention scores in each self-attention block of Transformer, and keywords are then selected by applying PageRank on this graph. 具体的には、まず、Transformerの各自己注意ブロックの注意点に基づいて単語グラフを構築し、次にこのグラフにPageRankを適用することでキーワードを選択する。 0.68
In this way, noisy words will be filtered out layer by layer in the matching process. このようにして、ノイズの多い単語はマッチングプロセスでレイヤごとにフィルタアウトされる。 0.67
Experimental results show that Match-Ignition outperforms both traditional text matching models for short text and recent long-form text matching models. 実験の結果,Match-Ignitionは従来のテキストマッチングモデルと最近の長文マッチングモデルの両方に優れていた。 0.75
We also conduct detailed analysis to show that Match-Ignition can efficiently capture important sentences or words, which are helpful for long-form text matching. また,Match-Ignitionが長文のマッチングに有用な重要な文や単語を効率的にキャプチャできることを示すために,詳細な分析を行う。 0.67
ACM Reference Format: Liang Pang, Yanyan Lan, Xueqi Cheng. ACM参照フォーマット: Liang Pang, Yanyan Lan, Xueqi Cheng 0.73
2021. Match-Ignition: Plugging PageRank into Transformer for Long-form Text Matching. 2021. Match-Ignition: 長文マッチングのためのPageRankをTransformerにプラグインする。 0.72
In Proceedings of ACM Conference (Conference’17). In Proceedings of ACM Conference (Conference’17) 0.71
ACM, New York, NY, USA, 9 pages. ACM, New York, NY, USA, 9ページ。 0.80
https://doi.org/* https://doi.org/* 0.59
Permission to make digital or hard copies of all or part of this work for personal or classroom use is granted without fee provided that copies are not made or distributed for profit or commercial advantage and that copies bear this notice and the full citation on the first page. 本作品のデジタル又はハードコピー又は一部を個人的又は教室で使用するための許可は、利益または商業的利益のためにコピーが作成または配布されず、コピーがこの通知及び第1ページの引用を満たしていることが条件として、無償で付与される。
訳抜け防止モード: この作品の全部又は一部をデジタル又はハードコピーして個人または教室での使用許可 手数料なしで与えられます 利益や商業上の利益のためにコピーは作られない そのコピーには この通知と 最初のページの全文が書かれています
0.82
Copyrights for components of this work owned by others than ACM must be honored. ACM以外の者が所有するこの作品のコンポーネントの著作権を尊重しなければならない。 0.62
Abstracting with credit is permitted. クレジットによる抽象化は許可されている。 0.48
To copy otherwise, or republish, to post on servers or to redistribute to lists, requires prior specific permission and/or a fee. サーバーにポストしたり、リストを再配布したりするには、事前の特定の許可と/または料金が必要である。 0.60
Request permissions from permissions@acm.org. permissions@acm.org からの許可を要求する。 0.65
Conference’17, July 2017, Washington, DC, USA © 2021 Association for Computing Machinery. 2017年7月17日、ワシントンD.C.、アメリカ、2021年、コンピュータ機械学会。 0.61
ACM ISBN 978-x-xxxx-xxxx-x/YY /MM...$15.00 https://doi.org/* ACM ISBN 978-x-xxxx-x-x/YY/MM ...$15.00 https://doi.org/* 0.40
Figure 1: The example at the top is a short-form text matching for the community question answering task, and the lines indicate the alignments between words from two sentences. 図1: トップの例は、コミュニティの質問応答タスクに対する短い形式のテキストマッチングであり、行は2つの文からの単語間のアライメントを示しています。 0.79
The example at the bottom is a long-form text matching for redundancy news identification task, and the highlight words indicate the identity event of two news, thus the words remained are treated as noise for the matching task. 下段の例は冗長なニュース識別タスクのための長い形式のテキストマッチングであり、ハイライトワードは2つのニュースのアイデンティティイベントを示すので、残った単語はマッチングタスクのノイズとして扱われる。 0.81
1 INTRODUCTION Semantic text matching is an essential problem in many natural language applications, such as community question answering [33], information retrieval [12], and dialogue [18]. 1 意味的テキストマッチングは,コミュニティ質問応答[33],情報検索[12],対話[18]など,多くの自然言語アプリケーションにおいて不可欠な問題である。 0.74
Many deep text matching models have been proposed and gain some improvement, such as representation based models [11, 12, 21, 29, 31], interaction based models [23, 32], and their combinations [6, 20, 35]. 多くのディープテキストマッチングモデルが提案され,表現ベースモデル [11, 12, 21, 29 31 31],インタラクションベースモデル [23, 32],それらの組み合わせ [6, 20, 35] などが改良されている。 0.79
However, these models cannot be well applied to long-form text matching problems, which have attracted increasing attention in the field of news recommendation [16] and attachment suggestion [14]. しかし、これらのモデルは、ニュースレコメンデーション [16] やアタッチメント提案 [14] の分野で注目を集めている長文マッチング問題にはうまく適用できない。 0.61
This is mainly because long-form text matching is quite different from the short-form text matching problem. これは主に、長文テキストマッチングが短文テキストマッチング問題とは全く異なるためである。 0.74
For short-form text matching, almost every term in the short texts is critical to the matching score, because short text matching tasks are just like finding a reasonable semantic alignment between two sentences [23]. 短いテキストマッチングでは、短いテキストマッチングタスクは2つの文 [23] 間の合理的な意味的アライメントを見つけるのと全く同じであるため、短いテキストのほぼすべての単語がマッチングスコアに不可欠である。 0.72
For example, in community question answering, the major problem is to find the most relevant question for the given question. 例えば、コミュニティの質問応答では、主要な問題は与えられた質問に対して最も関連性の高い質問を見つけることである。
訳抜け防止モード: 例えば、コミュニティの質問に対する回答では、大きな問題があります。 質問に最も関係のある質問を見つけます
0.81
In this case, the matching score is mainly determined by the alignment between each word in the questions, as shown in Figure 1. この場合、マッチングスコアは、主に、図1に示すように、質問中の各単語間のアライメントによって決定される。 0.74
Long-form text matching has its own characteristics. 長文テキストマッチングには独自の特徴がある。 0.62
Firstly, longform text matching cares more about the global semantic meanings rather than the bipartite alignment. まず、長文のテキストマッチングは、二分詞のアライメントよりも、グローバルな意味を気にする。 0.59
The fine-grained matching signals between long-form texts are usually very sparse, which makes 長文間のきめ細かい一致信号は、通常非常に粗末である。 0.67
Sentence1:What makes a pizza the best?Short-formTextM atching(CommunityQue stionAnswering):Sent ence2:What makes a good pizza?Long-formTextM atching(Redundancy News Identification):Doc2 :…McGradyhadoneofthemo stmemorableperforman cesofhiscareer,thefi nal35secondswin13poi ntswhenagainsttheSan AntonioSpurstosecure acomebackvictory.The sequenceincludedfour consecutivethree-poi nters…Doc1:…ittookunrealshooting byTracyMcGrady.McGra dymadefour3-pointsho tsandscored13pointsi nthefinal35seconds,i ncludinga26-footerwi th1.7secondsremainin g,tosendtheSpurstoSa nAntoniowithasecondl ossinas… Sentence1:What makes a pizza the best?Short-formTextM atching(CommunityQue stionAnswering):Sent ence2:What makes a good pizza?Long-formTextM atching(Redundancy News Identification):Doc2 :…McGradyhadoneofthemo stmemorableperforman cesofhiscareer,thefi nal35secondswin13poi ntswhenagainsttheSan AntonioSpurstosecure acomebackvictory.The sequenceincludedfour consecutivethree-poi nters…Doc1:…ittookunrealshooting byTracyMcGrady.McGra dymadefour3-pointsho tsandscored13pointsi nthefinal35seconds,i ncludinga26-footerwi th1.7secondsremainin g,tosendtheSpurstoSa nAntoniowithasecondl ossinas… 0.26
英語(論文から抽出)日本語訳スコア
the existing short text matching models hard to figure them out from huge noisy signals. 既存の短いテキストマッチングモデルは ノイズの多い信号から それらを見つけるのが難しい 0.77
For example, in redundant news identification, it merely focuses on where/when the event happened and what the event is, instead of who posted this news and the detailed descriptions of the news. 例えば、冗長なニュース識別では、このニュースを誰が投稿したか、ニュースの詳細な説明ではなく、イベントが起きた場所とイベントが何であるかにのみ焦点が当てられる。 0.74
Secondly, long-form text matching contains a very long text by nature, which makes the existing short text matching models computational expensive because they have to treat every word indiscriminately and emphasize the sufficient interactions between words [6, 35]. 第二に、長文マッチングは本質的に非常に長いテキストを含むため、既存のショートテキストマッチングモデルでは、すべての単語を無差別に扱い、単語間の十分な相互作用を強調する必要があるため、計算コストがかかる。 0.68
Furthermore, the long-form text often have to be truncated in the computation. さらに、長い形式のテキストは計算で切り離さなければならないことが多い。 0.74
For example, BERT only accepts text length of less than 512. 例えば、BERTは512未満のテキスト長しか受け入れない。 0.56
These operations may hurt the final matching performance. これらの操作は最終的なパフォーマンスを損なう可能性がある。 0.54
Thirdly, long-form text intrinsically consists a two-level structure, i.e. 第3に、長文は本質的に2階層構造である。 0.65
sentences and words. Most existing short text matching approaches can only process text word by word while missing the sentence-level structure. 文と言葉。 既存の短いテキストマッチングアプローチのほとんどは、文レベルの構造を欠いている間、単語単位でテキストを処理できる。 0.63
For example, one sentence should be ignored entirely if it is irrelevant with the current document, e g advertisement, even some of its internal words are relevant with another document. 例えば、ある文が現在の文書と無関係である場合、例えば広告など、その内部用語が他の文書と関係がある場合は、完全に無視されるべきである。 0.76
From these discussions, we can see that noise is the main challenge in long-form text matching, to affect both performance and efficiency. これらの議論から、ノイズが長文マッチングにおける主な課題であり、性能と効率の両方に影響を与えることが分かる。 0.69
In this paper, we propose a novel hierarchical noise filtering model, namely Match-Ignition, to distill the significant matching signals via the well-known link analysis algorithm PageRank [3]. 本稿では,よく知られたリンク解析アルゴリズムであるpagerank [3] を用いて,有意なマッチング信号の抽出を行う階層的雑音フィルタリングモデルであるmatch-ignitionを提案する。 0.80
PageRank utilizes random walk on a graph to determine the importance of each node. PageRankはグラフ上のランダムウォークを使用して、各ノードの重要性を決定する。 0.74
In this way, the noises (i.e. このようにして、ノイズ(すなわち、) 0.78
less important nodes) can be eliminated and the inference will be accelerated. 重要なノードが少ない) を排除でき、推論が加速される。 0.65
Considering the two-level structures in the long-form text matching problem, our model contains two hierarchies, i.e. 長文マッチング問題における2レベル構造を考えると,このモデルには2つの階層がある。 0.71
sentences-level and word-level. 文レベルと単語レベル。 0.65
In the sentence-level noise filtering process, the nodes are defined as sentences from a prir of long-form texts, and the link are defined as the similarities between each pair of sentences. 文レベルのノイズフィルタリング処理では、ノードを長文のプラーから文として定義し、リンクを各一対の文間の類似性として定義する。 0.66
That is to way, the similarities inside each long-form text and between the two long-form texts are both captured in our graph. つまり、各ロングフォームテキストと2つのロングフォームテキスト間の類似性は、どちらもグラフに記録されます。 0.75
Then the noisy sentences could be identified by PageRank score, and be directly removed. 次に、騒がしい文をpagerankスコアで識別し、直接削除することができる。 0.62
The word-level noise filtering process is jointly learned with the matching process, because each word relies on its context to express its concrete meanings, thus noisy words at the word-level are composite and dynamic, which need to be estimated dynamically during the matching process. 単語レベルのノイズフィルタリングプロセスは,それぞれの単語がコンテキストに依存して具体的な意味を表現しているため,単語レベルのノイズは複合的かつ動的であり,マッチングプロセス中に動的に推定する必要がある。 0.81
So we first apply the state-of-the-art Transformer to the texts, because it can well capture the contextual information among words. そこで我々はまず,テキストに最先端のトランスフォーマーを適用する。
訳抜け防止モード: そこでまず、テキストに-----アートトランスフォーマーの状態を適用する。 言葉間の文脈情報を 捉えることができるからです
0.72
Therefore, the attention matrix in the self-attention block, the key component of Transformer, could be treated as a fully connected word-level similarity graph [5, 10, 36]. したがって、Transformerのキーコンポーネントである自己注意ブロックの注意行列は、完全に連結された単語レベルの類似性グラフ[5, 10, 36]として扱うことができる。 0.75
PageRank is then applied to filter out noise words at each layer. 次にPageRankを使用して、各レイヤでノイズワードをフィルタリングする。 0.67
We can see this technique is different from previous works [5, 10, 36] which focus on eliminating links in the graph, because our model focuses on filtering noisy words, i.e., nodes in the graph. 我々のモデルは、ノイズの多い単語、すなわち、グラフのノードをフィルタリングすることに焦点を当てているため、このテクニックは、グラフ内のリンクの排除に焦点を当てた以前の作品(5, 10, 36]とは異なることがわかります。 0.67
We experiments on two public long-form text matching dataset, provided by Liu et al [16]. We experiment on two public long-form text matching dataset, provided by Liu et al [16]。 0.81
The experimental results show that Match-Ignition outperforms baseline methods, such as text matching models for short text and recent long-form text matching models. 実験の結果,Match-Ignitionは短いテキストのテキストマッチングモデルや最近の長文マッチングモデルなど,ベースライン手法よりも優れていた。 0.77
The further analysis illustrates that Match-Ignition efficiently models important matching signals in long-form text, which helps understand the matching process. さらに分析した結果,Match-Ignitionは長文で重要なマッチング信号を効率的にモデル化し,マッチングプロセスの理解に役立てることがわかった。 0.63
2 RELATED WORK In this section, we first introduce the text matching models designed for short-form text matching, then review the most recent works for long-form text matching. 2 RELATED WORK この節では、まず、ショートフォームテキストマッチング用に設計されたテキストマッチングモデルを紹介し、次に、最新のロングフォームテキストマッチングについてレビューする。 0.67
2.1 Short-form Text Matching Existing text matching models fall into representation-based approaches, interaction-based approaches, and their combinations [9]. 2.1 ショートフォームテキストマッチング 既存のテキストマッチングモデルは、表現ベースのアプローチ、インタラクションベースのアプローチ、およびそれらの組み合わせに該当する。 0.63
Representation-based matching approaches are inspired by the Siamese architecture [4]. 表現ベースのマッチングアプローチは siamese アーキテクチャにインスパイアされています [4]。 0.60
This kind of approach aims at encoding each input text in a pair into the high-level representations respectively based on a specific neural network encoder, and then the matching score is obtained by calculating the similarity between the two corresponding representation vectors. この種のアプローチは、特定のニューラルネットワークエンコーダに基づいて、ペア内の各入力テキストをそれぞれハイレベルな表現にエンコードすることを目的としており、対応する2つの表現ベクトル間の類似度を計算してマッチングスコアを得る。 0.76
DSSM [12], C-DSSM [29], ARC-I[11], RNN-LSTM [21] and MV-LSTM [31] belong to this category. DSSM[12]、C−DSSM[29]、ARC−I[11]、RNN−LSTM[21]、MV−LSTM[31]はこのカテゴリに属する。 0.71
Interaction-based matching approaches are closer to the nature of the matching task to some extent since they aim at directly capturing the local matching patterns between two input text, rather than focusing on the text representations. インタラクションベースのマッチングアプローチは、テキスト表現ではなく、2つの入力テキスト間のローカルマッチングパターンを直接捉えることを目的としているため、マッチングタスクの性質にある程度近い。 0.76
The pioneering work includes ARC-II [11], MatchPyramid [23], and Match-SRNN [32]. 先駆的な作業としては、ARC-II [11]、MatchPyramid [23]、Match-SRNN [32]がある。 0.61
Recently, there has been a trend that the two aforementioned branches of matching models should complement each other, rather than being viewed separately as two different approaches. 近年では、2つの異なるアプローチとして別途見なされるのではなく、上記2つのマッチングモデルの分枝が相互補完する傾向がみられる。 0.82
DUET [20] is composed of two separated modules, one in a representations-base d way, and another in an interaction-based way, the final matching score is just their weighted-sum result. duet [20]は2つの分離モジュールで構成されており、1つは表現ベースで、もう1つは相互作用ベースで、最後のマッチングスコアは重み付け和結果である。 0.67
The attention mechanism is another way to combine the above two approaches, such as RE2 [35] and BERT [6]. 注意機構は、上記の2つのアプローチ、例えば re2 [35] と bert [6] を組み合わせる別の方法である。 0.74
However, these existing approaches for short-form text matching have limited success in long-form text matching setting, due to their inability to capture and distill the main information from long documents. しかし,これらの長文テキストマッチング手法は,長文から主情報を抽出・抽出することができないため,長文テキストマッチング設定において限られた成功を収めている。 0.56
Besides, these models are computationally expensive because they simply use all textual data indiscriminately in the matching process. さらに、これらのモデルは、マッチングプロセスですべてのテキストデータを無差別に使用するため、計算コストがかかる。 0.62
2.2 Long-form Text Matching Few work directly focus on long-form text matching in the past years, mainly because the public datasets and the efficient algorithms are lacking, making its application scenarios have not been fully explored. 2.2 ロングフォームテキストマッチング 過去数年間、公開データセットと効率的なアルゴリズムが欠如しており、アプリケーションシナリオが十分に検討されていないため、ロングフォームテキストマッチングに直接注目する作業はほとんどなかった。 0.73
In recent years, thanks to the pioneer work SMASH proposed by Jiang et al [14], they are the first to point out that long-form text matching, e g source text and target text both are long-form text, has a wide range of application scenarios, such as attachment suggestion, article recommendation, and citation recommendation. 近年,Jiangらによって提案された先駆的なSMASHのおかげで,長文マッチング,egソーステキストとターゲットテキストがともに長文であること,アタッチメント提案,記事レコメンデーション,引用レコメンデーションなど幅広い応用シナリオがあること,などが指摘されている。 0.62
They propose a hierarchical recurrent neural network under Siamese architecture which is a kind of representation-based matching approach. 彼らは、表現に基づくマッチングアプローチの一種である、シームズアーキテクチャの下で階層的リカレントニューラルネットワークを提案する。
訳抜け防止モード: 彼らはシームズアーキテクチャの下で階層的リカレントニューラルネットワークを提案する 一種の表現-ベースマッチングアプローチです。
0.70
It synthesizes information from different document structure levels, including paragraphs, sentences, and words. それは、段落、文、単語を含む異なる文書構造レベルからの情報を合成する。 0.69
SMITH model [34] follows the SMASH’s settings, then utilizes powerful pre-trained language model BERT [6] as their key component and break the 512 tokens limitation to build a representation-based matching approach. SMITHモデル[34]はSMASHの設定に従い、次に強力な事前訓練された言語モデルBERT[6]をキーコンポーネントとして使用し、512トークン制限を破って表現ベースのマッチングアプローチを構築する。 0.73
Another work on long-form text matching is Concept Interaction Graph (CIG) [16], which concerns modeling the relation between two documents, e g same event or story. ロングフォームテキストマッチングに関するもう1つの研究は、コンセプトインタラクショングラフ(CIG) [16] である。
訳抜け防止モード: ロングフォームテキストマッチングに関するもう1つの研究は、Concept Interaction Graph (CIG ) [ 16 ]である。 これは2つのドキュメントの関係をモデル化する。
0.75
It can be treated as an interaction-based matching approach, which selects a pair of sentences based on their concepts and similarities. 相互作用に基づくマッチングアプローチとして扱うことができ、その概念と類似性に基づいて文のペアを選択する。 0.77
英語(論文から抽出)日本語訳スコア
Besides, they also construct two types of duplicate news detection datasets, which are labeled by professional editors. さらに、プロの編集者によってラベル付けされた2種類の重複ニュース検出データセットも構築している。 0.71
All the previous works ignore the fact that long-form text provides overabundance information for matching, that is to say, there are usually many noises in the setting of long-form text matching. これまでのすべての著作は、長文テキストが一致のための過剰な情報を提供するという事実を無視しており、つまり、長文テキストマッチングの設定には、通常多くのノイズがある。
訳抜け防止モード: 以前の作品は全て、長い-フォームテキストがマッチングの余分な情報を提供するという事実を無視している つまり、 通常、長い形式のテキストマッチングの設定には多くのノイズがあります。
0.72
This phenomenon also be discussed in query-document matching tasks, where a query is a short-form text and a document is a long-form text. この現象は、クエリがショートフォームテキストであり、ドキュメントがロングフォームテキストであるクエリ文書マッチングタスクでも議論される。 0.73
DeepRank [24] is the first work to treat query and document differently, in their model, each query term is act as a filter that picks out text spans in the document which contain this query term. DeepRank [24]は、クエリとドキュメントを異なる方法で扱う最初の作業であり、そのモデルでは、各クエリ項は、このクエリ項を含むドキュメント内のテキストスパンを抽出するフィルタとして機能する。 0.74
That is to say, query irrelevant text spans are the noise that can be ignored in the matching process. つまり、無関係なテキストスパンのクエリは、マッチングプロセスで無視できるノイズである。 0.60
PACRR [13] also has similar findings, they filter document words using two kinds of process, 1) keep first 𝑘 terms in the document or 2) retain only the text that is highly relevant to the given query. pacrr [13] にも同様の発見があり、文書の単語を2種類のプロセスでフィルタリングしている。 1) 文書に最初の k 項を保持するか、2) 与えられたクエリに非常に関係のあるテキストだけを保持するかである。
訳抜け防止モード: PACRR[13 ]も同様の所見を示した。 文書の単語をフィルタリングし 2種類のプロセスを使います 1 ) 最初の k 項を文書に保持するか、2 ) 与えられたクエリに非常に関係のあるテキストのみを保持する。
0.79
These previous works provide strong evidence that our noise filtering motivation can be effective for long-form text matching problem. これらの先行研究は,ノイズフィルタリングの動機付けが長文マッチング問題に有効であることを示す強い証拠である。 0.62
3 MATCH-IGNITION As we have seen, two levels of noise are in the long-form text, thus the proposed Match-Ignition model aims to filter out these noises to achieve both effectiveness and efficiency. 3 MATCH-IGNITION 長文に2つのノイズレベルがあるので,提案したMatch-Ignition モデルは,これらのノイズをフィルタリングして有効性と効率を両立させることを目的としている。 0.70
In this section, we first introduce the two components of Match-Ignition. 本稿ではまず,Match-Ignitionの2つのコンポーネントを紹介する。 0.71
They are sentence-level noise filter and word-level noise filter, shown in Figure 2(a) and Figure 2(c) respectively. これらは文レベルのノイズフィルタと単語レベルのノイズフィルタであり、それぞれ図2(a)と図2(c)に示される。 0.80
After that, the model training details are described in the last subsection. その後、モデルトレーニングの詳細は、前節に記載されている。 0.69
3.1 Sentence-level Noise Filtering To enable the application of graph-based ranking algorithms PageRank to natural languages, such as documents, a graph is needed to build that represents the relation between sentences. 3.1 文レベルのノイズフィルタリング グラフベースのランキングアルゴリズムをドキュメントなどの自然言語に適用するためには、文間の関係を表すグラフを構築する必要がある。 0.83
TextRank [19] makes it possible to form a sentence extraction algorithm, which can identify key sentences in a given document. テキストランク [19] は、指定された文書中の重要な文を識別する文抽出アルゴリズムを形成することができる。 0.77
It becomes a mature approach in automatic summarization. 自動要約における成熟したアプローチとなる。 0.73
A direct way is to apply the TextRank algorithm on each long-form text independently, to reduce the length of the long-form text and get their summarizations. 直接の方法は、各長文テキストにtextrankアルゴリズムを独立して適用し、長文テキストの長さを削減し、要約を得ることである。
訳抜け防止モード: 直接の方法は、TextRankアルゴリズムを各長文 - フォームテキストに独立して適用することである。 to reduce the length-form text and get their summarizations.
0.82
However, the goal of long-form text matching is to find the matching signals between a pair of text, which is different from automatic summarization that extracts key information from one text. しかし、長い形式のテキストマッチングの目標は、1つのテキストからキー情報を抽出する自動要約とは異なる、一対のテキスト間のマッチング信号を見つけることである。 0.81
Straightly applying the TextRank algorithm to each text independently leads to the problem of matching signals loss. テキストランクアルゴリズムを個別に各テキストに適用すると、信号損失のマッチングが問題となる。 0.80
Inspired by the previous works [13, 24], who tell us that two texts can help each other for noise detection, thus both of long-form texts should be represented in one graph to involve the matching information across two texts. 従来の[13, 24]にインスパイアされた彼は、2つのテキストがノイズ検出に役立ち、長文の双方を1つのグラフに表現して、2つのテキストにまたがるマッチング情報を含むべきであると教えてくれた。 0.73
Firstly, sentences in both long-form texts are collected together to form a united sentence collection. まず、両長文の文をまとめて統一した文集を形成する。 0.50
Formally, two long-form texts are first split into sentences, denoted as 𝑑𝑠 = [𝑠1 ], where 𝐿1 and 𝐿2 2, . 形式的には、2つの長文はまずds = [s1 ] と表記され、ここでは l1 と l2 2 である。 0.64
. . , 𝑠2 𝐿2 are the number of sentences in 𝑑𝑠 and 𝑑𝑡 respectively. . . s2 L2 はそれぞれ ds と dt の文数である。 0.80
The united sentence collection S = {𝑠1 } then have , 𝑠2 1, 𝑠2 2, . 合同文集合 S = {s1 } は , s2 1, s2 2, となる。 0.82
. . , 𝑠2 𝐿2 𝐿1 + 𝐿2 elements. . . , 𝑠2 𝐿2 𝐿1 + 𝐿2 elements. 0.84
Thus, the sentence similarity graph can be constructed by evaluating the sentence pair similarities in the united sentence collection S. The sentence similarity is defined as the same as in TextRank [19], to measures the overlapping word ratio これにより、統合文集合sにおける文対類似度を評価して文類似度グラフを構築することができる。文類似度をテキストランク[19]において同一と定義し、重なり合う単語比を測定する。 0.72
1, 𝑠2 2, . 1, 𝑠2 2, . 0.97
. . , 𝑠1 𝐿1 . . , 𝑠1 𝐿1 0.83
] and 𝑑𝑡 = [𝑠2 ]と dt = [s2] 0.84
1, 𝑠1 2, . 1, 𝑠1 2, . 0.90
. . , 𝑠1 𝐿1 . . , 𝑠1 𝐿1 0.83
1, 𝑠1 between two sentences: 1, 𝑠1 2つの文の間に 0.76
𝑆𝑖𝑚(𝑠𝑖, 𝑠 𝑗) = 𝑆𝑖𝑚(𝑠𝑖, 𝑠 𝑗) = 0.85
|{𝑤𝑘|𝑤𝑘 ∈ 𝑠𝑖, 𝑤𝑘 ∈ 𝑠 𝑗}| log(|𝑠𝑖|) + log(|𝑠 𝑗|) |{𝑤𝑘|𝑤𝑘 ∈ 𝑠𝑖, 𝑤𝑘 ∈ 𝑠 𝑗}| log(|𝑠𝑖|) + log(|𝑠 𝑗|) 0.93
, 𝑠𝑖, 𝑠 𝑗 ∈ S, , 𝑠𝑖, 𝑠 𝑗 ∈ S, 0.85
(1) where 𝑤𝑘 denotes the word in the sentence, | · | denotes the length of the sentence or word set, and 𝑠𝑖, 𝑠 𝑗 are two sentences in the united sentence collection S. To make sentence similarity sparsity e g returns 0 at the most of the time, we remove the stopwords in the sentences before we calculate the similarities. (1) wk が文中の単語を表し、 | · | が文または単語集合の長さを表し、si, sj が統一文集合 s 内の2つの文である場合、文類似度 eg が最多で 0 を返すように、類似度を計算する前に文中の停止語を削除する。
訳抜け防止モード: (1) wkが文中の単語を表す場合、 | · | は文の長さまたは単語セットを表す。 and si, s j is two sentences in the United sentence collection S。 文の類似性をスパーシティにするため、e g は最大で 0 を返す。 類似性を計算する前に 文章の停止語を取り除きます
0.82
Thus, the final sentence similarity graph has sparse links. したがって、最終文類似度グラフはスパースリンクを有する。 0.75
Finally, a PageRank algorithm is applied to this constructed sentence similarity graph, to get the important score of each sentence. 最後に、この構築された文類似性グラフにPageRankアルゴリズムを適用し、各文の重要なスコアを取得する。 0.75
To balance the information coming from different long-form texts for the following step, the top 𝜆 sentences are extracted for each long-form texts respectively. 以下のステップで異なる長文から得られる情報のバランスをとるために、各長文について上位λ文をそれぞれ抽出する。 0.65
Thus, both texts contain 𝜆 sentences as their digestion, which we called a sentence-level filter. このように、両文ともλ文を消化として含み、文レベルフィルタと呼ぶ。 0.72
As shown in Figure 2(b), the selected sentences are concatenated as a text sequence, which starts with [CLS] token and separates by [SEP] token. 図2(b)に示すように、選択された文は[cls]トークンから始まり、[sep]トークンで区切られるテキストシーケンスとして結合されます。 0.80
It is then treated as the input of the model in the word-level filter. その後、単語レベルのフィルタでモデルの入力として扱われる。 0.73
Note that the hyper-parameter 𝜆 should be neither too small to lose a lot of information, nor too large to make text extremely long. ハイパーパラメータλは、多くの情報を失うには小さすぎず、テキストを非常に長くするには大きすぎない。 0.72
A suitable 𝜆 can yield a moderate text sequence, which length is just less than the BERT max input length. 適切な λ は適度なテキストシーケンスを生成することができ、その長さは bert max の入力長よりも小さい。 0.71
PageRank algorithm can also be used at word-level if we can define a word-by-word relation graph. ワードバイワード関係グラフを定義することができる場合、pagerankアルゴリズムはワードレベルでも使用できる。 0.66
However, sentences are adjective from each other, noise in this level is discrete than an entire sentence can be removed in an unsupervised way, while a word relies on its context to express concrete meanings, noise in this level is continuous that should be estimated during the model training. しかし、文は形容詞的であり、このレベルの雑音は、教師なしの方法で全文よりも離散的であり、単語はその文脈に依存して具体的な意味を表現するが、このレベルの雑音はモデルトレーニング中に推定されるべき連続的である。 0.71
Therefore, we need to construct a graph within the Transformer model structures. したがって、トランスフォーマーモデル構造内にグラフを構築する必要がある。 0.80
3.2 Word-level Noise Filtering To filter the noise in the word-level, a word-level graph needs to be constructed first in the inherent transformer structure (Sec 3.2.1). 3.2 単語レベルのノイズフィルタリング 単語レベルのノイズをフィルタリングするには、固有のトランスフォーマー構造(sec 3.2.1)でまず単語レベルのグラフを構築する必要がある。 0.68
After that, the traditional PageRank algorithm is required to implement as a tensor version, for better to embed into the transformer structure (Sec 3.2.2). その後、従来のページランクアルゴリズムはテンソル版として実装され、トランスフォーマー構造(sec 3.2.2)への埋め込み性が向上している。
訳抜け防止モード: その後、伝統的なPageRankアルゴリズムが必要とされる テンソルバージョンとして実装するため、トランスフォーマー構造(Sec 3.2.2 )に組み込むのがよい。
0.71
Finally, we propose our plug PageRank to the Transformer model for word-level noise filtering (Sec 3.2.3). 最後に,単語レベルのノイズフィルタリングのためのTransformerモデルに対するPageRankプラグインを提案する(Sec 3.2.3)。 0.65
3.2.1 Transformer as a Graph. 3.2.1 グラフ変換器 0.76
Transformer architecture [30] boosts the natural language processing a lot, where most well-known models are a member of this family, such as BERT [7], RoBERTa [17], and GPT2 [26]. Transformerアーキテクチャ[30]は、BERT[7]、RoBERTa[17]、GPT2[26]といった、最もよく知られたモデルがこのファミリーのメンバーである、自然言語処理を大幅に促進します。
訳抜け防止モード: Transformerアーキテクチャ[30]は自然言語処理を大幅に強化します。 最もよく知られたモデルがこの家族の一員です。 BERT [7 ],RoBERTa [17 ] などです。 および GPT2 [26 ] である。
0.80
They achieve state-of-the-art performance in almost all NLP tasks, e g named entity recognition, text classification, machine translation, and also text semantic matching. ほぼすべてのNLPタスク、例えば名前付きエンティティ認識、テキスト分類、機械翻訳、およびテキスト意味マッチングで最先端のパフォーマンスを達成する。 0.67
For long-form text matching, we also adopt this architecture. 長文テキストマッチングには、このアーキテクチャも採用しています。 0.50
The self-attention block is the main component in Transformer architecture, which figure out how important all the other words in the sentence are for the contextual word around it. 自己注意ブロックはTransformerアーキテクチャの主要なコンポーネントであり、文中の他のすべての単語が、その周りの文脈的単語に対してどれほど重要かを理解する。 0.74
Thus, selfattention block builds the relations between words, that can be viewed as a fully connected graph among words [5, 10, 36]. したがって、セルフアテンションブロックは単語間の関係を構築し、 [5, 10, 36] 語間の完全連結グラフと見なすことができる。 0.82
Knowing that the updated word representations are simply the sum of linear transformations of representations across all the words, weighted by their importance. 更新された単語表現が単にすべての単語に対する表現の線形変換の和であることを知ることは、その重要性によって重み付けされる。 0.64
It makes full use of the attention mechanism in deep neural networks to update word representations. これは、単語表現を更新するディープニューラルネットワークにおけるアテンションメカニズムをフル活用する。 0.68
As have さすがに 0.61
英語(論文から抽出)日本語訳スコア
Figure 2: The overall architecture of Match-Ignition. 図2:Match-Ignitionの全体的なアーキテクチャ。 0.72
(a) represents the sentence-level filter, (b) represents the outputs of the sentence-level filter, and (c) represents the word-level filter. (a)は文レベルのフィルタを表し、(b)は文レベルのフィルタの出力を表し、(c)は単語レベルのフィルタを表す。 0.79
shown in [30], the attention function can be formalized as a scaled dot-product attention with inputs H𝑙: 30]に示すように、注目関数は、入力Hlでスケールしたドット積の注意として定式化することができる。 0.59
H𝑙+1 = Attention(Q𝑙 , K𝑙 , V𝑙) Q𝑙 (K𝑙)𝑇√ Hl+1 = Attention(Ql , Kl , Vl) Ql (Kl)T 0.94
= Softmax 𝐸 =ソフトマックス 𝐸 0.78
(cid:32) (cid:33) (cid:32) (cid:33) 0.78
V𝑙 = A𝑙 V𝑙 , Vl = Al Vl 。 0.67
(2) 𝑙 H𝑙 ∈ R𝑁×𝐸 the key matrix, and V𝑙 = WV (2) l Hl ∈ RN×E が鍵行列、Vl = WV 0.78
𝑙 H𝑙 ∈ R𝑁×𝐸 denote the attention query matrices, where Q𝑙 = WQ 𝑙 H𝑙 ∈ R𝑁×𝐸 K𝑙 = WK the value matrix. l Hl ∈ RN×E は注目クエリ行列を表し、Ql = WQ l Hl ∈ RN×E Kl = WK は値行列である。 0.76
𝑁 denotes the number of words in a text, and 𝐸 denotes the dimensions of the representation. N はテキスト中の単語の数を表し、E は表現の次元を表す。 0.69
The attention mechanism can be explained as: for each attention query vector in Q, it first computes the dot products of the attention query with all √ keys, aiming to evaluate the similarity between the attention query 𝐸, and applies a softmax and each key. 注意機構は次のように説明できる: q の各注意問合せベクトルに対して、最初に全ての ~ キーで注意問合せのドット積を計算し、注意問合せ e の類似性を評価し、ソフトマックスと各キーを適用する。 0.74
Then, it is divided each by function to obtain the weights on the values, denotes as A𝑙. すると、値の重みを求める関数ごとに分割され、Alと表される。 0.68
Finally, the new representation of the attention query vector is calculated as weighed sum of values. 最後に、注目クエリベクトルの新たな表現を、値の重み付け和として算出する。 0.71
Getting this dot-product attention mechanism to work proves to be tricky bad random initializations can de-stabilize the learning process. このドット積の注意機構を動作させることで、難易度の高いランダム初期化が学習プロセスを不安定にすることができる。
訳抜け防止モード: この点 - 製品に注意を向けるメカニズムを機能させる 厄介な乱雑な初期化をする can de - 学習プロセスを安定化する。
0.65
It can be overcome by performing multiple ‘heads’ of attention and concatenating the result: 複数の‘ヘッド’の注意を実行し、結果をまとめることで克服できる。 0.57
H𝑙+1 = Concat(ℎ𝑒𝑎𝑑1, · · · , ℎ𝑒𝑎𝑑𝐻)O𝑙 ℎ𝑒𝑎𝑑𝑘 = Attention(Q𝑘𝑙 , K𝑘𝑙 , V𝑘𝑙) = A𝑘𝑙 V𝑘𝑙 , Hl+1 = Concat(head1, · · · , headH)Ol headk = Attention(Qkl , Kkl , Vkl) = Akl Vkl , 0.94
(3) where Q𝑘𝑙, K𝑘𝑙 and V𝑘𝑙 are of the 𝑘-th attention head at layer 𝑙 with different learnable weights, O𝑙 down-projection to match the dimensions across layers, 𝐻 is the number of the heads in each layer and 𝐿 is the number of the layers. (3) qkl、kkl、vklは、異なる学習可能な重みを持つl層のk番目の注意ヘッドであり、olダウンプロジェクションは、層間の次元にマッチする、hは各層における頭部の数、lは層数である。 0.76
If we treat each word as a node in a graph, they update their representations by aggregating all other contextual word representations, just like messages passing from other neighbor nodes in graph neural network [28]. グラフ内の各単語をノードとして扱うと、グラフニューラルネットワーク[28]内の他の隣ノードから渡されるメッセージと同じように、他のすべてのコンテキストワード表現を集約することで、表現を更新します。 0.76
Thus, for self-attention block, it can be treated as a fully-connected word graph, where its adjacency matrix is the transpose of word-by-word similarity matrix A𝑘𝑙. したがって、自己アテンションブロックに対しては、その隣接行列が単語ごとの類似性行列Aklの転置となる完全連結のワードグラフとして扱うことができる。 0.70
3.2.2 PageRank in A Tensor View. 3.2.2 PageRank in A Tensor View 0.78
PageRank [3], is a graph-based ranking algorithms are essentially a way of deciding the importance of a vertex within a graph, based on global information recursively drawn from the entire graph. PageRank [3]はグラフベースのランキングアルゴリズムであり、本質的にはグラフ全体から再帰的に引き出されたグローバル情報に基づいて、グラフ内の頂点の重要性を決定する方法である。 0.84
Formally, given a graph 𝐺(𝑉 , 𝐸), where 𝑉 = {𝑣1, 𝑣2, . 形式的には、グラフ G(V, E) が与えられる(V = {v1, v2, )。 0.81
. . , 𝑣𝑁 } is a set of nodes and 𝐸 is the . . , vN } はノードの集合であり、E はノードである。 0.82
links between these nodes. ノード間のリンクです 0.67
The goal is to determine the order of these nodes that the more important node has a higher rank. 目標は、より重要なノードがより高いランクを持つノードの順序を決定することである。 0.77
The PageRank value on each node 𝑣𝑖, denotes as 𝑢𝑖, is used to indicate the importance of the node 𝑣𝑖. 各ノードvi 上の PageRank 値は ui と表され、ノードvi の重要性を示すために使われる。 0.74
For convenience, we define A as the adjacency matrix, that A𝑖 𝑗 denotes the 𝑣𝑖 has a link from 𝑣 𝑗 with weight A𝑖 𝑗. 便宜上、A を隣接行列として定義し、Ai j はウェイト Ai j を持つ v j からのリンクを持つ vi を表す。 0.75
A is also a stochastic matrix because each column sums up to 1. A もまた確率行列であり、各列は 1 にまとめられる。 0.65
At the initial step all 𝑢𝑖 have the same value 1/𝑁 , denotes that all nodes are equally important. 最初のステップでは、すべての ui は同じ値 1/N を持ち、全てのノードが等しく重要であることを示す。 0.68
At each following step , then PageRank value 𝑢𝑖 is updated using other nodes and links pointed to it, 次のステップごとに、PageRank値uiが他のノードとそれを指すリンクを使って更新される。 0.78
(4) After several iterations, the PageRank values 𝑢𝑖 will converge to a set of stable values 𝑢𝑖, and that is the solution of PageRank. (4) いくつかのイテレーションの後、pagerank値uiは、安定値uiの集合に収束し、pagerankのソリューションとなる。 0.63
𝑢𝑖 = 𝑣𝑗 ∈𝑉 A𝑖 𝑗 · 𝑢 𝑗 . 𝑢𝑖 = 𝑣𝑗 ∈𝑉 A𝑖 𝑗 · 𝑢 𝑗 . 0.91
∑︁ 1, 𝑢𝑡 2, . ∑︁ 1, 𝑢𝑡 2, . 0.83
. . , 𝑢𝑡 To implement PageRank in a tensor-based computational framework, such as TensorFlow [1] or PyTorch [25], we need a tensor version of PageRank algorithm. . . , 𝑢𝑡 TensorFlow [1] や PyTorch [25] のようなテンソルベースの計算フレームワークで PageRank を実装するには,PageRank アルゴリズムのテンソルバージョンが必要である。 0.85
Let u𝑡 = [𝑢𝑡 𝑛] to be a vector of length 𝑁 , that obtains all nodes PageRank values at step 𝑡. ut = [ut n] を長さ N のベクトルとし、ステップ t におけるすべてのノード PageRank 値を取得する。 0.86
Then, PageRank can be rewritten as, u𝑡+1 = Au𝑡 . 次に、PageRankは、ut+1 = Autと書き直すことができる。 0.64
(5) To solve the problem of isolated nodes, a stable version of PageRank is proposed [3] and adopted by our work, u𝑡+1 = 𝑑Au𝑡 + 1 − 𝑑 (5) 孤立ノードの問題を解決するために,pagerank の安定バージョン [3] を提案し,本研究により ut+1 = daut + 1 − d を採用した。 0.79
(6) where 𝑑 ∈ [0, 1] is a real value to determine the ratio of the two parts, and I is a vector of length 𝑁 with all its values are 1. (6) d ∈ [0, 1] が二つの部分の比を決定する実値であり、I は長さ N のベクトルで、すべての値が 1 である。 0.78
The factor 𝑑 is usually set to 0.85, and this is the value we are also using in our implementation. 通常、d は 0.85 に設定され、これは私たちが実装で使用している値です。 0.74
In practice, the iteration steps 𝑇 is set to a fixed value for computational efficiency. 実際に、繰り返しステップTを計算効率の固定値に設定する。
訳抜け防止モード: 実際 イテレーションのステップは tは計算効率のために固定値に設定される。
0.75
Thus, u𝑡 is the final PageRank scores for each 𝑣𝑖 ∈ 𝑉 , and the larger of PageRank denotes the more important of this node in the current graph, thus we can filter out the nodes with small PageRank values. したがって、ut は各 vi ∈ V に対して最終的な PageRank スコアであり、PageRank が大きいほど、現在のグラフにおいてこのノードのより重要な部分を示すので、小さな PageRank 値でノードをフィルタリングすることができる。 0.80
3.2.3 Plug PageRank in Transformer. 3.2.3 Plug PageRank in Transformer 0.76
In this section, we propose a novel approach that plugs PageRank in the Transformer model to filter the noise at the word-level. 本稿では,PageRankをTransformerモデルにプラグインし,単語レベルのノイズをフィルタする手法を提案する。 0.72
Notice that, word-level noise is composite and dynamic, thus need to be estimated dynamically during the matching process, so in each self-attention block, an 単語レベルのノイズは複合的で動的であるため、マッチングプロセス中に動的に推定する必要があることに注意してください。 0.70
𝑁 I, Sentence-LevelFilter Word-LevelFilterDoc1 Doc2SentenceSimilari tyGraphPageRank[CLS][SEP][SEP]……………WordSimilarityGraph𝐀𝒍……PageRankFilteringWor dsSelecttop-𝜆Sentences𝑠%%𝑠&%𝑠’%𝑠(%𝑠)%𝑠%&𝑠&&𝑠’&𝑠(&𝑠)&[CLS][SEP][SEP]𝛼𝑁𝑁(a)(b)(c)𝑁𝛼𝑁 𝑁 I, Sentence-LevelFilter Word-LevelFilterDoc1 Doc2SimilarityGraphP ageRank[CLS][SEP][SEP]...............WordS imilarityGraphAl.... ..PageRankFilteringW ordsSelecttop-λSentencess%%s&%s’%s(%s)%s%s&s&s’&s(&s)&[CLS][SEP][SEP]αNN(a)(b)(c)NαN 0.86
英語(論文から抽出)日本語訳スコア
inherent PageRank algorithm is utilized to dynamically filter the noisy words, which can reduce the sequence length layer by layer. 固有ページランクアルゴリズムを用いてノイズワードを動的にフィルタリングし、シーケンス長層をレイヤ単位で削減する。 0.70
Standard Transformer structure, which has been selected as our base model structure, has 𝐿 layers of multi-head self-attention blocks, stacked one after another, and maintains the same sequence length 𝑁 at each layer. 基本モデル構造として選定された標準変圧器構造は、l層を多頭部自着ブロックとし、次々に積み重ね、各層で同じシーケンス長nを維持する。 0.72
From the description in Section 3.2.1, we have known that self-attention block in Transformer can be treated as a word-by-word graph, which can be specified using an adjacency matrix (A𝑘𝑙)⊤ at 𝑘-th head and 𝑙-th layer in Eq 3. 第3.2.1節の記述から、トランスフォーマーの自己アテンションブロックはワードバイワードグラフとして扱うことができ、これはeq 3 において k 番目のヘッドと l 番目の層で隣接行列 (akl) で指定できる。 0.77
The word-level noise filtering process is once per layer, thus we need to average the effects of all adjacency matrices across different heads in the 𝑙-th layer, 単語レベルのノイズフィルタリングプロセスは1層あたり1回なので、l層内の異なるヘッドにまたがる全ての隣接行列の効果を平均する必要がある。 0.76
∑︁𝐻 A𝑙 = 1 𝐻 ∑︁𝐻 Al = 1 𝐻 0.83
𝑘=1 A𝑘𝑙 . (7) k=1Akl。 (7) 0.74
Because A𝑙 is the output of row-wise Softmax function, each row of A𝑙 sum to 1. Al は行次ソフトマックス関数の出力なので、Al の各行は 1 となる。
訳抜け防止モード: Al は行の出力なので wise Softmax 関数である。 各列のAlは1である。
0.84
Thus, (A𝑙)⊤ is a stochastic matrix, which can be treated as the adjacency matrix in a graph. したがって (Al) は確率行列であり、グラフの隣接行列として扱うことができる。 0.60
With above observation, we substitute (A𝑙)⊤ into Eq 5 and yield: 上述の観察で、 (al) を eq 5 に置換し、次の結果を得る。 0.61
u𝑡+1 = 𝑑(A𝑙)⊤u𝑡 + 1 − 𝑑 ut+1 = d(Al) =ut + 1 − d 0.93
𝑁 I. (8) Iteratively solving the equation above, we then get the PageRank values for all words/nodes in the (𝑙−1)-th layer, denote as u. 𝑁 I (8) 上記の方程式を反復的に解くと、(l−1)-層の全てのワード/ノードのページランク値が u と表される。 0.73
Thus, u represents the importance of the words in the (𝑙 − 1)-th layer. したがって、u は (l − 1)-th 層における単語の重要性を表す。 0.82
After applying the attention mechanism to the words in the (𝑙−1)-th layer, we get a list of new word representations as to the input of 𝑙-th layer. 注意機構を (l−1)-th 層の単語に適用すると,l-th 層の入力に関する新しい単語表現のリストが得られる。 0.76
To filter noisy words, we have to estimate the importance of the words/nodes in 𝑙-th layer, which can be evaluated by redistributing the importance of the word in (𝑙 −1)-th layer under the distribution A𝑙: 雑音の多い単語をフィルタリングするには,l-th層における単語/ノードの重要性を推定する必要がある。
訳抜け防止モード: 騒々しい言葉をフィルタリングする l層における単語/ノードの重要性を見積もる必要があります。 分布 Al: の下の (l −1) 層における単語の重要性を再分配することで評価できる。
0.80
r = A𝑙 u. (9) Finally, we can reduce the sequence length at 𝑙-th layer by removing the nodes which have the small values in r. In this work, we design a strategy that remove the percentage 𝛼 ∈ [0%, 100%] nodes per layer, so that the 𝑙-th layer has (𝛼)𝑙−1 · 𝑁 nodes. r = Al u。 (9) 最後に、r の小さい値を持つノードを除去することにより、l 階の配列長を小さくすることができる。本研究では、α ∈ [0%, 100%] のノードを層ごとに除去する戦略を設計し、l 階のノードは (α)l−1 · N のノードを持つようにした。 0.78
The hyper-parameter 𝛼 is called a word reduction ratio. ハイパーパラメータαは単語減少率と呼ばれる。 0.73
For example, let 𝐿 = 12, 𝑁 = 400, if we set 𝛼 to 10%, the numbers of nodes at each layer are 400, 360, 324, 291, 262, 236, 212, 191, 172, 154, 139, 125. 例えば L = 12, N = 400 とすると、α を 10% とすると、各層のノード数は 400, 360, 324, 291, 262, 236, 212, 191, 172, 154, 139, 125 となる。 0.76
For the BERT model, some words are too special to be removed, such as [CLS] token and [SEP] token. BERTモデルでは、[CLS]トークンや[SEP]トークンのように、取り除くには特別な単語がいくつかあります。 0.77
If the model occasionally removes these tokens during the training, it will lead to an unstable training process. モデルがトレーニング中にこれらのトークンを時々削除した場合、不安定なトレーニングプロセスにつながる。 0.76
It also affects the overall performance. 全体的なパフォーマンスにも影響を与える。 0.67
Therefore, a token mask is designed to keep these tokens across all the layers. したがって、トークンマスクは、これらのトークンをすべてのレイヤにわたって保持するように設計されている。 0.46
Discussions: Many previous works [5, 10, 36] have also noticed the relation between Transformer and graph. 議論: 以前の作品 [5, 10, 36] も Transformer と Graph の関係に気付きました。 0.69
Star-Transformer [10] adds a hub node to model the long-distance dependence and eliminates the links far from 3-term steps. Star-Transformer [10]は、長距離依存をモデル化するためのハブノードを追加し、3段階から離れたリンクを除去する。
訳抜け防止モード: Star - Transformer [10 ] が長い距離依存をモデル化するハブノードを追加 リンクを3段階から遠ざけます。
0.81
TransformerXL [5] uses a segment-level recurrence with a state reuse strategy to remove all the links between words in different segments, so that can break the fixed-length limitation. TransformerXL [5]は、状態再利用戦略によるセグメントレベルの再実行を使用して、異なるセグメントのワード間のすべてのリンクを削除します。 0.76
Sparse-Transformer [36] explicitly eliminate links in which attention scores are lower than the threshold to make the attention matrix sparse. スパース変換[36]は、注意行列をスパースさせるために閾値よりも注意スコアが低いリンクを明示的に排除する。 0.67
All of these previous works focus on eliminating links in the graph, while in this work, we focus on filtering noise words, as well as nodes, in the graph. これら以前の作業はすべて、グラフ内のリンクの排除に重点を置いていますが、この作業では、ノイズワードやノードのフィルタリングに重点を置いています。 0.75
Table 1: Description of evaluation datasets. 表1: 評価データセットの説明。 0.81
Dataset Doc Len. データセット doc len。 0.74
CNSE CNSS 982.7 996.6 CNSE CNSS 982.7 996.6 0.68
Pos / Neg 12865 / 16198 16887 / 16616 Pos / Neg 12865 / 16198 16887 / 16616 0.85
Train Dev 17438 5813 6701 20102 列車 dev 17438 5813 6701 20102 0.72
Test 5812 6700 テスト5812 6700 0.78
3.3 Model Training The Match-Ignition consists of two components, sentence-level filter, and word-level filter. 3.3 Model Training Match-Ignitionは2つのコンポーネント、文レベルフィルタとワードレベルフィルタで構成される。 0.69
The sentence-level filter is the heuristic approach that does not need a training process. 文レベルのフィルタは、トレーニングプロセスを必要としないヒューリスティックなアプローチである。 0.76
Thus, in this section, we only consider model training for the word-level filter component. そこで本節では,単語レベルフィルタコンポーネントのモデルトレーニングについてのみ検討する。 0.82
For the model training of word-level filter, we adopt the “pretraining + fine-tuning” paradigm as in BERT. 単語レベルのフィルタのモデルトレーニングでは,BERTのような「事前学習/微調整」パラダイムを採用する。 0.68
In this paradigm, the pre-trained Transformer is firstly obtained using a large unlabeled plain text in an unsupervised learning fashion. このパラダイムでは、事前学習されたトランスフォーマーは、教師なし学習方式で、まず大きなラベルのない平文を用いて得られる。
訳抜け防止モード: このパラダイムでは、事前訓練されたトランスフォーマーが最初に取得される 教師なしの学習方式で 大きなラベルのない平文を使います
0.61
Then, the Transformer with plugging PageRank at each layer is fine-tuned using the supervised downstream task. そして、各層にpagerankを挿入したトランスを教師付きダウンストリームタスクを使用して微調整する。 0.61
Note that word-level filters do not change the parameters in the original Transformer, due to all the parameters in the Transformer are input sequence length independent. ワードレベルのフィルタは、トランスの全てのパラメータが入力シーケンスの長さに依存しないため、元のトランスフォーマーのパラメータを変更しない。 0.82
Therefore, change the sequence length layer by layer does not affect the structure of the Transformer. したがって、シーケンス長層を層別に変更してもトランスの構造に影響を与えない。 0.73
Benefit from the good property of PageRank-Transformer , we can directly adopt a publicly released Transformer model, such as BERT or RoBERTa trained on a large corpus, as our pre-trained model. PageRank-Transformer の利点から、BERTやRoBERTaといった公開されたTransformerモデルを直接、トレーニング済みのモデルとして採用することができます。
訳抜け防止モード: PageRank - Transformer の利点 大きなコーパスでトレーニングされたBERTやRoBERTaといった、公開されたTransformerモデルを直接採用できます。 事前訓練されたモデルとして。
0.69
In the fine-tuning step, we add the PageRank module in each self-attention layer, without introducing any additional parameters. 微調整のステップでは、パラメータを追加せずに、各自己アテンション層にPageRankモジュールを追加します。 0.72
The objective function for long-form text matching task is a binary cross-entropy loss: 長文マッチングタスクの目的関数は、バイナリのクロスエントロピー損失である。 0.67
𝑦𝑖 log 𝑝𝑖 + (1 − 𝑦𝑖) log(1 − 𝑝𝑖), yi log pi + (1 − yi) log(1 − pi) 0.80
(10) L = −∑︁ (10) L = − 。 0.74
𝑖 where 𝑝𝑖 is the probability represents the matching score, generated by the representation of [CLS], and 𝑦𝑖 is the ground-truth label. 𝑖 ここでpiは[cls]の表現によって生成される一致するスコアを表し、yiは接地ラベルである。
訳抜け防止モード: 𝑖 piの確率は cls ] の表現によって生成される一致するスコアを表す。 そしてyiは根拠-真実のラベルです。
0.77
4 EXPERIMENTS In this section, we conduct experiments and in-depth analysis on a publicly large dataset to demonstrate the effectiveness and efficiency of the proposed model. 4 実験 この節では,提案モデルの有効性と有効性を示すために,公開データセット上で実験と詳細な分析を行う。 0.83
4.1 Datasets Very few public datasets for long-form text matching tasks, except the Chinese News Same Event dataset (CNSE) and Chinese News Same Story dataset (CNSS) have been released in [16]. 4.1 データセットは、[16]でリリースされた chinese news same event dataset (cnse) と chinese news same story dataset (cnss) を除いて、長い形式のテキストマッチングタスクのための公開データセットは非常に少ない。 0.73
They are constructed based on large Chinese news articles, collected from major Internet news providers in China, covering diverse topics in the open domain 1. それらは中国の大手インターネットニュースプロバイダから収集された大規模な中国のニュース記事に基づいて構築され、オープンドメイン1.1における様々なトピックをカバーしている。
訳抜け防止モード: 中国の主要インターネットニュースプロバイダから収集された大規模な中国ニュース記事を基に構築されている。 open domain 1.0のさまざまなトピックを取り上げる。
0.72
The task is to identify whether a pair of news articles report the same breaking news (or event) for the CNSE dataset or whether they belong to the same series of a news story for the CNSS dataset. この課題は、CNSEデータセットで同じニュース(またはイベント)を報告しているニュース記事のペアが、CNSSデータセットで同じニュースストーリーに属しているかどうかを特定することである。 0.79
All of this pair of news articles are labeled by professional editors. この2つのニュース記事はすべて、プロの編集者によってラベル付けされている。 0.51
Note that the major event (or story) is labeled since, in the real world, each breaking news article on the Internet must be intended to report some specific breaking news that has just happened to attract clicks and views. それ以来、主要なイベント(またはストーリー)は、実世界では、インターネット上の各ニュース記事は、クリックやビューを惹きつけるために偶然に起きた特定のニュースを報告するためのものでなければならない。 0.81
The objective of this 1Datasets are available at https://github.com/B angLiu/ArticlePairMa tching この1Datasetsの目的はhttps://github.com/B angLiu/ArticlePairMa tchingにある。 0.60
英語(論文から抽出)日本語訳スコア
dataset is to determine whether two news articles intend to report the same breaking news. データセットは 2つのニュース記事が 同じニュースを報告するかどうかを 判断するものです 0.75
The CNSE dataset contains 29,063 pairs of news articles, and the CNSS dataset contains 33,503 pairs of articles. CNSEデータセットは29,063対のニュース記事を含み、CNSSデータセットは33,503対のニュース記事を含んでいる。 0.58
We follow the settings in [16] and split it into training, development, and testing set with the portion of instances 6:2:2. 16]の設定に従い、インスタンス 6:2:2 の部分でトレーニング、開発、テストセットに分割します。 0.69
We carefully ensure that different splits do not contain any overlaps to avoid data leakage. データ漏洩を避けるために、異なる分割がオーバーラップしないよう慎重に保証します。 0.68
The average number of words (represents Chinese characters in this paper) for all documents in the datasets is about 990 and the maximum value is 21,791. データセット中のすべての文書の平均語数(この論文では漢字を表現)は約990であり、最大値は21,791である。 0.80
The negative samples in the two datasets are not randomly generated. 2つのデータセットの負のサンプルはランダムに生成されない。 0.72
Document pairs that contain similar keywords are selected and exclude samples with TF-IDF similarity below a certain threshold. 類似キーワードを含む文書ペアが選択され、特定のしきい値以下でTF-IDF類似性のサンプルを除外する。 0.63
The detailed datasets statistics are shown in Table 1. 詳細なデータセット統計を表1に示す。 0.80
Evaluation Metrics: The metrics used for performance evaluation are the accuracy and F1 scores, as the same as that in [16], which are the typical evaluation metrics for binary classification tasks. 評価メトリクス: パフォーマンス評価に使用されるメトリクスは、[16]の値と同じ精度とf1スコアで、バイナリ分類タスクの典型的な評価指標です。 0.66
For each evaluated method, we perform training for 10 epochs and then choose the epoch with the best validation performance to be evaluated on the test set. 評価した各方法について,10個のエポックのトレーニングを行い,テストセット上で評価する最高の検証性能でエポックを選択する。 0.75
4.2 Baselines and Experimental Settings We adopt two types of baseline methods for comparison, including traditional term-based methods and recent deep learning methods. 4.2 ベースラインと実験的な設定 従来の用語ベースメソッドと最近のディープラーニングメソッドを含む2種類のベースラインメソッドを比較した。 0.81
For traditional term-based methods, the implementation details are listed as follows and the experimental results directly bring from [16]: 従来の用語ベースのメソッドでは、実装の詳細は以下のとおりで、実験結果は [16] から直接得られる。
訳抜け防止モード: 従来の用語 - ベースのメソッド。 実施の詳細は以下の通りです 実験の結果は [16]から直接得られます
0.82
the classical probabilistic retrieval model. 古典的確率的検索モデルです 0.79
based on words co-occurrence in the documents. 文書内の単語の共起に基づく。 0.69
• BM25 [27]: a highly effective retrieval model that represents • LDA [2]: a topic model that constructs document vector • SimNet [16]: it extracts five text-pair similarities, including the TF-IDF cosine similarity, TF cosine similarity, BM25 cosine similarity, Jaccard similarity of 1-gram, and Ochiai similarity. • bm25 [27]: • lda [2]: ドキュメントベクトルを構成するトピックモデル • simnet [16]: tf-idfコサインの類似性、tfコサインの類似性、bm25コサインの類似性、jaccardの1グラムの類似性、オチアイの類似性を含む5つのテキストペア類似性を抽出する。 0.75
These similarity scores are concatenated into a vector, classifying by a multi-layer neural network. これらの類似度スコアはベクトルに連結され、多層ニューラルネットワークによって分類される。 0.68
For deep learning methods, we compare three types of text matching models, including three representation-based approaches, i.e. 深層学習では,3種類のテキストマッチングモデル,すなわち3つの表現に基づくアプローチを比較した。 0.82
DSSM [12], C-DSSM [29], and ARC-I [11], four interaction-based approaches, i.e. DSSM [12]、C-DSSM [29]、ARC-I [11]、相互作用に基づく4つのアプローチ。 0.73
ARC-II [11], MatchPyramid [23], and three combination approaches DUET [20], RE2 [35], and BERT-Finetuning [7]. ARC-II [11], MatchPyramid [23], and three combination approach DUET [20], RE2 [35], BERT-Finetuning [7]。
訳抜け防止モード: ARC - II [ 11 ], MatchPyramid [ 23 ] そして、3つの組み合わせが DUET [20 ], RE2 [35 ] に近づく。 BERT - Finetuning [ 7 ]
0.86
Some implementation details are listed as follows: 実装の詳細は以下のとおりである。 0.60
• DSSM [12]: a representation-based deep matching model with three layers feedforward network for each document. • DSSM [12]: 各ドキュメントに3つのレイヤをフィードフォワードした表現ベースのディープマッチングモデル。 0.82
• C-DSSM [29]: a representation-based deep matching model with three layers 1D convolutional neural network for each document. • c-dssm [29]: ドキュメント毎に3層1d畳み込みニューラルネットワークを持つ表現ベースのディープマッチングモデル。 0.83
• ARC-I [11]: a representation-based deep matching model with three layers 1D convolutional neural network for each document. • arc-i [11]: ドキュメント毎に3つのレイヤ1d畳み込みニューラルネットワークを持つ、表現ベースのディープマッチングモデル。 0.74
• ARC-II [11]: an interaction-based deep matching model with • MatchPyramid [23]: an interaction-based deep matching model with two layers 2D convolutional neural network and uses the dot-product function to construct the word-level interaction matrix. •ARC-II [11]: • MatchPyramid [23]: 2次元畳み込みニューラルネットワークを用いたインタラクションベースのディープマッチングモデルで、ドット積関数を用いて単語レベルの相互作用行列を構築する。
訳抜け防止モード: •ARC-II [11 ] : 相互作用に基づくMatchPyramid [23 ] : 2次元畳み込みニューラルネットワークを用いた相互作用に基づくディープマッチングモデル ドット-積関数を使い 単語-レベル相互作用行列を構築する。
0.86
two layers 2D convolutional neural network. 2層畳み込みニューラルネットワーク。 0.51
• DUET [20]: a combination model that directly weighted sum representation-based and interaction-based models’ results. • DUET [20]:和表現と相互作用モデルの結果を直接重み付けした組合せモデル。 0.81
• RE2 [35]: a combination model using attention mechanism, which is keeping three key features directly available for inter-sequence alignment and fusion. • re2 [35]: アテンション機構を使用したコンビネーションモデル。
訳抜け防止モード: • re2[35] : 注意機構を用いた組合せモデル シーケンシャルアライメントとフュージョンという3つの重要な機能を直接利用できます。
0.88
We use the default settings of the model in the original paper. モデルのデフォルト設定はオリジナルの論文で使用しています。 0.82
• BERT-Finetuning [7]: a combination model using an attention mechanism, especially the Transformer structure. •BERT-Finetuning [7]:アテンションメカニズム、特にトランスフォーマー構造を用いた組み合わせモデル。 0.69
It is fine-tuned on text matching tasks by a large-scale pretraining language model, for example, BERT for Chinese 2. テキストマッチングタスクを大規模事前学習言語モデル(中国語のBERTなど)で微調整する。
訳抜け防止モード: 巨大な-スケール事前学習言語モデルによってテキストマッチングタスクにチューニングされる。 例えば、中国語ではBERT。
0.66
The results of DSSM, C-DSSM, ARC-I, ARC-II, MatchPyramid, and DUET are from the previous work [16], which uses the implementations from MatchZoo [8] for the evaluation of these models 3. DSSM, C-DSSM, ARC-I, ARC-II, MatchPyramid, DUET の成果は,MatchZoo [8] の実装をこれらのモデル 3 の評価に用いた以前の作業 [16] から得られたものである。 0.85
BERT-Finetuning uses a pre-trained BERT model on Chinese, e g “bert-base-chinese”, from the HuggingFace website. BERT-Finetuningは、HuggingFaceのWebサイトから中国語の“bert-base-chinese”など、トレーニング済みのBERTモデルを使用している。
訳抜け防止モード: BERT - ファインタニングは中国語でトレーニング済みのBERTモデルを使用する。 とHuggingFace Webサイトにある。
0.65
It is fine-tuned 10 epochs on the training set. トレーニングセットには10エポックの微調整が施されている。 0.61
RE2 is implemented using released code by the author 4. RE2は、著者がリリースしたコードを使って実装されている。 0.57
approach on CNSE and CNSS dataset. CNSEとCNSSデータセットへのアプローチ。 0.79
Concept Interaction Graph (CIG) model 5 is the state-of-the-art • CIG-Siam-GCN [16]: it generates the matching vector using a Siamese encoder for each vertex, after that a GCN is applied to this constructed graph to obtain the matching score. 概念相互作用グラフ(CIG)モデル5は、最先端•CIG−Siam−GCN[16]であり、各頂点に対してシームズエンコーダを用いてマッチングベクトルを生成し、次いで、この構築されたグラフにGCNを適用してマッチングスコアを得る。 0.77
• CIG-Sim&Siam-GCN [16]: it generates the matching vector using Siamese encoder and term-based similarity encoder for each vertex, after that, a GCN is applied to this constructed graph to obtain the matching score. • CIG-Sim&Siam-GCN [16]: 頂点毎にシームズエンコーダと項ベース類似性エンコーダを用いてマッチングベクトルを生成し、その後、この構築されたグラフにGCNを適用してマッチングスコアを得る。 0.87
• CIG-Sim&Siam-GCN-Sim𝑔 [16]: use of additional global features given by the five term-based similarity metrics mentioned in SimNet. • CIG-Sim&Siam-GCN-Simg [16]: SimNetで言及されている5つの項ベースの類似性メトリクスによって与えられる追加のグローバル機能の使用。 0.62
The hyper-parameters of our Match-Ignition model are listed below. 私たちのMatch-Ignitionモデルのハイパーパラメータを以下に示す。 0.61
In sentence-level filter, the number of selected sentences per long-form text 𝜆 is set to 5, the 𝑑 in PageRank algorithm defined in Eq 5 is set to 0.85. 文レベルフィルタでは、長文λ毎に選択された文数を5とし、Eq5で定義されたPageRankアルゴリズムのdを0.85とする。 0.78
In word-level filter, we adopt a pre-trained BERT model for Chinese, e g “bert-base-chinese”, which contains 𝐻 = 12 heads and 𝐿 = 12 layers. 単語レベルのフィルタでは、H = 12 の頭とL = 12 の層を含む中国語の「bert-base-chinese」を事前訓練したBERTモデルを採用する。 0.72
The words reduce ratio 𝛼 is set to 10%, that is to say, we remove 10% words per layer by default. 単語還元比αは10%に設定され、つまり、デフォルトでは層ごとに10%の単語を削除する。 0.74
The fine-tuning optimizer is Adam [15] with the learning rate 10−5, 𝛽1 = 0.9, 𝛽2 = 0.999, 𝜖 = 10−8 and batch size is set to 8. 微調整オプティマイザはAdam [15]で、学習速度は10−5, β1 = 0.9, β2 = 0.999, ε = 10−8, バッチサイズは8に設定されている。 0.65
The model is built based on the Transformers 6 library using PyTorch 1.2 [25]. このモデルは、PyTorch 1.2[25]を使用してTransformers 6ライブラリに基づいて構築されている。 0.64
The source code will be released at https://github.com/x xx/. ソースコードはhttps://github.com/x xx/で公開される。 0.61
4.3 Experimental Results The performance comparison results of Match-Ignition against baseline models are shown in Table 2 on the CNSE dataset and CNSS dataset respectively. 4.3 実験結果 CNSE データセットと CNSS データセットの表2において, ベースラインモデルに対するマッチ着火性能の比較結果を示した。 0.83
From these experimental results, we can summarize as follow: これらの実験結果から、次のようにまとめることができる。 0.64
1) The importance of exact matching signals. 1) 正確な一致信号の重要性。 0.82
The first blocks of Table 2 illustrates the performances of traditional term-based methods. 表2の最初のブロックは、伝統的な用語ベースのメソッドのパフォーマンスを示しています。 0.60
Their good performances illustrate that global matching features for long-form text pairs are important. 彼らの優れたパフォーマンスは、長文ペアのグローバルマッチング機能が重要であることを示している。 0.55
Term-based methods assume that long-form text is a bag of words, and the matching 長文テキストは単語の袋でありマッチングであると仮定する項ベース手法 0.74
2Download from https://huggingface. co/bert-base-chinese . 2Download from https://huggingface. co/bert-base-chinese .com 0.40
3Code is available at https://github.com/N TMC-Community/MatchZ oo. 3Codeはhttps://github.com/N TMC-Community/MatchZ oo.comで入手できる。 0.39
4Code is available at https://github.com/a libaba-edu/simple-ef fective-text-matchin g. 4codeはhttps://github.com/a libaba-edu/simple- effective-text-match ingで入手できる。 0.36
5Code is available at https://github.com/B angLiu/ArticlePairMa tching 6Code is available at https://github.com/h uggingface/transform ers. 5Codeはhttps://github.com/B angLiu/ArticlePairMa tching 6Codeで入手できる。 0.70
英語(論文から抽出)日本語訳スコア
Table 2: Experimental results on CNSE and CNSS datasets. 表2: CNSEとCNSSデータセットの実験結果。 0.76
Significant performance degradation with respect to MatchIgnition is denoted as (-) with p-value ≤ 0.05. MatchIgnition に関する重要な性能劣化は、p-値 ≤ 0.05 で (-) と表される。 0.83
We only do significant test on the models reimplemented from the source code, while the results bring from [16] do not test due to the lack of the detailed predictions. ソースコードから再実装されたモデルでは、重要なテストしか行いませんが、[16]から得られる結果は、詳細な予測がないためテストされません。 0.68
CNSE Dataset CNSEデータセット 0.74
Model BM25 LDA SimNet ARC-I ARC-II DSSM C-DSSM MatchPyramid DUET RE2 BERT-Finetuning CIG-Siam-GCN CIG-Sim&Siam-GCN CIG-Sim&Siam-GCN-Sim𝑔 Match-Ignition Model BM25 LDA SimNet ARC-I ARC-II DSSM C-DSSM MatchPyramid DUET RE2 BERT-Finetuning CIG-Siam-GCN CIG-Sim&Siam-GCN CIG-Sim&Siam-GCN-Simg Match-Ignition 0.53
CNSS Dataset CNSSデータセット 0.79
Model BM25 LDA SimNet ARC-I ARC-II DSSM C-DSSM MatchPyramid DUET RE2 BERT-Finetuning CIG-Siam-GCN CIG-Sim&Siam-GCN CIG-Sim&Siam-GCN-Sim𝑔 Match-Ignition Model BM25 LDA SimNet ARC-I ARC-II DSSM C-DSSM MatchPyramid DUET RE2 BERT-Finetuning CIG-Siam-GCN CIG-Sim&Siam-GCN CIG-Sim&Siam-GCN-Simg Match-Ignition 0.53
Acc 69.63 63.81 71.05 53.84 54.37 58.08 60.17 66.36 55.63 80.59− 81.30− 74.58− 84.64− 84.21− 86.32 Acc 69.63 63.81 71.05 53.84 54.37 58.08 60.17 66.36 55.63 80.59− 81.30− 74.58− 84.64− 84.21− 86.32 0.38
Acc 67.77 62.98 70.78 50.10 52.00 61.09 52.96 54.01 52.33 84.84− 86.64− 78.91− 89.77− 90.03− 91.28 Acc 67.77 62.98 70.78 50.10 52.00 61.09 52.96 54.01 52.33 84.84− 86.64− 78.91− 89.77− 90.03− 91.28 0.38
F1 66.60 62.44 69.26 48.68 36.77 64.68 48.57 54.01 51.94 78.27− 79.20− 73.69− 82.75− 82.46− 84.55 F1 66.60 62.44 69.26 48.68 36.77 64.68 48.57 54.01 51.94 78.27− 79.20− 73.69− 82.75− 82.46− 84.55 0.38
F1 70.40 69.11 74.50 66.58 53.83 70.58 56.75 62.52 60.67 85.28− 87.08− 80.72− 90.07− 90.29− 91.39 F1 70.40 69.11 74.50 66.58 53.83 70.58 56.75 62.52 60.67 85.28− 87.08− 80.72− 90.07− 90.29− 91.39 0.38
only happens in identical words. 同一の言葉でのみ起こる。 0.81
Its noise-proof property attributes to the sparsity of exact matching signals. その防音特性は、正確なマッチング信号の空間性に起因する。 0.66
However, merely exact matching signals are not enough, and the semantic matching signals are also important in long-form text matching. しかし、単に正確なマッチング信号だけでは不十分であり、意味マッチング信号も長文マッチングにおいて重要である。 0.70
2) Text verbosity affects the performance of short text matching models. 2)テキストの冗長性は,短文マッチングモデルの性能に影響する。 0.73
For representation-based approaches, when the text is long, it is hard to get an appropriate context vector representation for matching. 表現に基づくアプローチでは、テキストが長い場合には、マッチングに適切なコンテキストベクトル表現を得るのは難しい。 0.79
For interaction-based approaches, most of the interactions between words in two long articles will be meaningless. 相互作用に基づくアプローチでは、2つの長い記事における単語間の相互作用のほとんどは意味がない。 0.66
A similar analysis can be found in applying the MatchPyramid model to the information retrieval task [22]. 情報検索タスク[22]にMatchPyramidモデルを適用する際にも、同様の分析が見られる。 0.74
That is the reason why recent それが最近の理由である。 0.75
short text matching models fail in long-form text matching task, see the second blocks of Table 2. 短いテキストマッチングモデルは、長い形式のテキストマッチングタスクで失敗する。
訳抜け防止モード: 短いテキストマッチングモデルは長い時間で失敗する。 表2の2番目のブロックを参照。
0.76
3) Benefit from modeling diverse matching requirements. 3) 多様なマッチング要件のモデリングの恩恵を受ける。 0.64
As we can see, in the third blocks of Table 2, a combination of representationbased and interaction-based approaches leads to great improvement, e g about 14% accuracy in CNSE and 23% accuracy in CNSS. このように、表2の第3ブロックでは、表現に基づくアプローチと相互作用に基づくアプローチの組み合わせによって、CNSEの約14%の精度とCNSSの23%の精度が大幅に向上する。 0.78
That is because combination approaches can model the diverse matching requirements using the attention mechanism. これは、アテンションメカニズムを使って様々なマッチング要求をコンビネーションアプローチがモデル化できるためである。 0.67
For the verbosity hypothesis, self-attention can aggregate all the information in the long-range. 冗長性仮説では、自己注意は長距離における全ての情報を集約することができる。 0.51
For the scope hypothesis, attention scores help the model to focus on a part of the long-form text at a time. スコープ仮説では、注意スコアはモデルが長い形式のテキストの一部に一度に集中するのに役立つ。 0.61
Note that the naive weighted-sum combination approach, like DUET, does not work well for long-form text matching. DUETのような単純で重み付けされた組み合わせアプローチは、長文マッチングではうまく機能しない。 0.64
4) Noise filtering is helpful. 4)ノイズフィルタリングは有用である。 0.81
The proposed Match-Ignition model outperforms other baselines on both CNSE and CNSS datasets. 提案手法は,cnse と cnss のデータセットのベースラインを上回っている。 0.48
It achieves a new state-of-the-art performance comparing to the CIG based models. CIGベースのモデルと比較して、新しい最先端のパフォーマンスを実現する。 0.56
Note that the performance of the CIG model is largely depended on the term-based features, e g five text-pair similarities extracted in SimNet. CIGモデルの性能は、例えばSimNetで抽出された5つのテキストペア類似性など、用語ベースの機能に大きく依存する。 0.73
It drops significantly when these hand-crafted features are removed, comparing the performances between CIGSiam-GCN and CIG-Sim&Siam-GCN. CIGSiam-GCNとCIG-Sim&Siam-GCNのパフォーマンスを比較して、手作りの機能を削除した場合、大幅に低下する。 0.50
However, the Match-Ignition model achieves a higher performance without involving any handcrafted features. しかし、Match-Ignitionモデルは手作りの特徴を伴わずにより高い性能を達成する。 0.69
It only depends on realizing that noise filtering is an important job for long-form text matching. ノイズフィルタリングが長文マッチングの重要な仕事であることにのみ依存する。 0.66
4.4 Ablation Study To demonstrate the effects of two levels of noise filtering strategy, in this section, we do an ablation study on our Match-Ignition model. 4.4 アブレーション研究 この節では,2段階のノイズフィルタリング戦略の効果を示すために,我々のマッチ着火モデルに関するアブレーション研究を行う。 0.85
The experimental results are shown in Table 3. 実験結果は表3に示されています。 0.79
The model “− Sentence-level Filter” denotes that we skip sentencelevel filtering that directly selects the top 𝜆 sentences for each longform text, while the word-level filter still exists. The model “- Sentence-level filter” は、単語レベルのフィルタがまだ存在するのに対して、長文ごとのトップλ文を直接選択する文レベルのフィルタリングを省略することを意味する。 0.71
In contrast, the model “− Word-level Filter” denotes that we remove the word-level filtering, instead of using the original Transformer directly, while the sentence-level filter still exists. 対照的に、"- Word-level filter" モデルでは、文レベルのフィルタがまだ存在する間、元の Transformer を直接使用する代わりに、ワードレベルのフィルタリングを削除することを示しています。 0.68
If we remove all the noise filters, the model reduces to “BERT-Finetuning” at the bottom line in Table 3. ノイズフィルタを全部取り除けば、そのモデルはTable 3のボトムラインで“BERT-Finetuning”に縮小される。 0.77
As we can see, the same conclusions on both CNSE and CNSS datasets including 1) sentence-level and word-level filters are useful for the final performance, 2) using an identical pre-trained BERT model, noise filtering strategy brings a significant improvement, e g about 5% accuracy on CNSE and 4% accuracy on CNSS comparing with Match-Ignition and BERT-Finetuning. 以上のように,1) 文レベルと単語レベルのフィルタを含むCNSEとCNSSのデータセットにおける同じ結論が最終性能に有用である。2) 事前訓練されたBERTモデルを用いて,ノイズフィルタリング戦略はCNSEの約5%,CNSSの約4%の精度をMatch-IgnitionとBERT-Finetuningと比較するなど,大幅な改善をもたらす。 0.77
There exist some differences between CNSE and CNSS datasets. CNSEとCNSSデータセットにはいくつかの違いがある。 0.64
For CNSE, a sentence-level filter is more efficient than a word-level filter. CNSEの場合、文レベルフィルタは単語レベルフィルタよりも効率的である。 0.74
And besides, if we use a word-level filter only, it will harm the overall performance. さらに、ワードレベルのフィルタのみを使用すると、全体的なパフォーマンスが損なわれる。 0.68
In this dataset, to make a word-level filter function well, we need the help of a sentence-level filter. このデータセットでは、単語レベルのフィルタをうまく機能させるために、文レベルのフィルタの助けが必要です。 0.72
In contrast, in the CNSS dataset, either sentence-level or word-level filter leads to a large improvement. 対照的に、CNSSデータセットでは、文レベルまたは単語レベルフィルタが大きな改善をもたらす。 0.80
Unfortunately, the chain on these two filters brings in a very limited improvement. 残念ながら、この2つのフィルターの連鎖は、非常に限定的な改善をもたらす。 0.70
4.5 Impact of Words Reduction Ratio The words reduction ratio of 𝛼 is a major hyper-parameter in the word-level filter, which use to determine how many words/nodes should be deleted in each layer. 4.5 単語の削減率 単語の削減率 α はワードレベルのフィルタにおいて主要なハイパーパラメータであり、各層でワード/ノードの削除数を決定するのに使用される。 0.74
Frankly speaking, it is not an optimal 率直に言って、それは最適ではない 0.67
英語(論文から抽出)日本語訳スコア
Table 3: Ablation study of Match-Ignition, symbol ‘−’ means to remove a specific component. 表3: マッチ火薬のアブレーション研究 記号「−」は特定の成分を取り除くことを指す。 0.78
Model Match-Ignition − Sentense-level Filter − Word-level Filter BERT-Finetune Model Match-Ignition − Sentense-level Filter − Word-level Filter BERT-Finetune 0.65
CNSE CNSS Acc 86.32 80.31 84.11 81.30 CNSE CNSS Acc 86.32 80.31 84.11 81.30 0.73
F1 84.55 76.39 82.17 79.20 F1 84.55 76.39 82.17 79.20 0.47
Acc 91.28 91.10 91.04 86.64 Acc 91.28 91.10 91.04 86.64 0.50
F1 91.39 91.18 91.07 87.08 F1 91.39 91.18 91.07 87.08 0.47
Table 4: The impact of word reduction ratio 𝛼 and the execution time of these models. 表4: 単語削減率αとこれらのモデルの実行時間の影響。 0.71
Word Denoise 0% 5% 10% 20% word denoise 0% 5% 10% 20% 0.77
CNSE CNSS Acc 84.11 85.68 86.32 82.55 CNSE CNSS Acc 84.11 85.68 86.32 82.55 0.73
F1 82.17 83.65 84.55 79.66 F1 82.17 83.65 84.55 79.66 0.47
Acc 91.04 90.70 91.28 90.25 Acc 91.04 90.70 91.28 90.25 0.50
F1 91.07 90.73 91.39 90.21 F1 91.07 90.73 91.39 90.21 0.47
Time per batch Eval Train 0.42s 1.73s 0.37s 1.58s 1.33s 0.31s 0.21s 1.07s Eval Train 0.42s 1.73s 0.37s 1.58s 1.33s 0.31s 0.21s 1.07s 0.43
way to reduce the number of words across the layers, but it is an alternative way to demonstrate the effects of word-level filtering. レイヤーにまたがる単語の数を減らす方法だが、単語レベルのフィルタリングの効果を示す別の方法である。 0.75
As shown in Table 4, we evaluate four types of words reduction ratio, where 𝛼 = 0% means the word-level filter is turned off. 表4に示すように、α = 0%は単語レベルのフィルタをオフにすることを意味する4種類の単語削減比を評価する。 0.77
The results illustrate that too small or too large a value of 𝛼 will lead to bad performance. その結果、αの値が小さすぎるか大きすぎるとパフォーマンスが悪くなることが判明した。 0.73
Let 𝛼 = 10% yields the best performances on both CNSE and CNSS datasets. α = 10% とすると、CNSE と CNSS のデータセットで最高のパフォーマンスが得られる。 0.75
It also got the same conclusion in Section 4.4 that the CNSE dataset is sensitive to the word-level filter, while the CNSS dataset is not if the sentence-level filter is active. セクション4では、CNSEデータセットがワードレベルのフィルタに敏感であるのに対して、CNSSデータセットは文レベルのフィルタがアクティブであれば有効でないという結論に達した。 0.70
4.6 Time Complexity In this section, we further evaluate the efficiency of the MatchIgnition models Note that the sentence-level noise filtering is very fast that can be ignored when considering the time cost in the wordlevel noise filtering. 4.6 時間複雑性 この節では、単語レベルのノイズフィルタリングの時間コストを考慮した場合、文レベルのノイズフィルタリングは非常に高速であり、無視できることを示す。 0.69
Moreover, calculating word-by-word similarity matrix is the main computational cost in the Transformer, therefore, we only consider the time cost of that. さらに, 単語間類似度行列の計算はトランスフォーマーの主要な計算コストであるため, 時間的コストのみを考慮する。 0.76
In theoretically, let 𝑁 denotes the length of the text, 𝐿 denotes the number of layers, 𝛼 denotes the words reduction ratio at each layer, the computation cost can be approximated as: 理論的には、N がテキストの長さを表し、L がレイヤ数を表し、α が各レイヤの単語削減率を示し、計算コストは次のように近似できる。 0.67
(1 − 𝛼)2𝑙 . (1 − 𝛼)2𝑙 . 0.96
𝑇𝑖𝑚𝑒𝐶𝑜𝑠𝑡(𝛼) = 𝑇𝑖𝑚𝑒𝐶𝑜𝑠𝑡(𝛼) = 0.85
(11) Using the above equation, under the settings of the model in experiments, we have 𝑇𝑖𝑚𝑒𝐶𝑜𝑠𝑡(0%) = 12, 𝑇𝑖𝑚𝑒𝐶𝑜𝑠𝑡(5%) = 7.26, 𝑇𝑖𝑚𝑒𝐶𝑜𝑠𝑡(10%) = 4.84, and 𝑇𝑖𝑚𝑒𝐶𝑜𝑠𝑡(20%) = 2.76. (11) 上記の式を用いて実験において,TimeCost(0%) = 12,TimeCost(5%) = 7.26,TimeCost(10%) = 4.84,TimeCost(20%) = 2.76 となる。
訳抜け防止モード: (11) 実験において,上記の式を用いてモデルの設定を行う。 we have 𝑇𝑖𝑚𝑒𝐶𝑜𝑠𝑡(0 % ) = 12, 𝑇𝑖𝑚𝑒𝐶𝑜𝑠𝑡(5 % ) = 7.26, 𝑇𝑖𝑚𝑒𝐶𝑜𝑠𝑡(10 % ) = 4.84, and 𝑇𝑖𝑚𝑒𝐶𝑜𝑠𝑡(20 % ) = 2.76 .
0.94
Thus, 𝛼 = 20% is 4 times faster than 𝛼 = 0% in theoretical. したがって、理論上 α = 20% は α = 0% よりも 4 倍速い。 0.86
We conduct our experiments on a single 12GB Nvidia K80 GPU with batch size 8, and the results are shown in Table 4. バッチサイズ8の1台の12GB Nvidia K80 GPUで実験を行い、結果が表4に示されている。 0.78
As we can see, 𝛼 = 20% is 1.6 times faster than 𝛼 = 0% at the training stage and 2 times faster in the evaluation stage. ご覧のように、α = 20%は、トレーニング段階ではα = 0%より1.6倍速く、評価段階では2倍速い。 0.77
4.7 Case Study To illustrate the Match-Ignition model more intuitively, we give an example from the CNSE dataset, and visualize the sentence-level graph (Fig 3 (a)(b)) and word-level words importance (Fig 3 (c)). 4.7 ケーススタディ より直感的にMatch-Ignitionモデルを説明するために、CNSEデータセットの例を示し、文レベルのグラフ(図3(a)(b))と単語レベルの単語の重要性(図3(c))を視覚化する。 0.77
∑︁𝐿−1 𝑙=0 Figure 3: (a) sentence graph for each document using TextRank, (b) sentence graph built in Match-Ignition, each sentence is a node in the graph, its color represents the document it belongs to and its size represents the importance (PageRank value). ∑︁𝐿−1 𝑙=0 図3: (a) TextRankを使用した各文書の文グラフ、(b) Match-Ignitionで構築された文グラフ、各文はグラフ内のノードであり、その色は属するドキュメントを表し、そのサイズは重要性を表す(PageRank値)。 0.64
(c) illustrates the word importances, and the darker color means the more important word. (c) 単語の重要さを示し、暗い色はより重要な単語を意味する。 0.85
Fig 3 (a) demonstrates the graph if directly applying the TextRank algorithm on each document separately, and Fig 3 (b) shows the constructed sentence-level graph built-in Match-Ignition. 図3(a)は、各文書にTextRankアルゴリズムを直接適用した場合にグラフを示し、図3(b)は、Match-Ignitionに組み込まれた構築された文レベルグラフを示す。 0.73
The difference indicates the rationality of our model. その違いは我々のモデルの合理性を示している。 0.63
For example, sentence 2238-01 in Doc2 highly connected with Doc1 becomes more important, while other sentences without any link with Doc2 becomes less important. 例えば、Doc1と高度に結びついたDoc2の文2238-01はより重要になり、Doc2とのリンクのない他の文はより重要になる。 0.65
That is to say, two documents can help each other to determine the key sentences. つまり、2つの文書が互いに重要な文を決定するのに役立ちます。 0.72
For words, we show their importance scores in different colors. 言い換えれば、それぞれの重要度を異なる色で示します。 0.71
Specifically, the importance is evaluated based on the number of layers retaining the word. 具体的には、単語を保持する層数に基づいて重要度を評価する。 0.78
The results show that more important words for matching will be kept until the last layer of the network, some of which are highlighted with rectangles. その結果、マッチングのためのより重要な単語はネットワークの最後の層まで保持され、そのうちのいくつかは長方形で強調される。 0.70
Furthermore, special tokens like [CLS] and [SEP] are also important for long-form text matching, which is a different form of short-form text matching. さらに,[CLS] や [SEP] のような特別なトークンは,長文マッチングにおいても重要である。
訳抜け防止モード: さらに、[ CLS ] や [ SEP ] のような特別なトークンは、長文のテキストマッチングにも重要である。 これは短縮形テキストマッチングの異なる形式です。
0.66
5 CONCLUSION In this paper, we propose a novel hierarchical noise filtering approach for the long-form text matching problem, based on the fact that only some keywords and sentences are critical for the matching, rather than all text information. 5結論 本論文では,テキストマッチング問題に対する階層的雑音フィルタリング手法を提案する。
訳抜け防止モード: 5 ConCLUSION この論文では,長文マッチング問題に対する新しい階層型ノイズフィルタリング手法を提案する。 事実からすると キーワードや文だけが、すべてのテキスト情報ではなく、マッチングに重要なのです。
0.76
The designed MatchIgnition model utilizes the well-known PageRank algorithm to identify and filter both sentence and word-level noisy information. デザインされたMatchIgnitionモデルは、有名なPageRankアルゴリズムを使用して、文と単語レベルのノイズ情報を識別し、フィルタリングする。
訳抜け防止モード: 有名なPageRankアルゴリズムを用いたMatchIgnitionモデルの設計 文と単語の両方を識別してフィルタリングする。
0.70
The sentence-level filter of Match-Ignition is proposed to obtain key sentences based on the constructed sentence graph. 構築した文グラフに基づいてキー文を得るために,一致発火の文レベルフィルタを提案する。 0.63
While the word-level filter of Match-Ignition combines the filtering process match-ignition のワードレベルフィルタはフィルタ処理を結合する 0.82
[CLS]Foshanonlinecar-hail ingplanstostipulate: thevehiclemustbealoc allicenseandthedrive rmusthaveaFoshan household registration or residence permit.On October 31, the Foshan Municipal Transportation Bureauofficially issued the "Interim Measures for the Administration of Online Taxi Booking Service in Foshan City(Draft for Comment)" (hereinafter referred to as the "Interim Measures") and……[SEP]Foshan's first national interim measures for the zero transition period of the new policy for car-hailing in Foshan.This morning, the Foshan Municipal Transportation Bureau published the "Interim Measures for the Managementof OnlineTaxi Service Management in Foshan City (Draft for Solicitation of Comments)“ on its official website,which is theFoshanversion of the new policy for online car-hailing. [CLS]Foshanonlinecar-hail ingplanstostipulate: thevehiclemustbealoc allicenseandthedrive rmusthaveaFoshan household registration or residence permit.On October 31, the Foshan Municipal Transportation Bureauofficially issued the "Interim Measures for the Administration of Online Taxi Booking Service in Foshan City(Draft for Comment)" (hereinafter referred to as the "Interim Measures") and……[SEP]Foshan's first national interim measures for the zero transition period of the new policy for car-hailing in Foshan.This morning, the Foshan Municipal Transportation Bureau published the "Interim Measures for the Managementof OnlineTaxi Service Management in Foshan City (Draft for Solicitation of Comments)“ on its official website,which is theFoshanversion of the new policy for online car-hailing. 0.87
According to the requirements of the Foshan version of the new car-hailing policy, fuel (oil/gas dual fuel)of 2. 新しい自動車配車方針のフォシャンバージョンの要求により、燃料(油/ガス二重燃料)は2。 0.70
[UNK] the above. Follow the zero transition period of first-tier cities. 以上[UNK]。 第一級都市のゼロ移行期をたどる。 0.52
[SEP]……Doc1:Doc2:(a)Graphfo reachdocument(b)Grap hforpairdocuments(c) Word-levelwordimport anceDoc1:Doc2:Doc1+Doc2: [SEP]...Doc1:Doc2:(a)Grap hforeachdocument(b)G raphforpairdocuments (c)Word-levelwordimp ortanceDoc1:Doc2:Doc 1+Doc2: 0.84
英語(論文から抽出)日本語訳スコア
and the matching process and can be jointly learned, to reflect the contextual dependencies between words. 単語間の文脈的依存関係を反映するため、マッチングプロセスと共同で学習することが可能です。 0.72
Specifically, a word graph is first built based on the attention scores in each self-attention block of Transformer, and keywords are then selected by applying PageRank on this graph. 具体的には、まず、Transformerの各自己注意ブロックの注意点に基づいて単語グラフを構築し、次にこのグラフにPageRankを適用することでキーワードを選択する。 0.68
In this way, noisy words will be filtered out layer by layer in the matching process. このようにして、ノイズの多い単語はマッチングプロセスでレイヤごとにフィルタアウトされる。 0.67
Experimental results on public datasets demonstrate the effectiveness and efficiency of the Match-Ignition. 公開データセットにおける実験結果は一致点火の有効性と効率を示す。 0.76
Besides, it outperforms both traditional text matching models for short text and recent long-form text matching models. さらに、短いテキストに対する従来のテキストマッチングモデルと最近の長文マッチングモデルの両方を上回ります。 0.80
REFERENCES [1] Martín Abadi, Paul Barham, Jianmin Chen, Zhifeng Chen, Andy Davis, Jeffrey Dean, Matthieu Devin, Sanjay Ghemawat, Geoffrey Irving, Michael Isard, et al 2016. ReferenceS [1] Martín Abadi, Paul Barham, Jianmin Chen, Zhifeng Chen, Andy Davis, Jeffrey Dean, Matthieu Devin, Sanjay Ghemawat, Geoffrey Irving, Michael Isard, et al 2016 0.81
Tensorflow: A system for large-scale machine learning. Tensorflow: 大規模な機械学習のためのシステム。 0.78
In 12th {USENIX} Symposium on Operating Systems Design and Implementation ({OSDI} 16). 12th {USENIX} Symposium on Operating Systems Design and Implementation ({OSDI} 16) 0.72
265– 283. [2] David M Blei, Andrew Y Ng, and Michael I Jordan. 265– 283. David M Blei、Andrew Y Ng、Michael I Jordan。 0.75
2003. Latent dirichlet allocation. 2003. 潜在ディリクレ割り当て。 0.63
Journal of machine Learning research 3, Jan (2003), 993–1022. Journal of Machine Learning Research 3, Jan (2003), 993–1022。 0.85
[3] Sergey Brin and Lawrence Page. サーゲイ・ブリンとローレンス・ペイジ。 0.30
1998. The anatomy of a large-scale hypertextual Web search engine. 1998. 大規模ハイパーテキストWeb検索エンジンの解剖学。 0.77
Computer Networks and ISDN Systems 30, 1-7 (1998), 107–117. Computer Networks and ISDN Systems 30 1-7 (1998), 107-117。 0.86
[4] Sumit Chopra, Raia Hadsell, Yann LeCun, et al 2005. [4]Summit Chopra, Raia Hadsell, Yann LeCun, et al 2005。 0.81
Learning a similarity metric discriminatively, with application to face verification. 類似度メトリックを識別的に学習し、顔認証に応用する。 0.65
In CVPR (1) (Boston, Massachusetts). CVPR (1) (マサチューセッツ州ボストン)。 0.60
539–546. [5] Zihang Dai, Zhilin Yang, Yiming Yang, Jaime G Carbonell, Quoc Le, and Ruslan Salakhutdinov. 539–546. [5]Zihang Dai、Zhilin Yang、Yiming Yang、Jaime G Carbonell、Quoc Le、Ruslan Salakhutdinov。 0.66
2019. Transformer-XL: Attentive Language Models beyond a Fixed-Length Context. 2019. Transformer-XL: 固定長コンテキストを超えた注意型言語モデル。 0.78
In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. 第57回計算言語学会年次大会を終えて 0.43
2978–2988. 2978–2988. 0.71
[6] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 6] Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova。 0.76
2018. Bert: Pre-training of deep bidirectional transformers for language understanding. 2018. Bert: 言語理解のための双方向トランスフォーマーの事前トレーニング。 0.82
arXiv preprint arXiv:1810.04805 (2018). arXiv preprint arXiv:1810.04805 (2018)。 0.77
[7] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 5]Jacob Devlin氏、Ming-Wei Chang氏、Kenton Lee氏、Kristina Toutanova氏。 0.67
2019. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. 2019. BERT: 言語理解のための双方向変換器の事前学習。 0.76
In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics. 計算言語学会北米支部の2019年会議の議事録において。 0.48
4171–4186. 4171–4186. 0.71
[8] Yixing Fan, Liang Pang, JianPeng Hou, Jiafeng Guo, Yanyan Lan, and Xueqi Cheng. [8]Yixing Fan、Liang Pang、JianPeng Hou、Jiafeng Guo、Yanyan Lan、Xueqi Cheng。 0.71
2017. Matchzoo: A toolkit for deep text matching. 2017. matchzoo: ディープテキストマッチングのためのツールキット。 0.82
arXiv preprint arXiv:1707.07270 (2017). arXiv preprint arXiv:1707.07270 (2017)。 0.77
[9] Jiafeng Guo, Yixing Fan, Liang Pang, Liu Yang, Qingyao Ai, Hamed Zamani, Chen Wu, W Bruce Croft, and Xueqi Cheng. [9]Jiafeng Guo、Yixing Fan、Liang Pang、Liu Yang、Qingyao Ai、Hamed Zamani、Chen Wu、W Bruce Croft、Xueqi Cheng。
訳抜け防止モード: [9]Jiafeng Guo, Yixing Fan, Liang Pang, Liu Yang, Qingyao Ai, Hamed Zamani, Chen Wu W Bruce Croft, and Xueqi Cheng
0.75
2019. A deep look into neural ranking models for information retrieval. 2019. 情報検索のためのニューラルランキングモデルについての一考察 0.74
Information Processing & Management (2019), 102067. 情報処理・管理(2019年)、102067頁。 0.74
[10] Qipeng Guo, Xipeng Qiu, Pengfei Liu, Yunfan Shao, Xiangyang Xue, and Zheng Zhang. [10]清国国、清清、Pengfei Liu、Yunfan Shao、Xiangyang Xue、Zheng Zhang。 0.58
2019. Star-Transformer. 2019. スター・トランスフォーマー。 0.69
In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers). the association for computational linguistics: human language technologies, volume 1 (long and short papers) 北アメリカ支部の2019年会議の議事録において。 0.75
1315–1325. 1315–1325. 0.71
[11] Baotian Hu, Zhengdong Lu, Hang Li, and Qingcai Chen. [11]バオティアン・フー(Baotian Hu)、チンドン・ル(Zhengdong Lu)、ハン・リー(Hang Li)、清海陳(Qingcai Chen)。 0.43
2014. Convolutional neural network architectures for matching natural language sentences. 2014. 自然言語文のマッチングのための畳み込みニューラルネットワークアーキテクチャ 0.81
In Advances in neural information processing systems. 神経情報処理システムの進歩です 0.61
2042–2050. 2042–2050. 0.71
[12] Po-Sen Huang, Xiaodong He, Jianfeng Gao, Li Deng, Alex Acero, and Larry Heck. [12]Po-Sen Huang、Xiaodong He、Jianfeng Gao、Li Deng、Alex Acero、Larry Heck。 0.72
2013. Learning deep structured semantic models for web search using clickthrough data. 2013. クリックスルーデータを用いたweb検索のための深い構造化意味モデル学習 0.80
In Proceedings of the 22nd ACM international conference on Information & Knowledge Management. 第22回ACM国際情報・知識管理会議に参加して 0.71
ACM, 2333–2338. ACM 2333–2338。 0.89
[13] Kai Hui, Andrew Yates, Klaus Berberich, and Gerard de Melo. [13]Kai Hui、Andrew Yates、Klaus Berberich、Gerard de Melo。 0.56
2017. PACRR: A Position-Aware Neural IR Model for Relevance Matching. 2017. PACRR: 関連マッチングのための位置認識型ニューラルIRモデル。 0.81
In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. 自然言語処理における経験的手法に関する2017年会議のまとめ 0.78
1049–1058. 1049–1058. 0.71
[14] Jyun-Yu Jiang, Mingyang Zhang, Cheng Li, Michael Bendersky, Nadav Golbandi, and Marc Najork. 14]Jyun-Yu Jiang、Mingyang Zhang、Cheng Li、Michael Bendersky、Nadav Golbandi、Marc Najork。 0.68
2019. Semantic Text Matching for Long-Form Documents. 2019. 長文文書に対する意味的テキストマッチング 0.71
In The World Wide Web Conference (San Francisco, CA, USA) (WWW ’19). world wide web conference (san francisco, ca, usa) (www ’19) で開催されている。 0.83
Association for Computing Machinery, New York, NY, USA, 795–806. Association for Computing Machinery, New York, NY, USA, 795–806。 0.92
https://doi.org/10.1 145/3308558.3313707 https://doi.org/10.1 145/3308558.3313707 0.29
[15] Diederik P Kingma and Jimmy Ba. [15]Diederik P KingmaとJimmy Ba。 0.78
2014. Adam: A method for stochastic opti- 2014. adam: 確率的オプティカルの方法 0.71
mization. arXiv preprint arXiv:1412.6980 (2014). マネタイズ。 arXiv preprint arXiv:1412.6980 (2014)。 0.58
[16] Bang Liu, Di Niu, Haojie Wei, Jinghong Lin, Yancheng He, Kunfeng Lai, and Yu Xu. [16]Bang Liu, Di Niu, Haojie Wei, Jinghong Lin, Yancheng He, Kunfeng Lai, Yu Xu。 0.74
2019. Matching Article Pairs with Graphical Decomposition and Convolutions. 2019. グラフィカルな分解と畳み込みと一致する記事ペア。 0.79
In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. 第57回計算言語学会年次大会を終えて 0.43
Association for Computational Linguistics, Florence, Italy, 6284–6294. イタリアのフィレンツェの計算言語学協会、6284-6294。 0.65
https://doi.org/10.1 8653/v1/P19-1632 https://doi.org/10.1 8653/v1/P19-1632 0.24
[17] Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, and Veselin Stoyanov. Yinhan Liu氏、Myle Ott氏、Naman Goyal氏、Jingfei Du氏、Mandar Joshi氏、Danqi Chen氏、Omer Levy氏、Mike Lewis氏、Luke Zettlemoyer氏、Veslin Stoyanov氏。 0.74
2019. Roberta: A robustly optimized bert pretraining approach. 2019. roberta: 堅牢に最適化されたbertプリトレーニングアプローチ。 0.73
arXiv preprint arXiv:1907.11692 (2019). arXiv preprint arXiv:1907.11692 (2019)。 0.76
[18] Zhengdong Lu and Hang Li. [18]Zhengdong LuとHang Li。 0.71
2013. A deep architecture for matching short texts. 2013. 短いテキストをマッチングするための深いアーキテクチャ。 0.81
In Advances in Neural Information Processing Systems. 神経情報処理システムの進歩です 0.58
1367–1375. 1367–1375. 0.71
[19] Rada Mihalcea and Paul Tarau. 19] ラダ・ミハルセアとポール・タラウ 0.50
2004. Textrank: Bringing order into text. 2004. Textrank: テキストに順序を持ち込む。 0.84
In Proceedings of the 2004 conference on empirical methods in natural language processing. 2004年のProceedings of the Proceedings on empirical methods in natural language processing(英語) 0.79
404–411. [20] Bhaskar Mitra, Fernando Diaz, and Nick Craswell. 404–411. Bhaskar Mitra氏、Fernando Diaz氏、Nick Craswell氏。 0.64
2017. Learning to match using local and distributed representations of text for web search. 2017. Web検索のためのテキストのローカルおよび分散表現を用いたマッチング学習。 0.87
In Proceedings of the 26th International Conference on World Wide Web. 第26回World Wide Web国際会議に参加して 0.71
International World Wide Web Conferences Steering Committee, 1291–1299. International World Wide Web Conferences Steering Committee, 1291-1299 0.84
[21] Hamid Palangi, Li Deng, Yelong Shen, Jianfeng Gao, Xiaodong He, Jianshu Chen, Xinying Song, and Rabab Ward. [21]ハミド・パランギ、Li Deng、Yelong Shen、Jianfeng Gao、Xiaodong He、Jianshu Chen、Xinying Song、Rabab Ward。 0.66
2016. Deep sentence embedding using long short-term memory networks: Analysis and application to information retrieval. 2016. 長期短期記憶ネットワークを用いた深文埋め込み:解析と情報検索への応用 0.83
IEEE/ACM Transactions on Audio, Speech and Language Processing (TASLP) 24, 4 (2016), 694–707. IEEE/ACM Transactions on Audio, Speech and Language Processing (TASLP) 24 4 (2016), 694–707。 0.89
[22] Liang Pang, Yanyan Lan, Jiafeng Guo, Jun Xu, and Xueqi Cheng. [22]Liang Pang、Yanyan Lan、Jiafeng Guo、Juun Xu、Xueqi Cheng。 0.67
2016. A Study of MatchPyramid Models on Ad-hoc Retrieval. 2016. 研究 アドホック検索におけるMatchPyramidモデルの検討 0.63
arXiv:1606.04648 [cs.IR] arXiv:1606.04648[cs.IR] 0.53
[23] Liang Pang, Yanyan Lan, Jiafeng Guo, Jun Xu, Shengxian Wan, and Xueqi Cheng. [23]Liang Pang、Yanyan Lan、Jiafeng Guo、Juun Xu、Sengxian Wan、Xueqi Cheng。 0.67
2016. Text matching as image recognition. 2016. 画像認識としてのテキストマッチング。 0.78
In Thirtieth AAAI Conference on Artificial Intelligence. 第30回 aaai conference on artificial intelligence に参加して 0.44
[24] Liang Pang, Yanyan Lan, Jiafeng Guo, Jun Xu, Jingfang Xu, and Xueqi Cheng. [24]Liang Pang、Yanyan Lan、Jiafeng Guo、Juun Xu、Jingfang Xu、Xueqi Cheng。 0.70
2017. Deeprank: A new deep architecture for relevance ranking in information retrieval. 2017. Deeprank: 情報検索における関連性ランキングのための新しいディープアーキテクチャ。 0.78
In Proceedings of the 2017 ACM CIKM. 2017年のACM CIKMで優勝。 0.56
ACM, 257–266. ACM 257-266。 0.74
[25] Adam Paszke, Sam Gross, Francisco Massa, Adam Lerer, James Bradbury, Gregory Chanan, Trevor Killeen, Zeming Lin, Natalia Gimelshein, Luca Antiga, et al 2019. [25]Adam Paszke, Sam Gross, Francisco Massa, Adam Lerer, James Bradbury, Gregory Chanan, Trevor Killeen, Zeming Lin, Natalia Gimelshein, Luca Antigaなどなど。 0.75
PyTorch: An imperative style, high-performance deep learning library. PyTorch: 命令型で高性能なディープラーニングライブラリ。 0.72
In Advances in Neural Information Processing Systems. 神経情報処理システムの進歩です 0.58
8024–8035. 8024–8035. 0.71
[26] Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, and Ilya Sutskever. Alec Radford氏、Jeffrey Wu氏、Rewon Child氏、David Luan氏、Dario Amodei氏、Ilya Sutskever氏。 0.69
[n.d.]. Language models are unsupervised multitask learners. [n.d.] 言語モデルは教師なしマルチタスク学習者である。 0.72
([n. d.]). [27] Stephen Robertson and Hugo Zaragoza. ([n.d.]) 27] スティーブン・ロバートソンと ヒューゴ・サラゴサ 0.63
2009. The Probabilistic Relevance Frame- 2009. 確率的関係フレーム- 0.85
work: BM25 and Beyond. BM25とBeyond。 0.51
Information Retrieval 3, 4 (2009), 333–389. Information Retrieval 3, 4 (2009), 333–389。 0.85
[28] Franco Scarselli, Marco Gori, Ah Chung Tsoi, Markus Hagenbuchner, and Gabriele Monfardini. フランコ・スカレッリ、マルコ・ゴリ、Ah Chung Tsoi、Markus Hagenbuchner、Gabriele Monfardini。 0.51
2008. The graph neural network model. 2008. グラフニューラルネットワークモデル。 0.73
IEEE Transactions on Neural Networks 20, 1 (2008), 61–80. IEEE Transactions on Neural Networks 20, 1 (2008), 61–80。 0.85
[29] Yelong Shen, Xiaodong He, Jianfeng Gao, Li Deng, and Grégoire Mesnil. [29]Yelong Shen,Xiaodong He,Jianfeng Gao,Li Deng,Grégoire Mesnil。 0.64
2014. A latent semantic model with convolutional-poolin g structure for information retrieval. 2014. 情報検索のための畳み込みプール構造を持つ潜在意味モデル 0.78
In Proceedings of the 23rd ACM international conference on conference on information and knowledge management. 第23回acm国際情報知識管理会議(acm international conference on conference on information and knowledge management)の開催にあたって 0.64
ACM, 101–110. ACM 101-110。 0.85
[30] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. 30]Ashish Vaswani氏、Noam Shazeer氏、Niki Parmar氏、Jakob Uszkoreit氏、Llion Jones氏、Aidan N Gomez氏、Sukasz Kaiser氏、Illia Polosukhin氏。 0.71
2017. Attention is all you need. 2017. 注意はあなたが必要とするすべてです。 0.74
In NIPS. 5998–6008. NIPS。 5998–6008. 0.61
[31] Shengxian Wan, Yanyan Lan, Jiafeng Guo, Jun Xu, Liang Pang, and Xueqi Cheng. [31]シェンキアンワン、ヤン・ラン、Jiafeng Guo、Jun Xu、Liang Pang、Xueqi Cheng。 0.71
2016. A deep architecture for semantic matching with multiple positional sentence representations. 2016. 複数の位置文表現を用いた意味マッチングのための深層アーキテクチャ 0.79
In Thirtieth AAAI Conference on Artificial Intelligence. 第30回 aaai conference on artificial intelligence に参加して 0.44
[32] Shengxian Wan, Yanyan Lan, Jun Xu, Jiafeng Guo, Liang Pang, and Xueqi Cheng. 32]shengxian wan、yanyan lan、jun xu、jiafeng guo、liang pang、xueqi cheng。 0.57
2016. Match-srnn: Modeling the recursive matching structure with spatial rnn. 2016. Match-srnn: 再帰的マッチング構造を空間的rnnでモデル化する。 0.76
arXiv preprint arXiv:1604.04378 (2016). arXiv preprint arXiv:1604.04378 (2016)。 0.77
[33] Zhiguo Wang, Wael Hamza, and Radu Florian. [33]Zhiguo Wang、Wael Hamza、Radu Florian。 0.65
2017. Bilateral multi-perspective matching for natural language sentences. 2017. 自然言語文に対するバイラテラルマルチパースペクティブマッチング 0.78
arXiv preprint arXiv:1702.03814 (2017). arXiv preprint arXiv:1702.03814 (2017) 0.83
[34] Liu Yang, Mingyang Zhang, Cheng Li, Michael Bendersky, and Marc Najork. [34]Liu Yang、Mingyang Zhang、Cheng Li、Michael Bendersky、Marc Najork。 0.59
2020. Beyond 512 Tokens: Siamese Multi-depth Transformer-based Hierarchical Encoder for Document Matching. 2020. 512トークンを超える: siamese multi-depth transformer-based hierarchical encoder for document matching。 0.80
arXiv:2004.12297 [cs.IR] arXiv:2004.12297 [cs.IR] 0.53
[35] Runqi Yang, Jianhai Zhang, Xing Gao, Feng Ji, and Haiqing Chen. [35]蓮慶陽、張海章、Xing Gao、Feng Ji、Hhaiqing Chen。 0.66
2019. Simple and Effective Text Matching with Richer Alignment Features. 2019. よりリッチなアライメント機能によるシンプルで効果的なテキストマッチング。 0.74
arXiv preprint arXiv:1908.00300 (2019). arXiv preprint arXiv:1908.00300 (2019)。 0.76
[36] Guangxiang Zhao, Junyang Lin, Zhiyuan Zhang, Xuancheng Ren, and Xu Sun. [36]広西宗、順陽林、智元宗、玄春連、玄宗。 0.43
2019. Sparse Transformer: Concentrated Attention Through Explicit Selection. 2019. Sparse Transformer: 明示的な選択による集中的注意。 0.78
(2019). (2019). 0.85
                   ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。