論文の概要: Match-Ignition: Plugging PageRank into Transformer for Long-form Text
Matching
- arxiv url: http://arxiv.org/abs/2101.06423v1
- Date: Sat, 16 Jan 2021 10:34:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-28 07:17:57.672363
- Title: Match-Ignition: Plugging PageRank into Transformer for Long-form Text
Matching
- Title(参考訳): Match-Ignition:長文マッチングのためのPageRankを変換器にプラグインする
- Authors: Liang Pang, Yanyan Lan, Xueqi Cheng
- Abstract要約: 実効性と効率性に対処する新しい階層型ノイズフィルタリングモデルであるMatch-Ignitionを提案する。
基本的なアイデアは、よく知られたPageRankアルゴリズムをTransformerに接続し、文と単語レベルの騒々しい情報を識別およびフィルタリングすることです。
文が長文の基本単位であるため、ノイズの多い文はたいてい簡単に検出できるので、PageRankを直接使用してそのような情報をフィルタリングする。
- 参考スコア(独自算出の注目度): 66.71886789848472
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Semantic text matching models have been widely used in community question
answering, information retrieval, and dialogue. However, these models cannot
well address the long-form text matching problem. That is because there are
usually many noises in the setting of long-form text matching, and it is
difficult for existing semantic text matching to capture the key matching
signals from this noisy information. Besides, these models are computationally
expensive because they simply use all textual data indiscriminately in the
matching process. To tackle the effectiveness and efficiency problem, we
propose a novel hierarchical noise filtering model in this paper, namely
Match-Ignition. The basic idea is to plug the well-known PageRank algorithm
into the Transformer, to identify and filter both sentence and word level noisy
information in the matching process. Noisy sentences are usually easy to detect
because the sentence is the basic unit of a long-form text, so we directly use
PageRank to filter such information, based on a sentence similarity graph.
While words need to rely on their contexts to express concrete meanings, so we
propose to jointly learn the filtering process and the matching process, to
reflect the contextual dependencies between words. Specifically, a word graph
is first built based on the attention scores in each self-attention block of
Transformer, and keywords are then selected by applying PageRank on this graph.
In this way, noisy words will be filtered out layer by layer in the matching
process. Experimental results show that Match-Ignition outperforms both
traditional text matching models for short text and recent long-form text
matching models. We also conduct detailed analysis to show that Match-Ignition
can efficiently capture important sentences or words, which are helpful for
long-form text matching.
- Abstract(参考訳): セマンティックテキストマッチングモデルは、コミュニティの質問応答、情報検索、対話に広く利用されている。
しかし、これらのモデルは長文のテキストマッチング問題にうまく対応できない。
これは、通常、長い形式のテキストマッチングの設定にはノイズが多く、既存の意味テキストマッチングでは、このノイズ情報からキーマッチング信号をキャプチャすることが難しいためである。
さらに、これらのモデルは、マッチングプロセスですべてのテキストデータを無差別に使用するため、計算コストがかかる。
そこで本論文では,効率と有効性の問題に取り組むため,新しい階層型雑音フィルタリングモデルを提案する。
基本的なアイデアは、よく知られたpagerankアルゴリズムをトランスフォーマーに挿入し、マッチングプロセスで文と単語レベルのノイズ情報の両方を識別してフィルタリングするというものだ。
雑音文は通常、文が長文の基本単位であるため検出しやすいので、文の類似度グラフに基づいて直接pagerankを使用して情報をフィルタリングする。
語は具体的意味を表現するために文脈に依存する必要があるが, 単語間の文脈依存性を反映するために, フィルタリング処理とマッチング処理を共同で学習することを提案する。
具体的には、まず、Transformerの各自己注意ブロックの注意点に基づいて単語グラフを構築し、次にこのグラフにPageRankを適用することでキーワードを選択する。
このようにして、ノイズの多い単語はマッチングプロセスでレイヤごとにフィルタアウトされる。
実験の結果,Match-Ignitionは従来のテキストマッチングモデルと最近の長文マッチングモデルの両方に優れていた。
また,Match-Ignitionが長文のマッチングに有用な重要な文や単語を効率的にキャプチャできることを示すために,詳細な分析を行う。
関連論文リスト
- CAST: Corpus-Aware Self-similarity Enhanced Topic modelling [16.562349140796115]
CAST: Corpus-Aware Self-similarity Enhanced Topic modelling, a novel topic modelling methodを紹介する。
機能的単語が候補話題語として振る舞うのを防ぐための効果的な指標として自己相似性を見出した。
提案手法は,生成したトピックの一貫性と多様性,およびノイズの多いデータを扱うトピックモデルの能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-19T15:27:11Z) - Description-Based Text Similarity [59.552704474862004]
我々は、その内容の抽象的な記述に基づいて、テキストを検索する必要性を特定する。
そこで本研究では,近隣の標準探索で使用する場合の精度を大幅に向上する代替モデルを提案する。
論文 参考訳(メタデータ) (2023-05-21T17:14:31Z) - Graph-based Semantical Extractive Text Analysis [0.0]
本研究では,テキストの部分間の意味的類似性を組み込むことで,TextRankアルゴリズムの結果を改善する。
キーワード抽出とテキスト要約とは別に,本フレームワークに基づくトピッククラスタリングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-12-19T18:30:26Z) - Divide and Conquer: Text Semantic Matching with Disentangled Keywords
and Intents [19.035917264711664]
本稿では,キーワードを意図から切り離してテキストセマンティックマッチングを行うためのトレーニング戦略を提案する。
提案手法は,予測効率に影響を与えることなく,事前学習言語モデル(PLM)と容易に組み合わせることができる。
論文 参考訳(メタデータ) (2022-03-06T07:48:24Z) - Unsupervised Matching of Data and Text [6.2520079463149205]
テキストコンテンツと構造化データとを教師なし設定でマッチングするフレームワークを導入する。
提案手法は,コーパスの内容に対して微細なグラフを構築し,低次元空間で一致する対象を表現するために単語埋め込みを導出する。
実使用事例と公開データセットの実験により、我々のフレームワークは単語埋め込みや微調整言語モデルよりも優れた埋め込みを生成することが示された。
論文 参考訳(メタデータ) (2021-12-16T10:40:48Z) - Narrative Incoherence Detection [76.43894977558811]
本稿では,文間セマンティック理解のための新たなアリーナとして,物語不整合検出の課題を提案する。
複数文の物語を考えると、物語の流れに意味的な矛盾があるかどうかを決定します。
論文 参考訳(メタデータ) (2020-12-21T07:18:08Z) - Learning to Match Jobs with Resumes from Sparse Interaction Data using
Multi-View Co-Teaching Network [83.64416937454801]
ジョブ列のインタラクションデータは疎結合でノイズが多く、ジョブ列のマッチングアルゴリズムのパフォーマンスに影響する。
求人情報マッチングのための疎相互作用データから,新しいマルチビュー協調学習ネットワークを提案する。
我々のモデルは求人マッチングの最先端手法より優れている。
論文 参考訳(メタデータ) (2020-09-25T03:09:54Z) - Sequential Sentence Matching Network for Multi-turn Response Selection
in Retrieval-based Chatbots [45.920841134523286]
本稿では,文レベルの意味情報を用いて問題に対処する,逐次文マッチングネットワーク(S2M)を提案する。
まず、文レベルの意味情報を用いて、ネットワークが問題に対処し、マッチングを大幅に改善し、その結果、最先端のパフォーマンスが得られることがわかった。
論文 参考訳(メタデータ) (2020-05-16T09:47:19Z) - Extractive Summarization as Text Matching [123.09816729675838]
本稿では,ニューラル抽出要約システムの構築方法に関するパラダイムシフトを作成する。
抽出した要約タスクを意味テキストマッチング問題として定式化する。
我々はCNN/DailyMailの最先端抽出結果を新しいレベル(ROUGE-1の44.41)に推し進めた。
論文 参考訳(メタデータ) (2020-04-19T08:27:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。