論文の概要: A Multi-cascaded Model with Data Augmentation for Enhanced Paraphrase
Detection in Short Texts
- arxiv url: http://arxiv.org/abs/1912.12068v1
- Date: Fri, 27 Dec 2019 12:10:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 23:46:01.381970
- Title: A Multi-cascaded Model with Data Augmentation for Enhanced Paraphrase
Detection in Short Texts
- Title(参考訳): 短文のパラフレーズ検出のためのデータ拡張型マルチカスケードモデル
- Authors: Muhammad Haroon Shakeel, Asim Karim, Imdadullah Khan
- Abstract要約: 短文のパラフレーズ検出を改善するために,データ拡張戦略とマルチカスケードモデルを提案する。
私たちのモデルは広くて深く、クリーンでノイズの多い短いテキストにまたがってより堅牢性を提供します。
- 参考スコア(独自算出の注目度): 1.6758573326215689
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Paraphrase detection is an important task in text analytics with numerous
applications such as plagiarism detection, duplicate question identification,
and enhanced customer support helpdesks. Deep models have been proposed for
representing and classifying paraphrases. These models, however, require large
quantities of human-labeled data, which is expensive to obtain. In this work,
we present a data augmentation strategy and a multi-cascaded model for improved
paraphrase detection in short texts. Our data augmentation strategy considers
the notions of paraphrases and non-paraphrases as binary relations over the set
of texts. Subsequently, it uses graph theoretic concepts to efficiently
generate additional paraphrase and non-paraphrase pairs in a sound manner. Our
multi-cascaded model employs three supervised feature learners (cascades) based
on CNN and LSTM networks with and without soft-attention. The learned features,
together with hand-crafted linguistic features, are then forwarded to a
discriminator network for final classification. Our model is both wide and deep
and provides greater robustness across clean and noisy short texts. We evaluate
our approach on three benchmark datasets and show that it produces a comparable
or state-of-the-art performance on all three.
- Abstract(参考訳): パラフレーズ検出はテキスト分析において重要なタスクであり、プラジャリズム検出、重複質問識別、顧客サポートヘルプデスクの強化など多くのアプリケーションがある。
パラフレーズの表現と分類のためのディープモデルが提案されている。
しかし、これらのモデルは大量の人ラベルデータを必要とするため、入手には費用がかかる。
本研究では,短文のパラフレーズ検出を改善するためのデータ拡張戦略とマルチカスケードモデルを提案する。
我々のデータ強化戦略は、パラフレーズや非パラフレーズの概念をテキストの集合上の二項関係として考える。
その後、グラフ理論の概念を用いて、音声で追加のパラフレーズと非パラフレーズのペアを効率的に生成する。
我々のマルチカスケードモデルは,CNNとLSTMネットワークに基づく3つの教師付き特徴学習者(カスケード)をソフトアテンションなしで採用している。
学習した特徴と手作りの言語的特徴は、最終分類のために識別器ネットワークに転送される。
私たちのモデルは広くて深く、クリーンでノイズの多い短いテキストにわたってより堅牢性を提供します。
提案手法を3つのベンチマークデータセットで評価し,3つすべてに対して同等あるいは最先端のパフォーマンスが得られることを示す。
関連論文リスト
- Adapting Dual-encoder Vision-language Models for Paraphrased Retrieval [55.90407811819347]
モデルが類似した結果を返すことを目的とした,パラフレーズ付きテキスト画像検索の課題について考察する。
我々は、大きなテキストコーパスで事前訓練された言語モデルから始まる二重エンコーダモデルを訓練する。
CLIPやOpenCLIPのような公開デュアルエンコーダモデルと比較して、最高の適応戦略で訓練されたモデルは、パラフレーズクエリのランク付けの類似性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-05-06T06:30:17Z) - DetCLIPv3: Towards Versatile Generative Open-vocabulary Object Detection [111.68263493302499]
DetCLIPv3は、オープンボキャブラリオブジェクト検出と階層ラベルの両方で優れた高性能検出器である。
DetCLIPv3は,1)Versatileモデルアーキテクチャ,2)高情報密度データ,3)効率的なトレーニング戦略の3つのコア設計によって特徴付けられる。
DetCLIPv3は、GLIPv2, GroundingDINO, DetCLIPv2をそれぞれ18.0/19.6/6 APで上回り、優れたオープン語彙検出性能を示す。
論文 参考訳(メタデータ) (2024-04-14T11:01:44Z) - Retrieval is Accurate Generation [99.24267226311157]
本稿では,支援文書の集合からコンテキスト認識句を選択する新しい手法を提案する。
本モデルでは,検索対象のベースラインの中で,最高の性能と低レイテンシを実現する。
論文 参考訳(メタデータ) (2024-02-27T14:16:19Z) - ParaAMR: A Large-Scale Syntactically Diverse Paraphrase Dataset by AMR
Back-Translation [59.91139600152296]
ParaAMRは、抽象的な表現のバックトランスレーションによって生成される、大規模な構文的に多様なパラフレーズデータセットである。
そこで本研究では,ParaAMRを用いて文の埋め込み学習,構文的に制御されたパラフレーズ生成,数ショット学習のためのデータ拡張という,3つのNLPタスクを改善することができることを示す。
論文 参考訳(メタデータ) (2023-05-26T02:27:33Z) - Analyzing Vietnamese Legal Questions Using Deep Neural Networks with
Biaffine Classifiers [3.116035935327534]
我々は深層ニューラルネットワークを用いてベトナムの法的問題から重要な情報を抽出することを提案する。
自然言語で法的疑問が与えられた場合、その疑問に答えるために必要な情報を含む全てのセグメントを抽出することが目的である。
論文 参考訳(メタデータ) (2023-04-27T18:19:24Z) - A Template-guided Hybrid Pointer Network for
Knowledge-basedTask-oriented Dialogue Systems [15.654119998970499]
本稿では,知識に基づくタスク指向対話システムのためのテンプレート誘導型ハイブリッドポインタネットワークを提案する。
本研究では,ゲーティング機構を備えたメモリポインタネットワークモデルを設計し,検索した回答と接地トラス応答とのセマンティックな相関関係をフル活用する。
論文 参考訳(メタデータ) (2021-06-10T15:49:26Z) - Corpus-Based Paraphrase Detection Experiments and Review [0.0]
パラフレーズ検出は、盗作検出、著者帰属、質問応答、テキスト要約など、多くのアプリケーションにとって重要である。
本稿では,多種多様なコーパスベースモデル,特にディープラーニング(DL)モデルの性能概要とパラフレーズ検出の課題について述べる。
論文 参考訳(メタデータ) (2021-05-31T23:29:24Z) - Keyphrase Extraction with Dynamic Graph Convolutional Networks and
Diversified Inference [50.768682650658384]
キーワード抽出(KE)は、ある文書でカバーされている概念やトピックを正確に表現するフレーズの集合を要約することを目的としている。
最近のシークエンス・ツー・シークエンス(Seq2Seq)ベースの生成フレームワークはKEタスクで広く使われ、様々なベンチマークで競合性能を得た。
本稿では,この2つの問題を同時に解くために,動的グラフ畳み込みネットワーク(DGCN)を採用することを提案する。
論文 参考訳(メタデータ) (2020-10-24T08:11:23Z) - Exemplar-Controllable Paraphrasing and Translation using Bitext [57.92051459102902]
私たちは、バイリンガルテキスト(bitext)からのみ学ぶことができるように、以前の作業からモデルを適用する。
提案した1つのモデルでは、両言語で制御されたパラフレーズ生成と、両言語で制御された機械翻訳の4つのタスクを実行することができる。
論文 参考訳(メタデータ) (2020-10-12T17:02:50Z) - Keyphrase Extraction with Span-based Feature Representations [13.790461555410747]
キーフレーズは、文書を特徴付ける意味メタデータを提供することができる。
キーフレーズ抽出のための3つのアプローチ: (i) 従来の2段階ランキング法、 (ii) シーケンスラベリング、 (iii) ニューラルネットワークを用いた生成。
本稿では,すべてのコンテンツトークンから直接,キーフレーズのスパン的特徴表現を抽出する新規スパンキーフレーズ抽出モデルを提案する。
論文 参考訳(メタデータ) (2020-02-13T09:48:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。