論文の概要: Identifying Semantically Duplicate Questions Using Data Science
Approach: A Quora Case Study
- arxiv url: http://arxiv.org/abs/2004.11694v1
- Date: Sat, 18 Apr 2020 19:39:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-12 05:18:14.040637
- Title: Identifying Semantically Duplicate Questions Using Data Science
Approach: A Quora Case Study
- Title(参考訳): データサイエンスアプローチを用いた意味的重複質問の同定:Quoraケーススタディ
- Authors: Navedanjum Ansari, Rajesh Sharma
- Abstract要約: 我々はQuoraのデータセット上の重複した質問を識別するタスクに対して、さまざまな機械学習とディープラーニングのテクニックを探索し、適用した。
提案された4つのアーキテクチャのうち3つは、以前の機械学習とディープラーニング研究の精度を上回りました。
我々の最良のモデルは85.82%の精度を達成した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Identifying semantically identical questions on, Question and Answering
social media platforms like Quora is exceptionally significant to ensure that
the quality and the quantity of content are presented to users, based on the
intent of the question and thus enriching overall user experience. Detecting
duplicate questions is a challenging problem because natural language is very
expressive, and a unique intent can be conveyed using different words, phrases,
and sentence structuring. Machine learning and deep learning methods are known
to have accomplished superior results over traditional natural language
processing techniques in identifying similar texts. In this paper, taking Quora
for our case study, we explored and applied different machine learning and deep
learning techniques on the task of identifying duplicate questions on Quora's
dataset. By using feature engineering, feature importance techniques, and
experimenting with seven selected machine learning classifiers, we demonstrated
that our models outperformed previous studies on this task. Xgboost model with
character level term frequency and inverse term frequency is our best machine
learning model that has also outperformed a few of the Deep learning baseline
models. We applied deep learning techniques to model four different deep neural
networks of multiple layers consisting of Glove embeddings, Long Short Term
Memory, Convolution, Max pooling, Dense, Batch Normalization, Activation
functions, and model merge. Our deep learning models achieved better accuracy
than machine learning models. Three out of four proposed architectures
outperformed the accuracy from previous machine learning and deep learning
research work, two out of four models outperformed accuracy from previous deep
learning study on Quora's question pair dataset, and our best model achieved
accuracy of 85.82% which is close to Quora state of the art accuracy.
- Abstract(参考訳): Quoraのようなソーシャルメディアプラットフォーム上で、意味的に同一の質問、質問、回答を識別することは、質問の意図に基づいてコンテンツの品質と量がユーザーに提示されることを保証するために非常に重要である。
自然言語は非常に表現力があり、異なる単語、句、文の構造化を使ってユニークな意図を伝えることができるため、重複した質問の検出は難しい問題である。
機械学習とディープラーニングの手法は、類似したテキストを識別する従来の自然言語処理技術よりも優れた結果を得たことが知られている。
本稿では,quoraをケーススタディとして,quoraのデータセット上の重複した質問を識別するタスクに対して,異なる機械学習とディープラーニング技術を適用した。
特徴工学,特徴重要技術,選択した7つの機械学習分類器を用いて実験を行い,これまでの研究を上回った。
xgboostモデル 文字レベルの項頻度と逆項周波数を持つモデルは、ディープラーニングのベースラインモデルのいくつかを上回る最高の機械学習モデルです。
我々は,手袋埋め込み,長期記憶,畳み込み,最大プール,高密度,バッチ正規化,アクティベーション関数,モデルマージという,複数のレイヤからなる4つの異なるディープニューラルネットワークのモデル化にディープラーニング技術を適用した。
私たちのディープラーニングモデルは、機械学習モデルよりも精度が高かった。
提案する4つのアーキテクチャのうち3つは、以前の機械学習とディープラーニングの研究の精度を上回り、4つのモデルのうち2つは、quoraの質問対データセットに関する以前のディープラーニングの研究の精度を上回り、最良のモデルは85.82%の精度を達成しました。
関連論文リスト
- The KITMUS Test: Evaluating Knowledge Integration from Multiple Sources
in Natural Language Understanding Systems [87.3207729953778]
我々は、データセット上で最先端のコア参照解決モデルを評価する。
いくつかのモデルは、事前訓練時間と推論時間の両方で観察された知識について、オンザフライで推論するのに苦労している。
それでも、最高のパフォーマンスモデルでさえ、推論時にのみ提示される知識を確実に統合するのは難しいようです。
論文 参考訳(メタデータ) (2022-12-15T23:26:54Z) - Knowledge-in-Context: Towards Knowledgeable Semi-Parametric Language
Models [58.42146641102329]
我々は、新しい半パラメトリック言語モデルアーキテクチャ、Knowledge-in-Context(KiC)を開発した。
KiCは知識豊富な外部メモリを備えたパラメトリックテキスト-テキスト言語モデルを提供する。
知識豊富なセミパラメトリック言語モデルとして、KiCは、目に見えないタスクにおいて優れたゼロショットパフォーマンスを達成するために、はるかに小さな部分しか必要としない。
論文 参考訳(メタデータ) (2022-10-28T23:18:43Z) - Deep Learning Driven Natural Languages Text to SQL Query Conversion: A
Survey [2.309914459672557]
本稿では,近年研究されている24のニューラルネットワークモデルについて概観する。
TEXT2技術のモデルのトレーニングに広く使用されている11のデータセットの概要も紹介する。
論文 参考訳(メタデータ) (2022-08-08T20:54:34Z) - Deep Sequence Models for Text Classification Tasks [0.007329200485567826]
自然言語処理(NLP)は、人間の多様で複雑な言語を理解するために機械を装備している。
一般的なテキスト分類アプリケーションには、情報検索、ニューストピックのモデリング、テーマ抽出、感情分析、スパム検出が含まれる。
RNN、GRU、LSTMといったシーケンスモデルは、長距離依存性を持つタスクのブレークスルーである。
その結果、ほとんどのモデルでは80%と94%の範囲で性能が向上した。
論文 参考訳(メタデータ) (2022-07-18T18:47:18Z) - Ten Quick Tips for Deep Learning in Biology [116.78436313026478]
機械学習は、データのパターンを認識し、予測モデリングに使用するアルゴリズムの開発と応用に関係している。
ディープラーニングは、独自の機械学習のサブフィールドになっている。
生物学的研究の文脈において、ディープラーニングは高次元の生物学的データから新しい洞察を導き出すためにますます使われてきた。
論文 参考訳(メタデータ) (2021-05-29T21:02:44Z) - Diverse Complexity Measures for Dataset Curation in Self-driving [80.55417232642124]
トラフィックシーンの面白さを定量化する多様な基準を活用した新たなデータ選択手法を提案する。
実験の結果,提案するキュレーションパイプラインは,より汎用的で高いパフォーマンスをもたらすデータセットを選択できることが判明した。
論文 参考訳(メタデータ) (2021-01-16T23:45:02Z) - Knowledge-driven Data Construction for Zero-shot Evaluation in
Commonsense Question Answering [80.60605604261416]
本稿では,共通認識課題にまたがるゼロショット質問応答のための新しいニューラルシンボリック・フレームワークを提案する。
言語モデル、トレーニング体制、知識ソース、データ生成戦略のセットを変えて、タスク間の影響を測定します。
個別の知識グラフは特定のタスクに適しているが、グローバルな知識グラフはさまざまなタスクに対して一貫した利得をもたらす。
論文 参考訳(メタデータ) (2020-11-07T22:52:21Z) - Automated Source Code Generation and Auto-completion Using Deep
Learning: Comparing and Discussing Current Language-Model-Related Approaches [0.0]
本稿では、異なるディープラーニングアーキテクチャを比較して、プログラミングコードに基づく言語モデルを作成し、使用する。
それぞれのアプローチのさまざまな長所と短所と、言語モデルを評価したり、実際のプログラミングコンテキストでそれらを適用するためのギャップについて論じる。
論文 参考訳(メタデータ) (2020-09-16T15:17:04Z) - Knowledge Efficient Deep Learning for Natural Language Processing [2.2701338128113124]
この論文は、現代のディープラーニングモデルとアルゴリズムに古典的手法を適用することに焦点を当てている。
まず,事前知識を深層モデルに組み込むための統合学習フレームワークとして,知識豊富な深層学習モデル(KRDL)を提案する。
第2に,KRDLモデルを機械読解モデルに応用し,その決定を裏付ける正しい証拠文を見つける。
論文 参考訳(メタデータ) (2020-08-28T23:32:33Z) - Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks [133.93803565077337]
検索強化生成モデルは、事前訓練されたパラメトリックメモリと非パラメトリックメモリを組み合わせて言語生成を行う。
我々は、RAGモデルが、最先端パラメトリックのみのセク2セックベースラインよりも、より具体的で、多様で、現実的な言語を生成することを示す。
論文 参考訳(メタデータ) (2020-05-22T21:34:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。