論文の概要: Applying Transfer Learning for Improving Domain-Specific Search
Experience Using Query to Question Similarity
- arxiv url: http://arxiv.org/abs/2101.02351v1
- Date: Thu, 7 Jan 2021 03:27:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-10 13:34:07.724302
- Title: Applying Transfer Learning for Improving Domain-Specific Search
Experience Using Query to Question Similarity
- Title(参考訳): 類似性問合せクエリを用いたドメイン特化検索体験改善のための伝達学習の適用
- Authors: Ankush Chopra, Shruti Agrawal and Sohom Ghosh
- Abstract要約: 本稿では、与えられた入力クエリと事前定義された質問の集合との類似性を計算し、最もよく一致する質問を検索するフレームワークについて論じる。
ファイナンシャルドメインで使用していますが、このフレームワークはドメイン固有の検索エンジンで一般化されており、他のドメインでも使用できます。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Search is one of the most common platforms used to seek information. However,
users mostly get overloaded with results whenever they use such a platform to
resolve their queries. Nowadays, direct answers to queries are being provided
as a part of the search experience. The question-answer (QA) retrieval process
plays a significant role in enriching the search experience. Most off-the-shelf
Semantic Textual Similarity models work fine for well-formed search queries,
but their performances degrade when applied to a domain-specific setting having
incomplete or grammatically ill-formed search queries in prevalence. In this
paper, we discuss a framework for calculating similarities between a given
input query and a set of predefined questions to retrieve the question which
matches to it the most. We have used it for the financial domain, but the
framework is generalized for any domain-specific search engine and can be used
in other domains as well. We use Siamese network [6] over Long Short-Term
Memory (LSTM) [3] models to train a classifier which generates unnormalized and
normalized similarity scores for a given pair of questions. Moreover, for each
of these question pairs, we calculate three other similarity scores: cosine
similarity between their average word2vec embeddings [15], cosine similarity
between their sentence embeddings [7] generated using RoBERTa [17] and their
customized fuzzy-match score. Finally, we develop a metaclassifier using
Support Vector Machines [19] for combining these five scores to detect if a
given pair of questions is similar. We benchmark our model's performance
against existing State Of The Art (SOTA) models on Quora Question Pairs (QQP)
dataset as well as a dataset specific to the financial domain.
- Abstract(参考訳): 検索は情報を探すのによく使われるプラットフォームの一つだ。
しかし、このようなプラットフォームを使ってクエリを解決すると、ユーザは結果に過負荷を受ける。
今日では、検索体験の一部として、クエリに対する直接的な回答が提供されている。
質問応答(QA)検索プロセスは,検索体験の充実に重要な役割を果たす。
既成のSemantic Textual similarityモデルは、よく整った検索クエリではうまく機能するが、不完全または文法的に不整形な検索クエリを頻度よく適用した場合、そのパフォーマンスは低下する。
本稿では、与えられた入力クエリと事前定義された質問の集合との類似性を計算し、最もよく一致する質問を検索するフレームワークについて論じる。
ファイナンシャルドメインで使用していますが、このフレームワークはドメイン固有の検索エンジンで一般化されており、他のドメインでも使用できます。
本研究では,Long Short-Term Memory (LSTM) [3] モデル上で Siamese Network [6] を用いて,与えられた質問に対して非正規化および正規化類似度スコアを生成する分類器を訓練する。
さらに,各質問対について,平均単語2vec埋め込み[15]間のコサイン類似度,RoBERTa[17]を用いた文埋め込み[7]とカスタマイズされたファジィマッチスコアとのコサイン類似度,という3つの類似度スコアを算出する。
最後に,Support Vector Machines [19] を用いたメタ分類器を開発し,これらの5つのスコアを組み合わせて,与えられた質問が類似しているかどうかを検出する。
当社のモデルのパフォーマンスをquora question pairs(qqp)データセット上の既存のstate of the art(sota)モデルや、金融ドメイン固有のデータセットに対してベンチマークします。
関連論文リスト
- Robust Knowledge Extraction from Large Language Models using Social
Choice Theory [18.634845632109496]
大規模言語モデル(LLM)は、会話エージェント、クリエイティブな書き込み、一般的なクエリ応答など、幅広いアプリケーションをサポートすることができる。
典型的には堅牢ではないため、医学などの高精細な領域での問合せに適していない。
ランキングクエリを繰り返し使用し、社会的選択理論からの手法を用いてクエリを集約する。
論文 参考訳(メタデータ) (2023-12-22T17:57:29Z) - Semantic Equivalence of e-Commerce Queries [6.232692545488813]
本稿では,クエリの等価性を認識・活用し,検索とビジネスの成果を高めるためのフレームワークを提案する。
提案手法は,検索意図のベクトル表現へのクエリのマッピング,等価あるいは類似の意図を表現した近傍のクエリの特定,ユーザやビジネス目的の最適化という3つの重要な問題に対処する。
論文 参考訳(メタデータ) (2023-08-07T18:40:13Z) - QUADRo: Dataset and Models for QUestion-Answer Database Retrieval [97.84448420852854]
質問/回答(q/a)ペアのデータベース(DB)が与えられた場合、同じ質問に対してDBをスキャンすることで、対象の質問に答えることができる。
我々は6.3Mのq/aペアからなる大規模DBを構築し、公開質問を用いて、ニューラルIRとq/aペアリランカに基づく新しいシステムを設計する。
我々は、Bing検索エンジン上に構築されたQAシステムという、Webベースの手法とDBベースのアプローチが競合することを示す。
論文 参考訳(メタデータ) (2023-03-30T00:42:07Z) - Automated Query Generation for Evidence Collection from Web Search
Engines [2.642698101441705]
インターネット上で情報を探すことで、いわゆる事実を確認できることが広く受け入れられている。
このプロセスでは、事実に基づいて検索クエリを定式化し、それを検索エンジンに提示するためにファクトチェッカーが必要である。
まず,第1ステップ,問合せ生成の自動化が可能かどうかを問う。
論文 参考訳(メタデータ) (2023-03-15T14:32:00Z) - UniKGQA: Unified Retrieval and Reasoning for Solving Multi-hop Question
Answering Over Knowledge Graph [89.98762327725112]
KGQA(Multi-hop Question Answering over Knowledge Graph)は、自然言語の質問で言及されているトピックエンティティから、複数のホップを持つ回答エンティティを見つけることを目的としている。
我々は、モデルアーキテクチャとパラメータ学習の両方において、検索と推論を統合することで、マルチホップKGQAタスクの新しいアプローチであるUniKGQAを提案する。
論文 参考訳(メタデータ) (2022-12-02T04:08:09Z) - Session-Aware Query Auto-completion using Extreme Multi-label Ranking [61.753713147852125]
本稿では,セッション対応クエリ自動補完の新たな手法を,XMR(Multi Multi-Xtreme Ranking)問題として取り上げる。
アルゴリズムのキーステップにいくつかの修正を提案することにより、この目的のために一般的なXMRアルゴリズムを適応させる。
当社のアプローチは、セッション情報を活用しながら、自動補完システムの厳しいレイテンシ要件を満たします。
論文 参考訳(メタデータ) (2020-12-09T17:56:22Z) - Effective FAQ Retrieval and Question Matching With Unsupervised
Knowledge Injection [10.82418428209551]
質問に対して適切な回答を得るための文脈言語モデルを提案する。
また、ドメイン固有の単語間のトポロジ関連関係を教師なしの方法で活用することについても検討する。
提案手法のバリエーションを,公開可能な中国語FAQデータセット上で評価し,さらに大規模質問マッチングタスクに適用し,コンテキスト化する。
論文 参考訳(メタデータ) (2020-10-27T05:03:34Z) - Open Question Answering over Tables and Text [55.8412170633547]
オープンな質問応答(QA)では、質問に対する回答は、質問に対する回答を含む可能性のある文書を検索して分析することによって生成される。
ほとんどのオープンQAシステムは、構造化されていないテキストからのみ情報を取得することを検討している。
我々は,このタスクの性能を評価するために,新しい大規模データセット Open Table-and-Text Question Answering (OTT-QA) を提案する。
論文 参考訳(メタデータ) (2020-10-20T16:48:14Z) - Match$^2$: A Matching over Matching Model for Similar Question
Identification [74.7142127303489]
コミュニティ質問回答(Community Question Answering, CQA)は,質問や回答の提出を自由に行う,知識獲得のための主要な手段となっている。
類似した質問識別は、CQAの中核的なタスクとなり、新しい質問が尋ねられるたびに、アーカイブされたリポジトリから同様の質問を見つけることを目的としている。
自然言語の固有のバリエーション、すなわち、同じ質問をしたり、同じ表現を共有する異なる質問をする方法があるため、この2つの質問の類似性を適切に測定することは、長い間困難であった。
従来の手法では片側の使用が一般的であり、答えを拡張された表現として活用する。
論文 参考訳(メタデータ) (2020-06-21T05:59:34Z) - Robust Question Answering Through Sub-part Alignment [53.94003466761305]
我々はアライメント問題として質問応答をモデル化する。
私たちは、SQuAD v1.1でモデルをトレーニングし、いくつかの逆および外ドメインデータセットでそれをテストします。
論文 参考訳(メタデータ) (2020-04-30T09:10:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。