論文の概要: Towards Universal Dense Retrieval for Open-domain Question Answering
- arxiv url: http://arxiv.org/abs/2109.11085v1
- Date: Thu, 23 Sep 2021 00:43:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2021-09-25 00:49:47.935952
- Title: Towards Universal Dense Retrieval for Open-domain Question Answering
- Title(参考訳): オープンドメイン質問応答のためのユニバーサルデンス検索に向けて
- Authors: Christopher Sciavolino
- Abstract要約: オープンドメイン質問応答では、モデルが入力としてテキスト質問を受け取り、大きなエビデンスコーパスを使用して正しい回答を検索する。
最近では、デファクト検索法としてスパース法が置き換えられている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In open-domain question answering, a model receives a text question as input
and searches for the correct answer using a large evidence corpus. The
retrieval step is especially difficult as typical evidence corpora have
\textit{millions} of documents, each of which may or may not have the correct
answer to the question. Very recently, dense models have replaced sparse
methods as the de facto retrieval method. Rather than focusing on lexical
overlap to determine similarity, dense methods build an encoding function that
captures semantic similarity by learning from a small collection of
question-answer or question-context pairs. In this paper, we investigate dense
retrieval models in the context of open-domain question answering across
different input distributions. To do this, first we introduce an entity-rich
question answering dataset constructed from Wikidata facts and demonstrate
dense models are unable to generalize to unseen input question distributions.
Second, we perform analyses aimed at better understanding the source of the
problem and propose new training techniques to improve out-of-domain
performance on a wide variety of datasets. We encourage the field to further
investigate the creation of a single, universal dense retrieval model that
generalizes well across all input distributions.
- Abstract(参考訳): オープンドメイン質問応答において、モデルはテキスト質問を入力として受信し、大きな証拠コーパスを用いて正しい回答を検索する。
検索ステップは、コーパスが文書の<textit{million}を持っているという典型的な証拠から、特に難しい。
近ごろ、密度密モデルがデファクト検索法としてスパース法を置き換えている。
類似性を決定するために語彙重なりに焦点をあてるのではなく、密集したメソッドは、質問応答や質問コンテキストのペアの小さな集合から学習することで意味的類似性をキャプチャする符号化関数を構築する。
本稿では,異なる入力分布にまたがるオープンドメイン質問応答の文脈における高密度検索モデルについて検討する。
まず、Wikidataの事実から構築されたエンティティに富んだ質問応答データセットを導入し、密集モデルが未知の質問分布に一般化できないことを示す。
第2に,問題の原因の理解を深める分析を行い,多種多様なデータセットにおけるドメイン外性能を改善するための新しいトレーニング手法を提案する。
我々は,すべての入力分布にまたがってよく一般化した,単一の普遍的な検索モデルの作成をさらに検討することを推奨する。
関連論文リスト
- UniKGQA: Unified Retrieval and Reasoning for Solving Multi-hop Question
Answering Over Knowledge Graph [89.98762327725112]
KGQA(Multi-hop Question Answering over Knowledge Graph)は、自然言語の質問で言及されているトピックエンティティから、複数のホップを持つ回答エンティティを見つけることを目的としている。
我々は、モデルアーキテクチャとパラメータ学習の両方において、検索と推論を統合することで、マルチホップKGQAタスクの新しいアプローチであるUniKGQAを提案する。
論文 参考訳(メタデータ) (2022-12-02T04:08:09Z) - Open-domain Question Answering via Chain of Reasoning over Heterogeneous
Knowledge [82.5582220249183]
異種知識ソース間のシングル/マルチホップ質問に応答する新しいオープンドメイン質問応答(ODQA)フレームワークを提案する。
分離された証拠を収集するためにレトリバーにのみ依存する従来の方法とは異なり、我々の仲介者は検索された集合に対する推論の連鎖を実行する。
本システムは,2つのODQAデータセットであるOTT-QAとNQに対して,Wikipediaの表や節に対する競合性能を実現する。
論文 参考訳(メタデータ) (2022-10-22T03:21:32Z) - A Proposed Conceptual Framework for a Representational Approach to
Information Retrieval [42.67826268399347]
本稿では,情報検索と自然言語処理における最近の発展を理解するための概念的枠組みについて概説する。
本稿では,コアテキスト検索問題を論理的スコアリングモデルと物理的検索モデルに分解する表現的アプローチを提案する。
論文 参考訳(メタデータ) (2021-10-04T15:57:02Z) - Simple Entity-Centric Questions Challenge Dense Retrievers [11.04363007631398]
現在の高密度モデルは、まだ検索の聖杯ではないことを実証する。
まず、Wikidataの事実に基づいた、単純でエンティティに富んだ質問セットであるEntityQuestionsを構築します。
我々は,学習中に質問パターンが明示的に観察されない限り,高密度検索が共通エンティティにのみ一般化できることを明らかにする。
論文 参考訳(メタデータ) (2021-09-17T13:19:03Z) - Adaptive Information Seeking for Open-Domain Question Answering [61.39330982757494]
本稿では,オープンドメイン質問応答,すなわちAISOに対する適応型情報探索手法を提案する。
学習方針によると、AISOは適切な検索行動を選択し、各ステップで行方不明の証拠を探すことができる。
AISOは、検索と回答の評価の両方の観点から、事前定義された戦略で全てのベースライン手法を上回ります。
論文 参考訳(メタデータ) (2021-09-14T15:08:13Z) - Answering Ambiguous Questions through Generative Evidence Fusion and
Round-Trip Prediction [46.38201136570501]
本稿では,複数の通路からの証拠を集約し,一つの回答や質問対の集合を適応的に予測するモデルを提案する。
我々のモデルはRefuelと呼ばれ、AmbigQAデータセット上で新しい最先端のパフォーマンスを実現し、NQ-OpenおよびTriviaQA上での競合性能を示す。
論文 参考訳(メタデータ) (2020-11-26T05:48:55Z) - Tradeoffs in Sentence Selection Techniques for Open-Domain Question
Answering [54.541952928070344]
文選択のためのモデルの2つのグループについて述べる。QAベースのアプローチは、解答候補を特定するための完全なQAシステムを実行し、検索ベースのモデルは、各質問に特に関連する各節の一部を見つける。
非常に軽量なQAモデルは、このタスクではうまく機能するが、検索ベースモデルは高速である。
論文 参考訳(メタデータ) (2020-09-18T23:39:15Z) - ClarQ: A large-scale and diverse dataset for Clarification Question
Generation [67.1162903046619]
そこで我々は,スタックエクスチェンジから抽出したポストコメンデーションに基づいて,多様な,大規模な明確化質問データセットの作成を支援する,新しいブートストラップフレームワークを考案した。
質問応答の下流タスクに適用することで,新たに作成したデータセットの有用性を定量的に示す。
我々はこのデータセットを公開し、ダイアログと質問応答システムの拡張という大きな目標を掲げて、質問生成の分野の研究を促進する。
論文 参考訳(メタデータ) (2020-06-10T17:56:50Z) - Robust Question Answering Through Sub-part Alignment [53.94003466761305]
我々はアライメント問題として質問応答をモデル化する。
私たちは、SQuAD v1.1でモデルをトレーニングし、いくつかの逆および外ドメインデータセットでそれをテストします。
論文 参考訳(メタデータ) (2020-04-30T09:10:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。