論文の概要: Simple Entity-Centric Questions Challenge Dense Retrievers
- arxiv url: http://arxiv.org/abs/2109.08535v1
- Date: Fri, 17 Sep 2021 13:19:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-20 14:37:48.042486
- Title: Simple Entity-Centric Questions Challenge Dense Retrievers
- Title(参考訳): シンプルなエンティティ中心の質問がDense Retrieversに挑戦
- Authors: Christopher Sciavolino, Zexuan Zhong, Jinhyuk Lee, Danqi Chen
- Abstract要約: 現在の高密度モデルは、まだ検索の聖杯ではないことを実証する。
まず、Wikidataの事実に基づいた、単純でエンティティに富んだ質問セットであるEntityQuestionsを構築します。
我々は,学習中に質問パターンが明示的に観察されない限り,高密度検索が共通エンティティにのみ一般化できることを明らかにする。
- 参考スコア(独自算出の注目度): 11.04363007631398
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-domain question answering has exploded in popularity recently due to the
success of dense retrieval models, which have surpassed sparse models using
only a few supervised training examples. However, in this paper, we demonstrate
current dense models are not yet the holy grail of retrieval. We first
construct EntityQuestions, a set of simple, entity-rich questions based on
facts from Wikidata (e.g., "Where was Arve Furset born?"), and observe that
dense retrievers drastically underperform sparse methods. We investigate this
issue and uncover that dense retrievers can only generalize to common entities
unless the question pattern is explicitly observed during training. We discuss
two simple solutions towards addressing this critical problem. First, we
demonstrate that data augmentation is unable to fix the generalization problem.
Second, we argue a more robust passage encoder helps facilitate better question
adaptation using specialized question encoders. We hope our work can shed light
on the challenges in creating a robust, universal dense retriever that works
well across different input distributions.
- Abstract(参考訳): 近年,厳密な検索モデルの成功により,少数の教師付きトレーニング例を用いてスパースモデルを上回ったオープンドメイン質問応答が急速に普及している。
しかし,本論文では,現在の密度モデルが検索の聖杯ではないことを実証する。
私たちはまず、Wikidataの事実に基づいた、単純でエンティティに富んだ質問の集合であるEntityQuestionsを構築します(例えば、Arve Fursetはどこで生まれたのか?)。
この問題を調査し, 学習中に質問パターンが明示的に観察されない限り, 密集したレトリバーが共通の実体にのみ一般化できることを明らかにする。
我々はこの問題に対処するための2つの簡単な解決策について議論する。
まず,データ拡張が一般化問題を解くことができないことを示す。
第2に,よりロバストなパッセージエンコーダは,特殊な質問エンコーダを用いた質問適応を促進する。
私たちは、さまざまな入力分布でうまく機能する、堅牢で普遍的な密集したレトリバーを作成するという課題に光を当てられることを願っています。
関連論文リスト
- Look Before You Leap: A Universal Emergent Decomposition of Retrieval
Tasks in Language Models [58.57279229066477]
本研究では,言語モデル(LM)が様々な状況下での検索タスクをどのように解決するかを検討する。
ORIONは6つのドメインにまたがる構造化された検索タスクの集合である。
LMは内部的にモジュール方式で検索タスクを分解する。
論文 参考訳(メタデータ) (2023-12-13T18:36:43Z) - Open-Set Knowledge-Based Visual Question Answering with Inference Paths [79.55742631375063]
知識に基づく視覚的質問回答(KB-VQA)の目的は、外部知識ベースの助けを借りて質問に対する正しい回答を提供することである。
KB-VQA, Graph pATH ranker (GATHER for brevity) の新しいレトリバーランカパラダイムを提案する。
具体的には、グラフの構築、プルーニング、パスレベルのランク付けが含まれており、正確な回答を検索するだけでなく、推論パスを提供して推論プロセスを説明する。
論文 参考訳(メタデータ) (2023-10-12T09:12:50Z) - Interpretability at Scale: Identifying Causal Mechanisms in Alpaca [62.65877150123775]
本研究では、Boundless DASを用いて、命令に従う間、大規模言語モデルにおける解釈可能な因果構造を効率的に探索する。
私たちの発見は、成長し、最も広くデプロイされている言語モデルの内部構造を忠実に理解するための第一歩です。
論文 参考訳(メタデータ) (2023-05-15T17:15:40Z) - Zero-shot Clarifying Question Generation for Conversational Search [25.514678546942754]
本稿では,質問テンプレートとクエリファセットの両方を用いて,効果的かつ正確な質問生成を導く制約付き質問生成システムを提案する。
実験の結果,提案手法は既存のゼロショットベースラインよりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2023-01-30T04:43:02Z) - UniKGQA: Unified Retrieval and Reasoning for Solving Multi-hop Question
Answering Over Knowledge Graph [89.98762327725112]
KGQA(Multi-hop Question Answering over Knowledge Graph)は、自然言語の質問で言及されているトピックエンティティから、複数のホップを持つ回答エンティティを見つけることを目的としている。
我々は、モデルアーキテクチャとパラメータ学習の両方において、検索と推論を統合することで、マルチホップKGQAタスクの新しいアプローチであるUniKGQAを提案する。
論文 参考訳(メタデータ) (2022-12-02T04:08:09Z) - Neural Retriever and Go Beyond: A Thesis Proposal [1.082365064737981]
Information Retriever (IR) は、あるクエリに関連するドキュメントを大規模に検索することを目的としている。
最近のニューラルベースアルゴリズム(ニューラルレトリバーと呼ばれる)は、従来の手法の限界を緩和できるほど注目を集めている。
論文 参考訳(メタデータ) (2022-05-31T17:59:30Z) - Learning to Retrieve Passages without Supervision [58.31911597824848]
オープンドメイン質問応答(ODQA)のためのダンスレトリバーは,問合せペアの大規模データセットをトレーニングすることで,優れた性能を発揮することが示されている。
そこで本研究では,自己教師型で高密度検索が学べるかどうかを考察し,アノテーションを使わずに効果的に適用する。
論文 参考訳(メタデータ) (2021-12-14T19:18:08Z) - Towards Universal Dense Retrieval for Open-domain Question Answering [0.0]
オープンドメイン質問応答では、モデルが入力としてテキスト質問を受け取り、大きなエビデンスコーパスを使用して正しい回答を検索する。
最近では、デファクト検索法としてスパース法が置き換えられている。
論文 参考訳(メタデータ) (2021-09-23T00:43:01Z) - ClarQ: A large-scale and diverse dataset for Clarification Question
Generation [67.1162903046619]
そこで我々は,スタックエクスチェンジから抽出したポストコメンデーションに基づいて,多様な,大規模な明確化質問データセットの作成を支援する,新しいブートストラップフレームワークを考案した。
質問応答の下流タスクに適用することで,新たに作成したデータセットの有用性を定量的に示す。
我々はこのデータセットを公開し、ダイアログと質問応答システムの拡張という大きな目標を掲げて、質問生成の分野の研究を促進する。
論文 参考訳(メタデータ) (2020-06-10T17:56:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。