論文の概要: Simple Entity-Centric Questions Challenge Dense Retrievers
- arxiv url: http://arxiv.org/abs/2109.08535v1
- Date: Fri, 17 Sep 2021 13:19:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-20 14:37:48.042486
- Title: Simple Entity-Centric Questions Challenge Dense Retrievers
- Title(参考訳): シンプルなエンティティ中心の質問がDense Retrieversに挑戦
- Authors: Christopher Sciavolino, Zexuan Zhong, Jinhyuk Lee, Danqi Chen
- Abstract要約: 現在の高密度モデルは、まだ検索の聖杯ではないことを実証する。
まず、Wikidataの事実に基づいた、単純でエンティティに富んだ質問セットであるEntityQuestionsを構築します。
我々は,学習中に質問パターンが明示的に観察されない限り,高密度検索が共通エンティティにのみ一般化できることを明らかにする。
- 参考スコア(独自算出の注目度): 11.04363007631398
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-domain question answering has exploded in popularity recently due to the
success of dense retrieval models, which have surpassed sparse models using
only a few supervised training examples. However, in this paper, we demonstrate
current dense models are not yet the holy grail of retrieval. We first
construct EntityQuestions, a set of simple, entity-rich questions based on
facts from Wikidata (e.g., "Where was Arve Furset born?"), and observe that
dense retrievers drastically underperform sparse methods. We investigate this
issue and uncover that dense retrievers can only generalize to common entities
unless the question pattern is explicitly observed during training. We discuss
two simple solutions towards addressing this critical problem. First, we
demonstrate that data augmentation is unable to fix the generalization problem.
Second, we argue a more robust passage encoder helps facilitate better question
adaptation using specialized question encoders. We hope our work can shed light
on the challenges in creating a robust, universal dense retriever that works
well across different input distributions.
- Abstract(参考訳): 近年,厳密な検索モデルの成功により,少数の教師付きトレーニング例を用いてスパースモデルを上回ったオープンドメイン質問応答が急速に普及している。
しかし,本論文では,現在の密度モデルが検索の聖杯ではないことを実証する。
私たちはまず、Wikidataの事実に基づいた、単純でエンティティに富んだ質問の集合であるEntityQuestionsを構築します(例えば、Arve Fursetはどこで生まれたのか?)。
この問題を調査し, 学習中に質問パターンが明示的に観察されない限り, 密集したレトリバーが共通の実体にのみ一般化できることを明らかにする。
我々はこの問題に対処するための2つの簡単な解決策について議論する。
まず,データ拡張が一般化問題を解くことができないことを示す。
第2に,よりロバストなパッセージエンコーダは,特殊な質問エンコーダを用いた質問適応を促進する。
私たちは、さまざまな入力分布でうまく機能する、堅牢で普遍的な密集したレトリバーを作成するという課題に光を当てられることを願っています。
関連論文リスト
- Konstruktor: A Strong Baseline for Simple Knowledge Graph Question Answering [60.6042489577575]
Konstruktor - 問題を3つのステップに分割する,効率的で堅牢なアプローチ。
我々のアプローチは言語モデルと知識グラフを統合し、前者の力と後者の解釈可能性を活用する。
関係検出において、ワークフローの最も困難なステップとして、関係分類・生成とランク付けの組み合わせが、他の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-09-24T09:19:11Z) - Generate-then-Ground in Retrieval-Augmented Generation for Multi-hop Question Answering [45.82437926569949]
マルチホップ質問回答タスクは、大きな言語モデルにとって大きな課題となる。
マルチホップ問題の解法として,ジェネレーションセブングラウンド(GenGround)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-21T06:26:38Z) - Optimizing Language Model's Reasoning Abilities with Weak Supervision [48.60598455782159]
弱い教師付きベンチマークであるtextscPuzzleBen について,25,147 の複雑な質問,回答,人為的合理性からなる。
データセットのユニークな側面は、10,000の未注釈の質問を含めることであり、LLMの推論能力を高めるために、より少ないスーパーサイズのデータを活用することができる。
論文 参考訳(メタデータ) (2024-05-07T07:39:15Z) - Interpretability at Scale: Identifying Causal Mechanisms in Alpaca [62.65877150123775]
本研究では、Boundless DASを用いて、命令に従う間、大規模言語モデルにおける解釈可能な因果構造を効率的に探索する。
私たちの発見は、成長し、最も広くデプロイされている言語モデルの内部構造を忠実に理解するための第一歩です。
論文 参考訳(メタデータ) (2023-05-15T17:15:40Z) - UniKGQA: Unified Retrieval and Reasoning for Solving Multi-hop Question
Answering Over Knowledge Graph [89.98762327725112]
KGQA(Multi-hop Question Answering over Knowledge Graph)は、自然言語の質問で言及されているトピックエンティティから、複数のホップを持つ回答エンティティを見つけることを目的としている。
我々は、モデルアーキテクチャとパラメータ学習の両方において、検索と推論を統合することで、マルチホップKGQAタスクの新しいアプローチであるUniKGQAを提案する。
論文 参考訳(メタデータ) (2022-12-02T04:08:09Z) - Neural Retriever and Go Beyond: A Thesis Proposal [1.082365064737981]
Information Retriever (IR) は、あるクエリに関連するドキュメントを大規模に検索することを目的としている。
最近のニューラルベースアルゴリズム(ニューラルレトリバーと呼ばれる)は、従来の手法の限界を緩和できるほど注目を集めている。
論文 参考訳(メタデータ) (2022-05-31T17:59:30Z) - Learning to Retrieve Passages without Supervision [58.31911597824848]
オープンドメイン質問応答(ODQA)のためのダンスレトリバーは,問合せペアの大規模データセットをトレーニングすることで,優れた性能を発揮することが示されている。
そこで本研究では,自己教師型で高密度検索が学べるかどうかを考察し,アノテーションを使わずに効果的に適用する。
論文 参考訳(メタデータ) (2021-12-14T19:18:08Z) - Towards Universal Dense Retrieval for Open-domain Question Answering [0.0]
オープンドメイン質問応答では、モデルが入力としてテキスト質問を受け取り、大きなエビデンスコーパスを使用して正しい回答を検索する。
最近では、デファクト検索法としてスパース法が置き換えられている。
論文 参考訳(メタデータ) (2021-09-23T00:43:01Z) - ClarQ: A large-scale and diverse dataset for Clarification Question
Generation [67.1162903046619]
そこで我々は,スタックエクスチェンジから抽出したポストコメンデーションに基づいて,多様な,大規模な明確化質問データセットの作成を支援する,新しいブートストラップフレームワークを考案した。
質問応答の下流タスクに適用することで,新たに作成したデータセットの有用性を定量的に示す。
我々はこのデータセットを公開し、ダイアログと質問応答システムの拡張という大きな目標を掲げて、質問生成の分野の研究を促進する。
論文 参考訳(メタデータ) (2020-06-10T17:56:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。