Fugu-MT 論文翻訳(概要): Simple Entity-Centric Questions Challenge Dense Retrievers

論文の概要: Simple Entity-Centric Questions Challenge Dense Retrievers

arxiv url: http://arxiv.org/abs/2109.08535v1
Date: Fri, 17 Sep 2021 13:19:03 GMT
ステータス: 翻訳完了
システム内更新日: 2021-09-20 14:37:48.042486
Title: Simple Entity-Centric Questions Challenge Dense Retrievers
Title（参考訳）: シンプルなエンティティ中心の質問がDense Retrieversに挑戦
Authors: Christopher Sciavolino, Zexuan Zhong, Jinhyuk Lee, Danqi Chen
Abstract要約: 現在の高密度モデルは、まだ検索の聖杯ではないことを実証する。まず、Wikidataの事実に基づいた、単純でエンティティに富んだ質問セットであるEntityQuestionsを構築します。我々は,学習中に質問パターンが明示的に観察されない限り,高密度検索が共通エンティティにのみ一般化できることを明らかにする。
参考スコア（独自算出の注目度）: 11.04363007631398
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Open-domain question answering has exploded in popularity recently due to the success of dense retrieval models, which have surpassed sparse models using only a few supervised training examples. However, in this paper, we demonstrate current dense models are not yet the holy grail of retrieval. We first construct EntityQuestions, a set of simple, entity-rich questions based on facts from Wikidata (e.g., "Where was Arve Furset born?"), and observe that dense retrievers drastically underperform sparse methods. We investigate this issue and uncover that dense retrievers can only generalize to common entities unless the question pattern is explicitly observed during training. We discuss two simple solutions towards addressing this critical problem. First, we demonstrate that data augmentation is unable to fix the generalization problem. Second, we argue a more robust passage encoder helps facilitate better question adaptation using specialized question encoders. We hope our work can shed light on the challenges in creating a robust, universal dense retriever that works well across different input distributions.
Abstract（参考訳）: 近年,厳密な検索モデルの成功により,少数の教師付きトレーニング例を用いてスパースモデルを上回ったオープンドメイン質問応答が急速に普及している。しかし,本論文では,現在の密度モデルが検索の聖杯ではないことを実証する。私たちはまず、Wikidataの事実に基づいた、単純でエンティティに富んだ質問の集合であるEntityQuestionsを構築します(例えば、Arve Fursetはどこで生まれたのか?)。この問題を調査し, 学習中に質問パターンが明示的に観察されない限り, 密集したレトリバーが共通の実体にのみ一般化できることを明らかにする。我々はこの問題に対処するための2つの簡単な解決策について議論する。まず,データ拡張が一般化問題を解くことができないことを示す。第2に,よりロバストなパッセージエンコーダは,特殊な質問エンコーダを用いた質問適応を促進する。私たちは、さまざまな入力分布でうまく機能する、堅牢で普遍的な密集したレトリバーを作成するという課題に光を当てられることを願っています。

関連論文リスト

Dense Retrievers Can Fail on Simple Queries: Revealing The Granularity Dilemma of Embeddings [78.05609552686053]
この研究は、テキストエンコーダの観察された制限に焦点を当てている。埋め込みはセマンティクス内のきめ細かいエンティティやイベントを認識できない可能性がある。我々は中国語で新しい評価データセットであるCapRetrievalを紹介し、その文節は画像キャプションであり、クエリは様々な形式のエンティティやイベントを問うフレーズである。ゼロショット評価は、トレーニングソースやモデルサイズに関わらず、エンコーダがこれらのきめ細かいマッチングで失敗する可能性があることを示唆している。
論文参考訳（メタデータ） (2025-06-10T09:00:33Z)
ReSCORE: Label-free Iterative Retriever Training for Multi-hop Question Answering with Relevance-Consistency Supervision [23.80886911344813]
マルチホップ質問の回答には、複雑な質問に答えるために複数のドキュメントをまたがる推論が含まれる。センスレトリバーは通常、セマンティック埋め込みを利用してBM25のようなスパースメソッドより優れている。 ReSCOREはラベル付き文書を使わずにMHQAの高密度検索を訓練するための新しい手法である。
論文参考訳（メタデータ） (2025-05-27T14:28:24Z)
Konstruktor: A Strong Baseline for Simple Knowledge Graph Question Answering [60.6042489577575]
Konstruktor - 問題を3つのステップに分割する,効率的で堅牢なアプローチ。我々のアプローチは言語モデルと知識グラフを統合し、前者の力と後者の解釈可能性を活用する。関係検出において、ワークフローの最も困難なステップとして、関係分類・生成とランク付けの組み合わせが、他の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-09-24T09:19:11Z)
Generate-then-Ground in Retrieval-Augmented Generation for Multi-hop Question Answering [45.82437926569949]
マルチホップ質問回答タスクは、大きな言語モデルにとって大きな課題となる。マルチホップ問題の解法として,ジェネレーションセブングラウンド(GenGround)フレームワークを提案する。
論文参考訳（メタデータ） (2024-06-21T06:26:38Z)
Optimizing Language Model's Reasoning Abilities with Weak Supervision [48.60598455782159]
弱い教師付きベンチマークであるtextscPuzzleBen について,25,147 の複雑な質問,回答,人為的合理性からなる。データセットのユニークな側面は、10,000の未注釈の質問を含めることであり、LLMの推論能力を高めるために、より少ないスーパーサイズのデータを活用することができる。
論文参考訳（メタデータ） (2024-05-07T07:39:15Z)
Interpretability at Scale: Identifying Causal Mechanisms in Alpaca [62.65877150123775]
本研究では、Boundless DASを用いて、命令に従う間、大規模言語モデルにおける解釈可能な因果構造を効率的に探索する。私たちの発見は、成長し、最も広くデプロイされている言語モデルの内部構造を忠実に理解するための第一歩です。
論文参考訳（メタデータ） (2023-05-15T17:15:40Z)
UniKGQA: Unified Retrieval and Reasoning for Solving Multi-hop Question Answering Over Knowledge Graph [89.98762327725112]
KGQA(Multi-hop Question Answering over Knowledge Graph)は、自然言語の質問で言及されているトピックエンティティから、複数のホップを持つ回答エンティティを見つけることを目的としている。我々は、モデルアーキテクチャとパラメータ学習の両方において、検索と推論を統合することで、マルチホップKGQAタスクの新しいアプローチであるUniKGQAを提案する。
論文参考訳（メタデータ） (2022-12-02T04:08:09Z)
Neural Retriever and Go Beyond: A Thesis Proposal [1.082365064737981]
Information Retriever (IR) は、あるクエリに関連するドキュメントを大規模に検索することを目的としている。最近のニューラルベースアルゴリズム(ニューラルレトリバーと呼ばれる)は、従来の手法の限界を緩和できるほど注目を集めている。
論文参考訳（メタデータ） (2022-05-31T17:59:30Z)
Learning to Retrieve Passages without Supervision [58.31911597824848]
オープンドメイン質問応答(ODQA)のためのダンスレトリバーは,問合せペアの大規模データセットをトレーニングすることで,優れた性能を発揮することが示されている。そこで本研究では,自己教師型で高密度検索が学べるかどうかを考察し,アノテーションを使わずに効果的に適用する。
論文参考訳（メタデータ） (2021-12-14T19:18:08Z)
Towards Universal Dense Retrieval for Open-domain Question Answering [0.0]
オープンドメイン質問応答では、モデルが入力としてテキスト質問を受け取り、大きなエビデンスコーパスを使用して正しい回答を検索する。最近では、デファクト検索法としてスパース法が置き換えられている。
論文参考訳（メタデータ） (2021-09-23T00:43:01Z)
ClarQ: A large-scale and diverse dataset for Clarification Question Generation [67.1162903046619]
そこで我々は,スタックエクスチェンジから抽出したポストコメンデーションに基づいて,多様な,大規模な明確化質問データセットの作成を支援する,新しいブートストラップフレームワークを考案した。質問応答の下流タスクに適用することで,新たに作成したデータセットの有用性を定量的に示す。我々はこのデータセットを公開し、ダイアログと質問応答システムの拡張という大きな目標を掲げて、質問生成の分野の研究を促進する。
論文参考訳（メタデータ） (2020-06-10T17:56:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。