論文の概要: Low-Resource Dense Retrieval for Open-Domain Question Answering: A
Comprehensive Survey
- arxiv url: http://arxiv.org/abs/2208.03197v1
- Date: Fri, 5 Aug 2022 14:35:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-08 12:32:05.678102
- Title: Low-Resource Dense Retrieval for Open-Domain Question Answering: A
Comprehensive Survey
- Title(参考訳): オープンドメイン質問応答のための低リソース密度検索:総合調査
- Authors: Xiaoyu Shen, Svitlana Vakulenko, Marco del Tredici, Gianni Barlacchi,
Bill Byrne and Adri\`a de Gispert
- Abstract要約: 低リソースDRの主流技術について概観する。
本手法は,(1)文書のみが必要であること,(2)文書と質問が必要であること,(3)文書と質問対が必要であること,の3つのカテゴリに分けられる。
いずれの手法も、その汎用アルゴリズムを導入し、オープンな問題と長所と短所を強調し、今後の研究の方向性を概説する。
- 参考スコア(独自算出の注目度): 23.854086903936647
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Dense retrieval (DR) approaches based on powerful pre-trained language models
(PLMs) achieved significant advances and have become a key component for modern
open-domain question-answering systems. However, they require large amounts of
manual annotations to perform competitively, which is infeasible to scale. To
address this, a growing body of research works have recently focused on
improving DR performance under low-resource scenarios. These works differ in
what resources they require for training and employ a diverse set of
techniques. Understanding such differences is crucial for choosing the right
technique under a specific low-resource scenario. To facilitate this
understanding, we provide a thorough structured overview of mainstream
techniques for low-resource DR. Based on their required resources, we divide
the techniques into three main categories: (1) only documents are needed; (2)
documents and questions are needed; and (3) documents and question-answer pairs
are needed. For every technique, we introduce its general-form algorithm,
highlight the open issues and pros and cons. Promising directions are outlined
for future research.
- Abstract(参考訳): 強力な事前学習言語モデル (PLM) に基づくDense Search (DR) アプローチは大きな進歩を遂げ、現代のオープンドメイン問合せシステムにおいて重要な要素となっている。
しかし、競争的に実行するには大量の手動アノテーションが必要であり、スケールすることは不可能である。
これに対処するため、最近の研究は低リソースのシナリオでdrのパフォーマンスを改善することに注力している。
これらの作業は、トレーニングに必要なリソースが異なるため、さまざまなテクニックが採用されている。
このような違いを理解することは、特定の低リソースシナリオの下で適切なテクニックを選択するために重要です。
この理解を容易にするために、我々は、低リソースDRの主流技術の概要を網羅的に構築し、必要なリソースに基づいて、(1)文書のみが必要であること、(2)文書と質問が必要であること、(3)文書と質問対が必要であること、の3つの主要なカテゴリに分けられる。
いずれの手法にも汎用アルゴリズムを導入し、オープンな問題と長所と短所を強調する。
今後の研究の方向性について概説する。
関連論文リスト
- Open Domain Multi-document Summarization: A Comprehensive Study of Model
Brittleness under Retrieval [42.73076855699184]
マルチドキュメント要約(MDS)は、一連のトピック関連の文書が入力として提供されると仮定する。
タスクを形式化し、既存のデータセット、レトリバー、要約器を使ってブートストラップすることで、より困難な設定について研究する。
論文 参考訳(メタデータ) (2022-12-20T18:41:38Z) - Questions Are All You Need to Train a Dense Passage Retriever [123.13872383489172]
ARTは、ラベル付きトレーニングデータを必要としない高密度検索モデルをトレーニングするための、新しいコーパスレベルのオートエンコーディングアプローチである。
そこで,(1) 入力質問を用いて証拠文書の集合を検索し,(2) 文書を用いて元の質問を再構築する確率を計算する。
論文 参考訳(メタデータ) (2022-06-21T18:16:31Z) - The Use of NLP-Based Text Representation Techniques to Support
Requirement Engineering Tasks: A Systematic Mapping Review [1.5469452301122177]
研究の方向性は、語彙的・構文的特徴の使用から高度な埋め込み技術の使用へと変化した。
既存の文献の4つのギャップ、それらが問題となる理由、そして今後の研究がそれらにどう対処し始めるかを特定する。
論文 参考訳(メタデータ) (2022-05-17T02:47:26Z) - A Transfer Learning Pipeline for Educational Resource Discovery with
Application in Leading Paragraph Generation [71.92338855383238]
本稿では,新しいドメインに対するWebリソース発見を自動化するパイプラインを提案する。
パイプラインは2つの類似しているが新規なターゲットドメインで評価すると、F1スコアは0.94と0.82となる。
本研究は,サーベイジェネレーションのための各種Webリソースを考察した最初の研究である。
論文 参考訳(メタデータ) (2022-01-07T03:35:40Z) - Adaptive Information Seeking for Open-Domain Question Answering [61.39330982757494]
本稿では,オープンドメイン質問応答,すなわちAISOに対する適応型情報探索手法を提案する。
学習方針によると、AISOは適切な検索行動を選択し、各ステップで行方不明の証拠を探すことができる。
AISOは、検索と回答の評価の両方の観点から、事前定義された戦略で全てのベースライン手法を上回ります。
論文 参考訳(メタデータ) (2021-09-14T15:08:13Z) - Low-Resource Domain Adaptation for Compositional Task-Oriented Semantic
Parsing [85.35582118010608]
タスク指向のセマンティックパーシングは仮想アシスタントの重要なコンポーネントである。
近年のディープラーニングの進歩は、より複雑なクエリを解析するいくつかのアプローチを可能にしている。
そこで本研究では,教師付きニューラルネットワークを10倍の精度で高速化する手法を提案する。
論文 参考訳(メタデータ) (2020-10-07T17:47:53Z) - Tradeoffs in Sentence Selection Techniques for Open-Domain Question
Answering [54.541952928070344]
文選択のためのモデルの2つのグループについて述べる。QAベースのアプローチは、解答候補を特定するための完全なQAシステムを実行し、検索ベースのモデルは、各質問に特に関連する各節の一部を見つける。
非常に軽量なQAモデルは、このタスクではうまく機能するが、検索ベースモデルは高速である。
論文 参考訳(メタデータ) (2020-09-18T23:39:15Z) - Extracting Topics from Open Educational Resources [0.0]
本稿では,テキストマイニング手法を適用したOERトピック抽出手法を提案し,トピック分布に関する高品質なOERメタデータを生成する。
1)データサイエンス関連のスキルの分野でCourseraとKhan Academyから123の講義を収集し、2)これらのスキルに関連する既存のトピックを抽出するためにLDA(Latent Dirichlet Allocation)を適用し、3)特定のOERがカバーするトピック分布を定義する。
論文 参考訳(メタデータ) (2020-06-19T12:50:55Z) - Pre-training Tasks for Embedding-based Large-scale Retrieval [68.01167604281578]
本稿では,大規模クエリ文書検索問題について考察する。
クエリ(例えば質問)が与えられたら、関連するドキュメントのセットを大きなドキュメントコーパスから返します。
本稿では, 組込み型トランスフォーマーモデルの学習の鍵となる要素が, 事前学習作業のセットであることを示す。
論文 参考訳(メタデータ) (2020-02-10T16:44:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。