論文の概要: DC-BERT: Decoupling Question and Document for Efficient Contextual
Encoding
- arxiv url: http://arxiv.org/abs/2002.12591v1
- Date: Fri, 28 Feb 2020 08:18:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-28 02:13:17.504711
- Title: DC-BERT: Decoupling Question and Document for Efficient Contextual
Encoding
- Title(参考訳): DC-BERT: 効率的なコンテキストエンコーディングのための質問と文書の分離
- Authors: Yuyu Zhang, Ping Nie, Xiubo Geng, Arun Ramamurthy, Le Song, Daxin
Jiang
- Abstract要約: 近年のオープンドメイン質問応答は,BERT などの事前学習言語モデルを用いて顕著な性能向上を実現している。
本稿では,2つのBERTモデルを持つコンテキストエンコーディングフレームワークであるDC-BERTと,すべての文書を事前エンコードし,それらのエンコーディングをキャッシュするオフラインBERTを提案する。
SQuADオープンとNatural Questionsオープンデータセットでは、DC-BERTは文書検索の10倍のスピードアップを実現し、QAパフォーマンスのほとんど(約98%)を維持している。
- 参考スコア(独自算出の注目度): 90.85913515409275
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies on open-domain question answering have achieved prominent
performance improvement using pre-trained language models such as BERT.
State-of-the-art approaches typically follow the "retrieve and read" pipeline
and employ BERT-based reranker to filter retrieved documents before feeding
them into the reader module. The BERT retriever takes as input the
concatenation of question and each retrieved document. Despite the success of
these approaches in terms of QA accuracy, due to the concatenation, they can
barely handle high-throughput of incoming questions each with a large
collection of retrieved documents. To address the efficiency problem, we
propose DC-BERT, a decoupled contextual encoding framework that has dual BERT
models: an online BERT which encodes the question only once, and an offline
BERT which pre-encodes all the documents and caches their encodings. On SQuAD
Open and Natural Questions Open datasets, DC-BERT achieves 10x speedup on
document retrieval, while retaining most (about 98%) of the QA performance
compared to state-of-the-art approaches for open-domain question answering.
- Abstract(参考訳): 近年のオープンドメイン質問応答は,BERT などの事前学習言語モデルを用いて顕著な性能向上を実現している。
State-of-the-artアプローチは通常、"retrieve and read"パイプラインに従い、BERTベースのリランカを使用して、取得したドキュメントを読み取りモジュールに入力する前にフィルタリングする。
BERTレトリバーは、質問の連結と各検索された文書を入力として取り出す。
これらの手法がQA精度で成功したにも拘わらず、連結により、検索された大量の文書の収集によって、入ってくる質問の高スループットをほとんど処理できない。
この効率問題に対処するため,2つのBERTモデルを持つ分離コンテキスト符号化フレームワークであるDC-BERTと,すべての文書を事前エンコードし,それらのエンコーディングをキャッシュするオフラインBERTを提案する。
SQuAD OpenとNatural Questions Openデータセットでは、DC-BERTはドキュメント検索の10倍のスピードアップを達成すると同時に、QAパフォーマンスのほとんど(約98%)を、オープンドメインの質問応答に対する最先端のアプローチと比較して保持する。
関連論文リスト
- DAPR: A Benchmark on Document-Aware Passage Retrieval [57.45793782107218]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。
State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。
提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文 参考訳(メタデータ) (2023-05-23T10:39:57Z) - Generate rather than Retrieve: Large Language Models are Strong Context
Generators [74.87021992611672]
本稿では,文書検索を大規模言語モデル生成器に置き換えることで,知識集約型タスクを解く新しい視点を提案する。
我々は,提案手法をgenRead (genRead) と呼び,まず大きな言語モデルに対して,与えられた質問に基づいて文脈文書を生成し,次に生成された文書を読み出して最終回答を生成する。
論文 参考訳(メタデータ) (2022-09-21T01:30:59Z) - Questions Are All You Need to Train a Dense Passage Retriever [123.13872383489172]
ARTは、ラベル付きトレーニングデータを必要としない高密度検索モデルをトレーニングするための、新しいコーパスレベルのオートエンコーディングアプローチである。
そこで,(1) 入力質問を用いて証拠文書の集合を検索し,(2) 文書を用いて元の質問を再構築する確率を計算する。
論文 参考訳(メタデータ) (2022-06-21T18:16:31Z) - CharacterBERT and Self-Teaching for Improving the Robustness of Dense
Retrievers on Queries with Typos [26.053028706793587]
本研究では,クエリの文字レベルが(タイポスによって引き起こされるような)高密度検索の有効性に大きな影響を及ぼすことを示す。
BERTでは、BERTのWordPieceトークンライザを使用してトークン化を行う。
そこで我々は,このようなタイポクエリに対して堅牢な高密度検索手法の開発に注意を向ける。
論文 参考訳(メタデータ) (2022-04-01T23:02:50Z) - Roof-BERT: Divide Understanding Labour and Join in Work [7.523253052992842]
Roof-BERTは、2つの基盤となるBERTと融合層を持つモデルである。
基盤となるBERTの1つは知識資源をエンコードし、もう1つは元の入力文をエンコードする。
QAタスクの実験結果から,提案手法の有効性が明らかになった。
論文 参考訳(メタデータ) (2021-12-13T15:40:54Z) - Open Question Answering over Tables and Text [55.8412170633547]
オープンな質問応答(QA)では、質問に対する回答は、質問に対する回答を含む可能性のある文書を検索して分析することによって生成される。
ほとんどのオープンQAシステムは、構造化されていないテキストからのみ情報を取得することを検討している。
我々は,このタスクの性能を評価するために,新しい大規模データセット Open Table-and-Text Question Answering (OTT-QA) を提案する。
論文 参考訳(メタデータ) (2020-10-20T16:48:14Z) - ColBERT: Efficient and Effective Passage Search via Contextualized Late
Interaction over BERT [24.288824715337483]
ColBERTは、ディープLMを効率的な検索に適応させる新しいランキングモデルである。
我々は最近の2つの経路探索データセットを用いてColBERTを広範囲に評価した。
論文 参考訳(メタデータ) (2020-04-27T14:21:03Z) - A Study on Efficiency, Accuracy and Document Structure for Answer
Sentence Selection [112.0514737686492]
本稿では,単語関連エンコーダとともに,原語階の内在的構造を活用すれば,競争的な結果が得られることを論じる。
私たちのモデルはWikiQAデータセットでトレーニングするのに9.5秒かかります。
論文 参考訳(メタデータ) (2020-03-04T22:12:18Z) - TwinBERT: Distilling Knowledge to Twin-Structured BERT Models for
Efficient Retrieval [11.923682816611716]
本稿では,効率的な検索のためのTwinBERTモデルを提案する。
クエリとドキュメントをそれぞれ表現するBERTライクなエンコーダがツイン構造化されている。
ドキュメントの埋め込みはオフラインでプリコンパイルされ、メモリにキャッシュされる。
論文 参考訳(メタデータ) (2020-02-14T22:44:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。