論文の概要: CharacterBERT and Self-Teaching for Improving the Robustness of Dense
Retrievers on Queries with Typos
- arxiv url: http://arxiv.org/abs/2204.00716v1
- Date: Fri, 1 Apr 2022 23:02:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-05 15:37:39.186374
- Title: CharacterBERT and Self-Teaching for Improving the Robustness of Dense
Retrievers on Queries with Typos
- Title(参考訳): タイポを用いたクエリにおけるディエンスレトリバーのロバスト性向上のための文字バーストと自己学習
- Authors: Shengyao Zhuang and Guido Zuccon
- Abstract要約: 本研究では,クエリの文字レベルが(タイポスによって引き起こされるような)高密度検索の有効性に大きな影響を及ぼすことを示す。
BERTでは、BERTのWordPieceトークンライザを使用してトークン化を行う。
そこで我々は,このようなタイポクエリに対して堅牢な高密度検索手法の開発に注意を向ける。
- 参考スコア(独自算出の注目度): 26.053028706793587
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Previous work has shown that dense retrievers are not robust to out-of-domain
and outlier queries, i.e. their effectiveness on these queries is much poorer
than what expected. In this paper, we consider a specific instance of such
queries: queries that contain typos. We show that a small character level
perturbation in queries (as caused by typos) highly impacts the effectiveness
of dense retrievers. We then demonstrate that the root cause of this resides in
the input tokenization strategy employed by BERT. In BERT, tokenization is
performed using the BERT's WordPiece tokenizer and we show that a token with a
typo will significantly change the token distributions obtained after
tokenization. This distribution change translates to changes in the input
embeddings passed to the BERT-based query encoder of dense retrievers. We then
turn our attention to devising dense retriever methods that are robust to such
typo queries, while still being as performant as previous methods on queries
without typos. For this, we use CharacterBERT as the backbone encoder and an
efficient yet effective training method, called Self-Teaching (ST), that
distills knowledge from queries without typos into the queries with typos.
Experimental results show that CharacterBERT in combination with ST achieves
significantly higher effectiveness on queries with typos compared to previous
methods. Along with these results and the open-sourced implementation of the
methods, we also provide a new passage retrieval dataset consisting of
real-world queries with typos and associated relevance assessments on the MS
MARCO corpus, thus supporting the research community in the investigation of
effective and robust dense retrievers.
- Abstract(参考訳): 従来の研究では、高密度検索はドメイン外および外れ値クエリに対して堅牢ではないことが示されており、すなわち、これらのクエリに対するそれらの効果は、予想よりもはるかに貧弱である。
本稿では,このようなクエリの具体例として,タイポスを含むクエリについて考察する。
本研究では,クエリにおける小文字レベルの摂動が,高密度検索の有効性に大きな影響を及ぼすことを示す。
その根本原因がBERTの入力トークン化戦略にあることを実証する。
bert では、トークン化は bert の wordpiece tokenizer を使って行われ、typo のトークンはトークン化後に得られたトークン分布を大きく変える。
この分布変化は、密度の高い検索者のBERTベースのクエリエンコーダに渡される入力埋め込みの変化に変換される。
そして、このようなtypoクエリに頑健な高密検索メソッドを開発することに注意を向けながら、typosのないクエリの以前のメソッドと同じくらいの性能を維持しています。
本研究では, タイポを使わずにクエリから知識を抽出する自己学習(ST)と呼ばれる, バックボーンエンコーダおよび効率的なトレーニング手法として characterBERT を用いる。
実験結果から,STと組み合わせたキャラクタBERTは,従来手法と比較して,タイポスを用いたクエリに対して有意に高い効率を実現していることがわかった。
これらの結果と,提案手法のオープンソース実装とともに,MS MARCOコーパス上でのリアルタイムクエリと関連する関連性評価からなる新たなパス検索データセットも提供する。
関連論文リスト
- SparseCL: Sparse Contrastive Learning for Contradiction Retrieval [87.02936971689817]
コントラディション検索(Contradiction Search)とは、クエリの内容に明示的に異を唱える文書を識別し、抽出することである。
類似性探索やクロスエンコーダモデルといった既存の手法には、大きな制限がある。
文間の微妙で矛盾したニュアンスを保存するために特別に訓練された文埋め込みを利用するSparseCLを導入する。
論文 参考訳(メタデータ) (2024-06-15T21:57:03Z) - Revisiting Sparse Retrieval for Few-shot Entity Linking [33.15662306409253]
本稿では,ELECTRAに基づくキーワード抽出手法を提案する。
抽出器のトレーニングには,参照コンテキストとエンティティ記述との間に重複するトークンをベースとしたトレーニングデータを自動的に生成する遠隔監視手法を提案する。
ZESHELデータセットによる実験結果から,提案手法はすべてのテスト領域において,最先端モデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2023-10-19T03:51:10Z) - Typo-Robust Representation Learning for Dense Retrieval [6.148710657178892]
現実世界の設定における密集検索の主な課題の1つは、ミススペルされた単語を含むクエリの処理である。
ミススペルクエリを扱う一般的なアプローチは、ミススペルクエリとそれらのプリスタントクエリとの差の最小化である。
ミススペルクエリとプリスタンクエリのアライメントのみに焦点を当てた既存のアプローチとは異なり,本手法は各ミススペルクエリと周辺クエリとのコントラストも改善する。
論文 参考訳(メタデータ) (2023-06-17T13:48:30Z) - Query Rewriting for Retrieval-Augmented Large Language Models [139.242907155883]
大規模言語モデル(LLM)は、検索対象のパイプラインで強力なブラックボックスリーダーを動作させる。
この作業では、検索拡張LDMに対する以前の検索テーマ読み込みの代わりに、新しいフレームワークであるRewrite-Retrieve-Readを導入する。
論文 参考訳(メタデータ) (2023-05-23T17:27:50Z) - Noise-Robust Dense Retrieval via Contrastive Alignment Post Training [89.29256833403167]
Contrastive Alignment POst Training (CAPOT) は、指数再生を必要とせず、モデルロバスト性を改善する高効率な微調整法である。
CAPOTはドキュメントエンコーダを凍結することで堅牢な検索を可能にし、クエリエンコーダはノイズの多いクエリを修正されていないルートに整列させる。
MSMARCO、Natural Questions、Trivia QAパス検索のCAPOTノイズ変動を評価し、CAPOTがオーバーヘッドを伴わないデータ増大に類似した影響があることを発見した。
論文 参考訳(メタデータ) (2023-04-06T22:16:53Z) - CAPSTONE: Curriculum Sampling for Dense Retrieval with Document
Expansion [68.19934563919192]
本稿では,学習中に擬似クエリを利用して,生成したクエリと実際のクエリとの関係を徐々に向上させるカリキュラムサンプリング戦略を提案する。
ドメイン内およびドメイン外両方のデータセットに対する実験結果から,本手法が従来の高密度検索モデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-12-18T15:57:46Z) - Error-Robust Retrieval for Chinese Spelling Check [43.56073620728942]
Chinese Spelling Check (CSC)は、中国のコンテキストにおけるエラートークンの検出と修正を目的としている。
これまでの方法では、既存のデータセットを完全に活用できない場合がある。
そこで我々は,中国語スペルチェックのための誤り情報付きプラグ・アンド・プレイ検索手法を提案する。
論文 参考訳(メタデータ) (2022-11-15T01:55:34Z) - Improving Query Representations for Dense Retrieval with Pseudo
Relevance Feedback [29.719150565643965]
本稿では,疑似関連性フィードバック(PRF)を用いて高密度検索のためのクエリ表現を改善する新しいクエリエンコーダであるANCE-PRFを提案する。
ANCE-PRF は BERT エンコーダを使用し、検索モデルである ANCE からクエリとトップ検索されたドキュメントを消費し、関連ラベルから直接クエリの埋め込みを生成する。
PRFエンコーダは、学習された注意機構でノイズを無視しながら、PRF文書から関連および補完的な情報を効果的にキャプチャする。
論文 参考訳(メタデータ) (2021-08-30T18:10:26Z) - BERTese: Learning to Speak to BERT [50.76152500085082]
本論文では,より良い知識抽出に向けて直接最適化されたパラフレーズクエリ"BERTese"に自動書き換える手法を提案する。
私たちのアプローチが競合するベースラインを上回ることを実証的に示し、複雑なパイプラインの必要性を回避します。
論文 参考訳(メタデータ) (2021-03-09T10:17:22Z) - DC-BERT: Decoupling Question and Document for Efficient Contextual
Encoding [90.85913515409275]
近年のオープンドメイン質問応答は,BERT などの事前学習言語モデルを用いて顕著な性能向上を実現している。
本稿では,2つのBERTモデルを持つコンテキストエンコーディングフレームワークであるDC-BERTと,すべての文書を事前エンコードし,それらのエンコーディングをキャッシュするオフラインBERTを提案する。
SQuADオープンとNatural Questionsオープンデータセットでは、DC-BERTは文書検索の10倍のスピードアップを実現し、QAパフォーマンスのほとんど(約98%)を維持している。
論文 参考訳(メタデータ) (2020-02-28T08:18:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。