論文の概要: Comparing Neighbors Together Makes it Easy: Jointly Comparing Multiple Candidates for Efficient and Effective Retrieval
- arxiv url: http://arxiv.org/abs/2405.12801v2
- Date: Fri, 25 Oct 2024 01:45:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-28 13:34:52.942033
- Title: Comparing Neighbors Together Makes it Easy: Jointly Comparing Multiple Candidates for Efficient and Effective Retrieval
- Title(参考訳): 隣人の比較が簡単になる: 効率よく効果的な検索のための複数の候補を共同比較する
- Authors: Jonghyun Song, Cheyon Jin, Wenlong Zhao, Andrew McCallum, Jay-Yoon Lee,
- Abstract要約: 一般的な検索と参照のパラダイムは、高速なバイエンコーダ(BE)を使用して、幅広い集合から関連する候補を検索することである。
本稿では,クエリと類似候補の複数の埋め込みを,浅い自己認識層を通じて比較する比較多重候補フレームワークを提案する。
ZeSHELデータセットの実験結果は、バイエンコーダとクロスエンコーダをシームレスな中間リランカとして接続した場合、MCCはリコール@kを効果的に改善できることを示した。
- 参考スコア(独自算出の注目度): 36.445443789036226
- License:
- Abstract: A common retrieve-and-rerank paradigm involves retrieving relevant candidates from a broad set using a fast bi-encoder (BE), followed by applying expensive but accurate cross-encoders (CE) to a limited candidate set. However, relying on this small subset is often susceptible to error propagation from the bi-encoders, which limits the overall performance. To address these issues, we propose the Comparing Multiple Candidates (CMC) framework. CMC compares a query and multiple embeddings of similar candidates (i.e., neighbors) through shallow self-attention layers, delivering rich representations contextualized to each other. Furthermore, CMC is scalable enough to handle multiple comparisons simultaneously. For example, comparing ~10K candidates with CMC takes a similar amount of time as comparing 16 candidates with CE. Experimental results on the ZeSHEL dataset demonstrate that CMC, when plugged in between bi-encoders and cross-encoders as a seamless intermediate reranker (BE-CMC-CE), can effectively improve recall@k (+4.8%-p, +3.5%-p for R@16, R@64) compared to using only bi-encoders (BE-CE), with negligible slowdown (<7%). Additionally, to verify CMC's effectiveness as the final-stage reranker in improving top-1 accuracy, we conduct experiments on downstream tasks such as entity, passage, and dialogue ranking. The results indicate that CMC is not only faster (11x) but also often more effective than CE, with improved prediction accuracy in Wikipedia entity linking (+0.7%-p) and DSTC7 dialogue ranking (+3.3%-p).
- Abstract(参考訳): 一般的な検索と参照のパラダイムは、高速なバイエンコーダ(BE)を用いて、関連する候補を広義の集合から検索し、次に、高価だが正確なクロスエンコーダ(CE)を限られた候補集合に適用することである。
しかし、この小さなサブセットに依存すると、双エンコーダからのエラーの伝播の影響を受けやすいため、全体的なパフォーマンスが制限されることが多い。
これらの問題に対処するために、比較多重候補(CMC)フレームワークを提案する。
CMCは、クエリと類似の候補(すなわち隣人の)を浅い自己アテンション層を通じて複数の埋め込みを比較し、相互にコンテキスト化されたリッチな表現を提供する。
さらに、CMCは複数の比較を同時に処理できるほどスケーラブルである。
例えば、約10Kの候補をCMCと比較するには、16の候補をCEと比較するのと同じ時間を要する。
ZeSHELデータセットの実験結果は、バイエンコーダとクロスエンコーダをシームレスな中間リランカ(BE-CMC-CE)として接続すると、バイエンコーダ(BE-CE)のみを使用する場合と比較して、リコール@k(+4.8%-p、+3.5%-p、R@16、R@64)を効果的に改善できることを示した。
さらに,CMCがトップ1の精度向上に有効であることを示すために,エンティティ,パス,対話ランキングなどの下流タスクの実験を行った。
結果は、CMCはより高速な(11x)だけでなく、CEよりも効果的で、ウィキペディアのエンティティリンク(+0.7%-p)とDSTC7の対話ランキング(+3.3%-p)の予測精度が向上していることを示している。
関連論文リスト
- CR-CTC: Consistency regularization on CTC for improved speech recognition [18.996929774821822]
Connectionist Temporal Classification (CTC) は自動音声認識(ASR)の手法として広く使われている。
しかし、CTCとアテンションベースのエンコーダデコーダ(CTC/AED)を組み合わせたトランスデューサやシステムと比較すると、認識性能に劣ることが多い。
本稿では,入力音声メルスペクトルの異なる拡張ビューから得られた2つのCTC分布間の整合性を実現するConsistency-Regularized CTC (CR-CTC)を提案する。
論文 参考訳(メタデータ) (2024-10-07T14:56:07Z) - Towards Effective and Efficient Non-autoregressive Decoding Using Block-based Attention Mask [74.64216073678617]
AMDはアテンションマスクを用いて隠された出力ラベルの連続ブロック内で並列NAR推論を行う。
ビームサーチアルゴリズムは、CTC、ARデコーダ、AMD確率の動的融合を利用するように設計されている。
LibriSpeech-100hrコーパスの実験では、AMDモジュールを組み込んだトリパルタイトデコーダが最大1.73倍のデコード速度比を生み出すことを示唆している。
論文 参考訳(メタデータ) (2024-06-14T13:42:38Z) - CEBin: A Cost-Effective Framework for Large-Scale Binary Code Similarity
Detection [23.8834126695488]
バイナリコード類似度検出(BCSD)は様々なアプリケーションの基本技術である。
本稿では,組込み型および比較型アプローチを融合した,費用対効果の高いBCSDフレームワークCEBinを提案する。
論文 参考訳(メタデータ) (2024-02-29T03:02:07Z) - Efficient Nearest Neighbor Search for Cross-Encoder Models using Matrix
Factorization [60.91600465922932]
本稿では,クロスエンコーダのみに頼って,二重エンコーダによる検索を回避する手法を提案する。
我々のアプローチは、現在の広く使われている方法よりも優れたテスト時間リコール-vs計算コストトレードオフを提供する。
論文 参考訳(メタデータ) (2022-10-23T00:32:04Z) - Revisiting Code Search in a Two-Stage Paradigm [67.02322603435628]
TOSSは2段階のフュージョンコード検索フレームワークである。
まずIRベースのバイエンコーダモデルを使用して、少数のトップkコード候補を効率的にリコールする。
その後、より微細なクロスエンコーダを使用してランク付けを行う。
論文 参考訳(メタデータ) (2022-08-24T02:34:27Z) - Certified Error Control of Candidate Set Pruning for Two-Stage Relevance
Ranking [57.42241521034744]
本稿では、妥当性ランキングのための候補セットプルーニングの認証エラー制御の概念を提案する。
提案手法は,第1段階から抽出した候補集合を抽出し,第2段階の復位速度を向上する。
論文 参考訳(メタデータ) (2022-05-19T16:00:13Z) - Intermediate Loss Regularization for CTC-based Speech Recognition [58.33721897180646]
本稿では,コネクショニスト時間分類(CTC)の目的に基づいて,自動音声認識(ASR)のための簡易かつ効率的な補助的損失関数を提案する。
提案手法は,WSJコーパスの単語誤り率(WER)9.9%,AISHELL-1コーパスの文字誤り率(CER)5.2%である。
論文 参考訳(メタデータ) (2021-02-05T15:01:03Z) - Solving for multi-class using orthogonal coding matrices [0.0]
誤り訂正符号(英語: Error correcting code, ECC)は、バイナリを多クラス分類に一般化する一般的な方法である。
ここでは、7つの異なるデータセット上で2種類の直交ECCをテストする。
1対1の1対1の1対1の1対1の1対1の1対1とランダムなECCの3つの方法と比較する。
論文 参考訳(メタデータ) (2018-01-27T08:45:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。