論文の概要: Comparing Neighbors Together Makes it Easy: Jointly Comparing Multiple Candidates for Efficient and Effective Retrieval
- arxiv url: http://arxiv.org/abs/2405.12801v1
- Date: Tue, 21 May 2024 13:51:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-22 13:00:17.744931
- Title: Comparing Neighbors Together Makes it Easy: Jointly Comparing Multiple Candidates for Efficient and Effective Retrieval
- Title(参考訳): 隣人の比較が簡単になる: 効率よく効果的な検索のための複数の候補を共同比較する
- Authors: Jonghyun Song, Cheyon Jin, Wenlong Zhao, Jay-Yoon Lee,
- Abstract要約: 一般的な検索と参照のパラダイムでは、スケーラブルなバイエンコーダを使用して、関連する候補の広いセットを検索し、その後、高価ながより正確なクロスエンコーダを限定的な候補セットに取得する。
本稿では,クエリと複数の候補の埋め込みを,浅い自己認識層を通じて協調的に比較する比較多重候補フレームワークを提案する。
コンテキスト化された表現を提供する一方で、CMCは複数の比較を同時に扱うのに十分なスケーラビリティを備えており、2K候補の比較には100の比較の2倍の時間しかかからない。
- 参考スコア(独自算出の注目度): 4.547480408065687
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: A common retrieve-and-rerank paradigm involves retrieving a broad set of relevant candidates using a scalable bi-encoder, followed by expensive but more accurate cross-encoders to a limited candidate set. However, this small subset often leads to error propagation from the bi-encoders, thereby restricting the performance of the overall pipeline. To address these issues, we propose the Comparing Multiple Candidates (CMC) framework, which compares a query and multiple candidate embeddings jointly through shallow self-attention layers. While providing contextualized representations, CMC is scalable enough to handle multiple comparisons simultaneously, where comparing 2K candidates takes only twice as long as comparing 100. Practitioners can use CMC as a lightweight and effective reranker to improve top-1 accuracy. Moreover, when integrated with another retriever, CMC reranking can function as a virtually enhanced retriever. This configuration adds only negligible latency compared to using a single retriever (virtual), while significantly improving recall at K (enhanced).} Through experiments, we demonstrate that CMC, as a virtually enhanced retriever, significantly improves Recall@k (+6.7, +3.5%-p for R@16, R@64) compared to the initial retrieval stage on the ZeSHEL dataset. Meanwhile, we conduct experiments for direct reranking on entity, passage, and dialogue ranking. The results indicate that CMC is not only faster (11x) than cross-encoders but also often more effective, with improved prediction performance in Wikipedia entity linking (+0.7%-p) and DSTC7 dialogue ranking (+3.3%-p). The code and link to datasets are available at https://github.com/yc-song/cmc
- Abstract(参考訳): 一般的な検索と参照のパラダイムでは、スケーラブルなバイエンコーダを使用して、関連する候補の広いセットを検索し、その後、高価ながより正確なクロスエンコーダを限定的な候補セットに取得する。
しかし、この小さなサブセットは、しばしばバイエンコーダからのエラーの伝播を引き起こすため、パイプライン全体のパフォーマンスが制限される。
これらの問題に対処するために,クエリと複数の候補埋め込みを浅い自己認識層を通じて共同で比較するCMC(Comparing Multiple Candidates)フレームワークを提案する。
コンテキスト化された表現を提供する一方で、CMCは複数の比較を同時に扱うのに十分なスケーラビリティを備えており、2K候補の比較には100の比較の2倍の時間しかかからない。
CMCを軽量で効果的なリランカーとして使用することで、トップ1の精度を向上させることができる。
さらに、他のレトリバーと統合した場合、CMCリグレードは事実上強化されたレトリバーとして機能する。
この構成は、単一のレトリバー(仮想)と比較して無視可能なレイテンシのみを追加し、Kでのリコールを大幅に改善する(拡張)。
実験により,CMCはZeSHELデータセットの初期検索ステージと比較して,Recall@k(+6.7,+3.5%-p, R@16, R@64)を大幅に改善した。
一方,本研究では,エンティティ,パス,ダイアログのランク付けを直接行う実験を行っている。
その結果、CMCはクロスエンコーダよりも11倍高速であるだけでなく、ウィキペディアのエンティティリンク(+0.7%-p)とDSTC7ダイアログランキング(+3.3%-p)の予測性能を改善した。
コードとデータセットへのリンクはhttps://github.com/yc-song/cmcで確認できる。
関連論文リスト
- CR-CTC: Consistency regularization on CTC for improved speech recognition [18.996929774821822]
Connectionist Temporal Classification (CTC) は自動音声認識(ASR)の手法として広く使われている。
しかし、CTCとアテンションベースのエンコーダデコーダ(CTC/AED)を組み合わせたトランスデューサやシステムと比較すると、認識性能に劣ることが多い。
本稿では,入力音声メルスペクトルの異なる拡張ビューから得られた2つのCTC分布間の整合性を実現するConsistency-Regularized CTC (CR-CTC)を提案する。
論文 参考訳(メタデータ) (2024-10-07T14:56:07Z) - Towards Effective and Efficient Non-autoregressive Decoding Using Block-based Attention Mask [74.64216073678617]
AMDはアテンションマスクを用いて隠された出力ラベルの連続ブロック内で並列NAR推論を行う。
ビームサーチアルゴリズムは、CTC、ARデコーダ、AMD確率の動的融合を利用するように設計されている。
LibriSpeech-100hrコーパスの実験では、AMDモジュールを組み込んだトリパルタイトデコーダが最大1.73倍のデコード速度比を生み出すことを示唆している。
論文 参考訳(メタデータ) (2024-06-14T13:42:38Z) - CEBin: A Cost-Effective Framework for Large-Scale Binary Code Similarity
Detection [23.8834126695488]
バイナリコード類似度検出(BCSD)は様々なアプリケーションの基本技術である。
本稿では,組込み型および比較型アプローチを融合した,費用対効果の高いBCSDフレームワークCEBinを提案する。
論文 参考訳(メタデータ) (2024-02-29T03:02:07Z) - Efficient Nearest Neighbor Search for Cross-Encoder Models using Matrix
Factorization [60.91600465922932]
本稿では,クロスエンコーダのみに頼って,二重エンコーダによる検索を回避する手法を提案する。
我々のアプローチは、現在の広く使われている方法よりも優れたテスト時間リコール-vs計算コストトレードオフを提供する。
論文 参考訳(メタデータ) (2022-10-23T00:32:04Z) - Revisiting Code Search in a Two-Stage Paradigm [67.02322603435628]
TOSSは2段階のフュージョンコード検索フレームワークである。
まずIRベースのバイエンコーダモデルを使用して、少数のトップkコード候補を効率的にリコールする。
その後、より微細なクロスエンコーダを使用してランク付けを行う。
論文 参考訳(メタデータ) (2022-08-24T02:34:27Z) - Certified Error Control of Candidate Set Pruning for Two-Stage Relevance
Ranking [57.42241521034744]
本稿では、妥当性ランキングのための候補セットプルーニングの認証エラー制御の概念を提案する。
提案手法は,第1段階から抽出した候補集合を抽出し,第2段階の復位速度を向上する。
論文 参考訳(メタデータ) (2022-05-19T16:00:13Z) - Intermediate Loss Regularization for CTC-based Speech Recognition [58.33721897180646]
本稿では,コネクショニスト時間分類(CTC)の目的に基づいて,自動音声認識(ASR)のための簡易かつ効率的な補助的損失関数を提案する。
提案手法は,WSJコーパスの単語誤り率(WER)9.9%,AISHELL-1コーパスの文字誤り率(CER)5.2%である。
論文 参考訳(メタデータ) (2021-02-05T15:01:03Z) - Solving for multi-class using orthogonal coding matrices [0.0]
誤り訂正符号(英語: Error correcting code, ECC)は、バイナリを多クラス分類に一般化する一般的な方法である。
ここでは、7つの異なるデータセット上で2種類の直交ECCをテストする。
1対1の1対1の1対1の1対1の1対1の1対1とランダムなECCの3つの方法と比較する。
論文 参考訳(メタデータ) (2018-01-27T08:45:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。