論文の概要: Efficiently Teaching an Effective Dense Retriever with Balanced Topic
Aware Sampling
- arxiv url: http://arxiv.org/abs/2104.06967v1
- Date: Wed, 14 Apr 2021 16:49:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-15 13:12:42.229723
- Title: Efficiently Teaching an Effective Dense Retriever with Balanced Topic
Aware Sampling
- Title(参考訳): バランスのとれたトピックアウェアサンプリングを用いた効率的な密集型検索法
- Authors: Sebastian Hofst\"atter, Sheng-Chieh Lin, Jheng-Hong Yang, Jimmy Lin,
Allan Hanbury
- Abstract要約: TAS-Balancedは、効率的なトピック認識クエリとバランスの取れたマージンサンプリング技術です。
本稿では,2つのTRECディープラーニングトラッククエリセットに対して,最先端の低レイテンシ(クエリ毎64ms)を実現するTAS-Balancedトレーニング手法を提案する。
- 参考スコア(独自算出の注目度): 37.01593605084575
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A vital step towards the widespread adoption of neural retrieval models is
their resource efficiency throughout the training, indexing and query
workflows. The neural IR community made great advancements in training
effective dual-encoder dense retrieval (DR) models recently. A dense text
retrieval model uses a single vector representation per query and passage to
score a match, which enables low-latency first stage retrieval with a nearest
neighbor search. Increasingly common, training approaches require enormous
compute power, as they either conduct negative passage sampling out of a
continuously updating refreshing index or require very large batch sizes for
in-batch negative sampling. Instead of relying on more compute capability, we
introduce an efficient topic-aware query and balanced margin sampling
technique, called TAS-Balanced. We cluster queries once before training and
sample queries out of a cluster per batch. We train our lightweight 6-layer DR
model with a novel dual-teacher supervision that combines pairwise and in-batch
negative teachers. Our method is trainable on a single consumer-grade GPU in
under 48 hours (as opposed to a common configuration of 8x V100s). We show that
our TAS-Balanced training method achieves state-of-the-art low-latency (64ms
per query) results on two TREC Deep Learning Track query sets. Evaluated on
NDCG@10, we outperform BM25 by 44%, a plainly trained DR by 19%, docT5query by
11%, and the previous best DR model by 5%. Additionally, TAS-Balanced produces
the first dense retriever that outperforms every other method on recall at any
cutoff on TREC-DL and allows more resource intensive re-ranking models to
operate on fewer passages to improve results further.
- Abstract(参考訳): ニューラルネットワークの検索モデルの普及に向けた重要なステップは、トレーニング、インデックス、クエリワークフロー全体のリソース効率です。
ニューラルIRコミュニティは、最近、効果的なデュアルエンコーダ密度検索(DR)モデルのトレーニングに大きく進歩した。
密集したテキスト検索モデルは、クエリとパッセージ毎に単一のベクトル表現を使用してマッチをスコアし、最寄りの検索で低遅延の第1段検索を可能にする。
継続的に更新されるリフレッシュインデックスから負の通路サンプリングを実行するか、バッチ内の負のサンプリングに非常に大きなバッチサイズを必要とするため、トレーニングアプローチはますます一般的になっている。
計算能力の向上に代えて,TAS-Balancedと呼ばれる,効率的なトピック対応クエリと平衡マージンサンプリング手法を導入する。
トレーニング前にクエリをクラスタ化し、バッチ毎にクラスタからクエリをサンプリングします。
ライトウェイトな6層drモデルを、ペアワイズとインバッチのネガティブな教師を組み合わせる、新しいデュアル教師の監督によってトレーニングします。
8x v100sの一般的な構成とは対照的に)48時間以内に1つのコンシューマグレードのgpuでトレーニングできる。
本稿では,2つのTRECディープラーニングトラッククエリセットに対して,最先端の低レイテンシ(クエリ毎64ms)を実現するTAS-Balancedトレーニング手法を提案する。
NDCG@10で評価したところ、BM25を44%上回り、訓練済みのDRを19%上回り、docT5queryを11%上回り、以前の最高のDRモデルを5%上回りました。
さらに、TAS-BalancedはTREC-DLの任意のカットオフにおいて、他のすべてのメソッドをリコールし、より多くのリソース集約された再ランクモデルがより少ない経路で動作し、結果をさらに改善する最初の高密度レトリバーを生成する。
関連論文リスト
- Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - Spanning Training Progress: Temporal Dual-Depth Scoring (TDDS) for Enhanced Dataset Pruning [50.809769498312434]
我々は、時間的デュアルディープス・スコーリング(TDDS)と呼ばれる新しいデータセット・プルーニング手法を提案する。
本手法は,10%のトレーニングデータで54.51%の精度を達成し,ランダム選択を7.83%以上,他の比較手法を12.69%以上上回る結果を得た。
論文 参考訳(メタデータ) (2023-11-22T03:45:30Z) - HYRR: Hybrid Infused Reranking for Passage Retrieval [18.537666294601458]
Hybrid Infused Re rank for Passages Retrievalは、BM25とニューラル検索モデルのハイブリッドに基づいて、リランカをトレーニングするためのフレームワークである。
我々は,MS MARCOとBEIRを用いたゼロショット検索タスクを用いた教師付きパス検索タスクの評価を行った。
論文 参考訳(メタデータ) (2022-12-20T18:44:21Z) - Parameter-Efficient Sparsity for Large Language Models Fine-Tuning [63.321205487234074]
私たちはaを提案します。
Sparse- efficient Sparse Training (PST) は、スパース・アウェア・トレーニング中にトレーニング可能なパラメータの数を減少させる手法である。
多様なネットワーク(BERT、RoBERTa、GPT-2)を用いた実験では、PSTは従来のスパーシリティ法よりも同等以上の性能を示した。
論文 参考訳(メタデータ) (2022-05-23T02:43:45Z) - LaPraDoR: Unsupervised Pretrained Dense Retriever for Zero-Shot Text
Retrieval [55.097573036580066]
実験結果から,LaPraDoRは教師付き高密度検索モデルと比較して最先端の性能が得られることがわかった。
再ランクと比較すると,1ミリ秒 (22.5倍高速) でレキシコン強化手法を動作させることができるが,性能は良好である。
論文 参考訳(メタデータ) (2022-03-11T18:53:12Z) - SPLADE v2: Sparse Lexical and Expansion Model for Information Retrieval [11.38022203865326]
SPLADEモデルは、最先端の高密度かつスパースなアプローチに関して、高度にスパースな表現と競争結果を提供する。
我々は、プール機構を変更し、文書拡張のみに基づいてモデルをベンチマークし、蒸留で訓練されたモデルを導入する。
全体として、SPLADEはTREC DL 2019のNDCG@10で9ドル以上のゲインで大幅に改善され、BEIRベンチマークで最先端の結果が得られた。
論文 参考訳(メタデータ) (2021-09-21T10:43:42Z) - Jigsaw Clustering for Unsupervised Visual Representation Learning [68.09280490213399]
本稿では,新しいjigsawクラスタリング・プレテキストタスクを提案する。
本手法は画像内情報と画像間情報の両方を利用する。
トレーニングバッチの半分しか使用されていない場合、コントラスト学習方法にも匹敵します。
論文 参考訳(メタデータ) (2021-04-01T08:09:26Z) - An Efficient Method of Training Small Models for Regression Problems
with Knowledge Distillation [1.433758865948252]
回帰問題に対する知識蒸留の新しい定式化を提案する。
まず,教師モデル予測を用いて,教師モデルを用いた学習サンプルの退学率を下げる新たな損失関数,教師の退学率の減少を提案する。
マルチタスクネットワークを考えることで、学生モデルの特徴抽出の訓練がより効果的になる。
論文 参考訳(メタデータ) (2020-02-28T08:46:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。