論文の概要: A Fresh Take on Stale Embeddings: Improving Dense Retriever Training with Corrector Networks
- arxiv url: http://arxiv.org/abs/2409.01890v1
- Date: Tue, 3 Sep 2024 13:29:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 01:23:22.088060
- Title: A Fresh Take on Stale Embeddings: Improving Dense Retriever Training with Corrector Networks
- Title(参考訳): ステア・エンベディングの新展開:コレクター・ネットワークによるディエンス・リトリバー・トレーニングの改善
- Authors: Nicholas Monath, Will Grathwohl, Michael Boratko, Rob Fergus, Andrew McCallum, Manzil Zaheer,
- Abstract要約: 密集検索では、ディープエンコーダは入力とターゲットの両方に埋め込みを提供する。
我々は、古いキャッシュされたターゲット埋め込みを調整できる小さなパラメトリック補正ネットワークを訓練する。
私たちのアプローチは、トレーニング中にターゲット埋め込み更新が行われなくても、最先端の結果と一致します。
- 参考スコア(独自算出の注目度): 81.2624272756733
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In dense retrieval, deep encoders provide embeddings for both inputs and targets, and the softmax function is used to parameterize a distribution over a large number of candidate targets (e.g., textual passages for information retrieval). Significant challenges arise in training such encoders in the increasingly prevalent scenario of (1) a large number of targets, (2) a computationally expensive target encoder model, (3) cached target embeddings that are out-of-date due to ongoing training of target encoder parameters. This paper presents a simple and highly scalable response to these challenges by training a small parametric corrector network that adjusts stale cached target embeddings, enabling an accurate softmax approximation and thereby sampling of up-to-date high scoring "hard negatives." We theoretically investigate the generalization properties of our proposed target corrector, relating the complexity of the network, staleness of cached representations, and the amount of training data. We present experimental results on large benchmark dense retrieval datasets as well as on QA with retrieval augmented language models. Our approach matches state-of-the-art results even when no target embedding updates are made during training beyond an initial cache from the unsupervised pre-trained model, providing a 4-80x reduction in re-embedding computational cost.
- Abstract(参考訳): 密集検索では、ディープエンコーダは入力とターゲットの両方に埋め込みを提供し、ソフトマックス関数は、多数の候補対象(例えば、情報検索のためのテキストパス)上の分布をパラメータ化するために使用される。
このようなエンコーダのトレーニングにおいて,(1)多数のターゲット,(2)計算コストのかかるターゲットエンコーダモデル,(3)ターゲットエンコーダパラメータのトレーニングが進行中であるために,時代遅れであるキャッシュされたターゲットエンコーダの埋め込みなど,重要な課題が生じる。
そこで本論文では,従来のキャッシュ型ターゲット埋め込みを調整し,高精度なソフトマックス近似を実現し,最新のハイスコアの「ハードネガティブ」をサンプリングする,小さなパラメトリック補正ネットワークをトレーニングすることで,これらの課題に対するシンプルでスケーラブルな応答を提示する。
提案するターゲット修正器の一般化特性について理論的に検討し,ネットワークの複雑さ,キャッシュ表現の安定性,トレーニングデータの量について検討する。
本稿では,大規模ベンチマークによる高密度検索データセットと,検索言語モデルを用いたQAに関する実験結果について述べる。
本手法は,教師なし事前学習モデルからの初期キャッシュ以外の目標埋め込み更新が行われなくても,現状と一致し,計算コストを4~80倍削減する。
関連論文リスト
- Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。
本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文 参考訳(メタデータ) (2023-11-29T05:33:28Z) - Noise-Robust Dense Retrieval via Contrastive Alignment Post Training [89.29256833403167]
Contrastive Alignment POst Training (CAPOT) は、指数再生を必要とせず、モデルロバスト性を改善する高効率な微調整法である。
CAPOTはドキュメントエンコーダを凍結することで堅牢な検索を可能にし、クエリエンコーダはノイズの多いクエリを修正されていないルートに整列させる。
MSMARCO、Natural Questions、Trivia QAパス検索のCAPOTノイズ変動を評価し、CAPOTがオーバーヘッドを伴わないデータ増大に類似した影響があることを発見した。
論文 参考訳(メタデータ) (2023-04-06T22:16:53Z) - Boosting Low-Data Instance Segmentation by Unsupervised Pre-training
with Saliency Prompt [103.58323875748427]
この研究は、低データ体制のための新しい教師なし事前学習ソリューションを提供する。
近年のPrompting技術の成功に触発されて,QEISモデルを強化した新しい事前学習手法を導入する。
実験結果から,本手法は3つのデータセット上でのいくつかのQEISモデルを大幅に向上させることが示された。
論文 参考訳(メタデータ) (2023-02-02T15:49:03Z) - Discrete Key-Value Bottleneck [95.61236311369821]
ディープニューラルネットワークは、データストリームがi.d.d.であり、ラベル付きデータが豊富である分類タスクでうまく機能する。
この課題に対処した強力なアプローチの1つは、手軽に利用可能なデータ量に対する大規模なエンコーダの事前トレーニングと、タスク固有のチューニングである。
しかし、新しいタスクを考えると、多くの重みを微調整する必要があるため、エンコーダの重みを更新することは困難であり、その結果、以前のタスクに関する情報を忘れてしまう。
この問題に対処するモデルアーキテクチャを提案し,個別かつ学習可能なキー値符号のペアを含む離散的ボトルネックの上に構築する。
論文 参考訳(メタデータ) (2022-07-22T17:52:30Z) - Guiding the retraining of convolutional neural networks against
adversarial inputs [9.67555836316884]
畳み込みニューラルネットワークの再トレーニングのための4つのガイダンス指標と3つの再トレーニング構成について検討した。
我々の目標は、精度、資源利用、時間に関する敵の入力に対するモデルを改善することである。
論文 参考訳(メタデータ) (2022-07-08T05:00:28Z) - Accelerating Deep Learning with Dynamic Data Pruning [0.0]
ディープラーニングは、最先端のネットワークをトレーニングするために強力なコンピューティングシステムへのアクセスを必要とするため、違法にコストがかかるようになった。
forget scoresやGraNd/EL2N scoresといった以前の作業では、完全なデータセット内の重要なサンプルを特定し、残りのサンプルを刈り取ることで、エポック毎のイテレーションを減らすことができる。
本稿では,強化学習手法に基づく2つのアルゴリズムを提案し,ランダムな動的手法よりも高い精度でサンプルを動的にプーンする。
論文 参考訳(メタデータ) (2021-11-24T16:47:34Z) - Cascade Bagging for Accuracy Prediction with Few Training Samples [8.373420721376739]
少数のトレーニングサンプルの下で精度予測器を訓練するための新しいフレームワークを提案する。
このフレームワークは、データ拡張方法とアンサンブル学習アルゴリズムからなる。
論文 参考訳(メタデータ) (2021-08-12T09:10:52Z) - One-Shot Object Detection without Fine-Tuning [62.39210447209698]
本稿では,第1ステージのMatching-FCOSネットワークと第2ステージのStructure-Aware Relation Moduleからなる2段階モデルを提案する。
また,検出性能を効果的に向上する新たなトレーニング戦略を提案する。
提案手法は,複数のデータセット上で一貫した最先端のワンショット性能を上回る。
論文 参考訳(メタデータ) (2020-05-08T01:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。