論文の概要: Unsupervised Corpus Aware Language Model Pre-training for Dense Passage
Retrieval
- arxiv url: http://arxiv.org/abs/2108.05540v1
- Date: Thu, 12 Aug 2021 05:20:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-13 14:29:43.548054
- Title: Unsupervised Corpus Aware Language Model Pre-training for Dense Passage
Retrieval
- Title(参考訳): 難読度検索のための教師なしコーパス認識言語モデル事前学習
- Authors: Luyu Gao, Jamie Callan
- Abstract要約: 我々は高密度レトリバーの2つの根本問題を特定し,対処する。
我々は最近提案されたCondenser事前学習アーキテクチャを使用し、LM事前学習を通して密接なベクトルに情報を凝縮することを学ぶ。
本稿では,パス埋め込み空間を暖めるために,教師なしコーパスレベルのコントラスト損失を加えたcoCondenserを提案する。
- 参考スコア(独自算出の注目度): 15.238322226336232
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent research demonstrates the effectiveness of using fine-tuned language
models~(LM) for dense retrieval. However, dense retrievers are hard to train,
typically requiring heavily engineered fine-tuning pipelines to realize their
full potential. In this paper, we identify and address two underlying problems
of dense retrievers: i)~fragility to training data noise and ii)~requiring
large batches to robustly learn the embedding space. We use the recently
proposed Condenser pre-training architecture, which learns to condense
information into the dense vector through LM pre-training. On top of it, we
propose coCondenser, which adds an unsupervised corpus-level contrastive loss
to warm up the passage embedding space. Retrieval experiments on MS-MARCO,
Natural Question, and Trivia QA datasets show that coCondenser removes the need
for heavy data engineering such as augmentation, synthesis, or filtering, as
well as the need for large batch training. It shows comparable performance to
RocketQA, a state-of-the-art, heavily engineered system, using simple small
batch fine-tuning.
- Abstract(参考訳): 近年,高密度検索における微調整言語モデル~(LM)の有効性が実証されている。
しかし、密集したレトリバーは訓練が困難であり、その潜在能力を十分に実現するためには、高度に設計された微調整パイプラインが必要である。
本稿では,高密度レトリバーの根底にある2つの問題に対処する:i) データのノイズを訓練するための柔軟性と,i) 埋め込み空間をしっかり学習するために大きなバッチを必要とする。
我々は,最近提案するコンデンサプリトレーニングアーキテクチャを用いて,lmプリトレーニングにより情報を高密度ベクトルに凝縮することを学ぶ。
さらに,パス埋め込み空間を暖めるために,教師なしコーパスレベルのコントラスト損失を加えたcoCondenserを提案する。
MS-MARCO、Nature Question、Trivia QAデータセットの検索実験は、coCondenserが強化、合成、フィルタリングといった重データエンジニアリングの必要性を排除し、大規模なバッチトレーニングの必要性を示している。
rocketqaは最先端の高度に設計されたシステムで、単純なバッチの微調整で性能が向上している。
関連論文リスト
- Boot and Switch: Alternating Distillation for Zero-Shot Dense Retrieval [50.47192086219752]
$texttABEL$は、ゼロショット設定でのパス検索を強化するための、シンプルだが効果的な教師なしのメソッドである。
ラベル付きデータに対して$texttABEL$を微調整するか、既存の教師付き高密度検索と統合することにより、最先端の結果が得られる。
論文 参考訳(メタデータ) (2023-11-27T06:22:57Z) - Unsupervised Dense Retrieval with Relevance-Aware Contrastive
Pre-Training [81.3781338418574]
関連性を考慮したコントラスト学習を提案する。
我々は、BEIRおよびオープンドメインQA検索ベンチマークにおいて、SOTAアン教師なしコントリバーモデルを一貫して改善する。
本手法は, 目標コーパスの事前訓練後, BM25に打ち勝つだけでなく, 優れた数発学習者として機能する。
論文 参考訳(メタデータ) (2023-06-05T18:20:27Z) - Noise-Robust Dense Retrieval via Contrastive Alignment Post Training [89.29256833403167]
Contrastive Alignment POst Training (CAPOT) は、指数再生を必要とせず、モデルロバスト性を改善する高効率な微調整法である。
CAPOTはドキュメントエンコーダを凍結することで堅牢な検索を可能にし、クエリエンコーダはノイズの多いクエリを修正されていないルートに整列させる。
MSMARCO、Natural Questions、Trivia QAパス検索のCAPOTノイズ変動を評価し、CAPOTがオーバーヘッドを伴わないデータ増大に類似した影響があることを発見した。
論文 参考訳(メタデータ) (2023-04-06T22:16:53Z) - Quick Dense Retrievers Consume KALE: Post Training Kullback Leibler
Alignment of Embeddings for Asymmetrical dual encoders [89.29256833403169]
我々は,高密度検索手法の推論効率を高めるための効率的かつ正確な手法であるKulback Leibler Alignment of Embeddings (KALE)を紹介した。
KALEは、バイエンコーダトレーニング後の従来の知識蒸留を拡張し、完全なリトレーニングやインデックス生成なしに効率的なクエリエンコーダ圧縮を可能にする。
KALEと非対称トレーニングを用いることで、3倍高速な推論を持つにもかかわらず、DistilBERTの性能を超えるモデルを生成することができる。
論文 参考訳(メタデータ) (2023-03-31T15:44:13Z) - SPDF: Sparse Pre-training and Dense Fine-tuning for Large Language
Models [4.114555639014612]
本研究は,非構造的重み空間を用いて,事前訓練中にのみ重みのサブセットを訓練する利点を示す。
我々は1.3Bパラメータ GPT-3 XL モデルに最大75%の間隔を誘導できることを示す。
論文 参考訳(メタデータ) (2023-03-18T17:56:01Z) - Pre-training for Speech Translation: CTC Meets Optimal Transport [29.807861658249923]
本研究では,コネクショニスト時間分類(CTC)の損失が設計によるモダリティギャップを減少させることを示す。
本稿では,CTCと最適輸送を組み合わせた新しい事前学習手法を提案する。
本手法では,2つのエンコーダ,1つは音響入力用,もう1つはテキスト入力用で構成され,ワッサーシュタイン空間において互いに近接した表現を生成する。
論文 参考訳(メタデータ) (2023-01-27T14:03:09Z) - MASTER: Multi-task Pre-trained Bottlenecked Masked Autoencoders are
Better Dense Retrievers [140.0479479231558]
本研究では,様々な事前学習タスクをマルチタスク事前学習モデル(MASTER)に統合することを目的とする。
MASTERは共有エンコーダのマルチデコーダアーキテクチャを利用して、タスク全体にわたる豊富なセマンティック情報を高密度ベクトルに圧縮する表現ボトルネックを構築することができる。
論文 参考訳(メタデータ) (2022-12-15T13:57:07Z) - Exploring Unsupervised Pretraining Objectives for Machine Translation [99.5441395624651]
教師なし言語間事前訓練は、ニューラルマシン翻訳(NMT)の強力な結果を得た
ほとんどのアプローチは、入力の一部をマスキングしてデコーダで再構成することで、シーケンス・ツー・シーケンスアーキテクチャにマスク付き言語モデリング(MLM)を適用する。
マスキングと、実際の(完全な)文に似た入力を生成する代替目的を、文脈に基づいて単語を並べ替えて置き換えることにより比較する。
論文 参考訳(メタデータ) (2021-06-10T10:18:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。