論文の概要: CoT-MoTE: Exploring ConTextual Masked Auto-Encoder Pre-training with
Mixture-of-Textual-Experts for Passage Retrieval
- arxiv url: http://arxiv.org/abs/2304.10195v1
- Date: Thu, 20 Apr 2023 10:12:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-21 13:50:53.531463
- Title: CoT-MoTE: Exploring ConTextual Masked Auto-Encoder Pre-training with
Mixture-of-Textual-Experts for Passage Retrieval
- Title(参考訳): CoT-MoTE:Mixture-of-Textual-Experts for Passage Retrievalによるコンテクチュアルマスク付きオートエンコーダの事前学習
- Authors: Guangyuan Ma, Xing Wu, Peng Wang, Songlin Hu
- Abstract要約: コンテクチュアル・マスク付きオートエンコーダは,モノリシックなデュアルエンコーダのコンテクスト前処理におけるボトルネックの表現に有効であることが証明されている。
We propose to Pre-train Contextual Masked Auto-Encoder with Mixture-of-Textual-Experts (CoT-MoTE)。
- 参考スコア(独自算出の注目度): 23.69812399753584
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Passage retrieval aims to retrieve relevant passages from large collections
of the open-domain corpus. Contextual Masked Auto-Encoding has been proven
effective in representation bottleneck pre-training of a monolithic
dual-encoder for passage retrieval. Siamese or fully separated dual-encoders
are often adopted as basic retrieval architecture in the pre-training and
fine-tuning stages for encoding queries and passages into their latent
embedding spaces. However, simply sharing or separating the parameters of the
dual-encoder results in an imbalanced discrimination of the embedding spaces.
In this work, we propose to pre-train Contextual Masked Auto-Encoder with
Mixture-of-Textual-Experts (CoT-MoTE). Specifically, we incorporate
textual-specific experts for individually encoding the distinct properties of
queries and passages. Meanwhile, a shared self-attention layer is still kept
for unified attention modeling. Results on large-scale passage retrieval
benchmarks show steady improvement in retrieval performances. The quantitive
analysis also shows a more balanced discrimination of the latent embedding
spaces.
- Abstract(参考訳): パッセージ検索は、オープンドメインコーパスの大規模なコレクションから関連するパッセージを取得することを目的としている。
モノリシックなデュアルエンコーダによる経路抽出のためのボトルネック事前学習において,コンテキストマスク自動符号化が有効であることが証明されている。
シームまたは完全に分離されたデュアルエンコーダは、クエリやパスを遅延埋め込み空間にエンコードするための事前訓練および微調整段階において、基本的な検索アーキテクチャとして採用されることが多い。
しかし、単に双対エンコーダのパラメータを共有したり分離したりすると、埋め込み空間の偏りが不均衡になる。
本研究では,Mixture-of-Textual-Experts (CoT-MoTE) を用いたコンテキストマスク自動エンコーダの事前学習を提案する。
具体的には、クエリとパスの異なる特性を個別にエンコードするために、テキスト固有の専門家を組み込む。
一方、共有自己注意層は、統一された注意モデリングのために維持される。
大規模パス検索ベンチマークの結果,検索性能は安定的に向上した。
定量分析はまた、潜伏埋め込み空間のよりバランスの取れた識別を示す。
関連論文リスト
- Attributable and Scalable Opinion Summarization [79.87892048285819]
我々は、頻繁なエンコーディングを復号することで抽象的な要約を生成し、同じ頻繁なエンコーディングに割り当てられた文を選択して抽出的な要約を生成する。
本手法は,要約プロセスの一部として要約を生成するために使用される文を同定するため,帰属的手法である。
なぜなら、アグリゲーションはトークンの長いシーケンスではなく、潜在空間で実行されるからである。
論文 参考訳(メタデータ) (2023-05-19T11:30:37Z) - BERM: Training the Balanced and Extractable Representation for Matching
to Improve Generalization Ability of Dense Retrieval [54.66399120084227]
本稿では,BERMと呼ばれるマッチング信号の取得により,高密度検索の一般化を改善する手法を提案する。
センス検索は、ドメイン内のラベル付きデータセットでトレーニングされた場合、第1段階の検索プロセスにおいて有望であることが示されている。
論文 参考訳(メタデータ) (2023-05-18T15:43:09Z) - RetroMAE-2: Duplex Masked Auto-Encoder For Pre-Training
Retrieval-Oriented Language Models [12.37229805276939]
本稿では,DupMAE(Duplex Masked Auto-Encoder)と呼ばれる新しい事前学習手法を提案する。
事前訓練されたモデルのすべてのコンテキスト化埋め込みを活用できる品質意味表現を改善するように設計されている。
論文 参考訳(メタデータ) (2023-05-04T05:37:22Z) - CoT-MAE v2: Contextual Masked Auto-Encoder with Multi-view Modeling for
Passage Retrieval [34.08763911138496]
本研究は、コンテキストマスキング自動エンコーダにマルチビューモデリングをもたらす。
このマルチビュー事前学習手法をCoT-MAE v2と呼ぶ。
論文 参考訳(メタデータ) (2023-04-05T08:00:38Z) - Quick Dense Retrievers Consume KALE: Post Training Kullback Leibler
Alignment of Embeddings for Asymmetrical dual encoders [89.29256833403169]
我々は,高密度検索手法の推論効率を高めるための効率的かつ正確な手法であるKulback Leibler Alignment of Embeddings (KALE)を紹介した。
KALEは、バイエンコーダトレーニング後の従来の知識蒸留を拡張し、完全なリトレーニングやインデックス生成なしに効率的なクエリエンコーダ圧縮を可能にする。
KALEと非対称トレーニングを用いることで、3倍高速な推論を持つにもかかわらず、DistilBERTの性能を超えるモデルを生成することができる。
論文 参考訳(メタデータ) (2023-03-31T15:44:13Z) - RetroMAE v2: Duplex Masked Auto-Encoder For Pre-Training
Retrieval-Oriented Language Models [3.4523793651427113]
本稿では,[] と通常のトークンの両方のコンテキスト化埋め込みにおける意味表現能力の向上を目標とする,二重マスク付き自動エンコーダ DupMAE を提案する。
DupMAEは単純だが経験的競争力があり、デコードコストが小さいため、モデルの表現能力と転送可能性に大きく貢献する。
論文 参考訳(メタデータ) (2022-11-16T08:57:55Z) - ConTextual Mask Auto-Encoder for Dense Passage Retrieval [49.49460769701308]
CoT-MAEは,高密度経路抽出のための簡易かつ効果的な生成前訓練法である。
文のセマンティクスを高密度ベクトルに圧縮する学習は、自己教師付きおよび文脈教師付きマスキングによる自動エンコーディングによって行われる。
我々は,大規模経路探索ベンチマークの実験を行い,強力なベースラインよりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2022-08-16T11:17:22Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z) - Analysis of Joint Speech-Text Embeddings for Semantic Matching [3.6423306784901235]
ペア音声と書き起こし入力の距離を最小化することにより,セマンティックマッチングのために訓練された共同音声テキスト埋め込み空間について検討する。
我々は,事前学習とマルチタスクの両方のシナリオを通じて,音声認識を組み込む方法を拡張した。
論文 参考訳(メタデータ) (2022-04-04T04:50:32Z) - Dual Encoding for Video Retrieval by Text [49.34356217787656]
本稿では,ビデオやクエリを独自の高密度表現に符号化する2つのディープエンコーディングネットワークを提案する。
まず、特定のシングルレベルエンコーダを利用する先行技術と異なり、提案するネットワークはマルチレベルエンコーダを実行する。
第2に、概念ベースまたは潜在空間ベースのいずれかである従来の共通空間学習アルゴリズムとは異なり、ハイブリッド空間学習を導入する。
論文 参考訳(メタデータ) (2020-09-10T15:49:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。