論文の概要: ConTextual Mask Auto-Encoder for Dense Passage Retrieval
- arxiv url: http://arxiv.org/abs/2208.07670v1
- Date: Tue, 16 Aug 2022 11:17:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-17 11:59:35.695138
- Title: ConTextual Mask Auto-Encoder for Dense Passage Retrieval
- Title(参考訳): 共用マスク自動エンコーダによるDense Passage Retrieval
- Authors: Xing Wu, Guangyuan Ma, Meng Lin, Zijia Lin, Zhongyuan Wang, Songlin Hu
- Abstract要約: CoT-MAEは,高密度経路抽出のための簡易かつ効果的な生成前訓練法である。
文のセマンティクスを高密度ベクトルに圧縮する学習は、自己教師付きおよび文脈教師付きマスキングによる自動エンコーディングによって行われる。
我々は,大規模経路探索ベンチマークの実験を行い,強力なベースラインよりも大幅に改善されたことを示す。
- 参考スコア(独自算出の注目度): 49.49460769701308
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dense passage retrieval aims to retrieve the relevant passages of a query
from a large corpus based on dense representations (i.e., vectors) of the query
and the passages. Recent studies have explored improving pre-trained language
models to boost dense retrieval performance. This paper proposes CoT-MAE
(ConTextual Masked Auto-Encoder), a simple yet effective generative
pre-training method for dense passage retrieval. CoT-MAE employs an asymmetric
encoder-decoder architecture that learns to compress the sentence semantics
into a dense vector through self-supervised and context-supervised masked
auto-encoding. Precisely, self-supervised masked auto-encoding learns to model
the semantics of the tokens inside a text span, and context-supervised masked
auto-encoding learns to model the semantical correlation between the text
spans. We conduct experiments on large-scale passage retrieval benchmarks and
show considerable improvements over strong baselines, demonstrating the high
efficiency of CoT-MAE.
- Abstract(参考訳): Dense passage retrieveは、クエリとパスの密度の高い表現(ベクトル)に基づいて、大きなコーパスからクエリの関連するパスを検索することを目的としている。
近年,高密度検索性能向上のための事前学習言語モデルの改良が検討されている。
本稿では,高密度経路抽出のための簡易かつ効果的な生成前学習法であるCoT-MAE(ConTextual Masked Auto-Encoder)を提案する。
CoT-MAEは非対称エンコーダ・デコーダアーキテクチャを採用しており、自己教師付きマスク付き自動符号化によって文セマンティクスを高密度ベクトルに圧縮することを学ぶ。
正確には、自己教師付きマスク付き自動エンコーディングはテキストスパン内のトークンのセマンティクスをモデル化し、コンテキスト教師付きマスク付き自動エンコーディングはテキストスパン間のセマンティクス相関をモデル化することを学ぶ。
本研究では,大規模通路検索ベンチマーク実験を行い,cot-maeの高効率化を示す。
関連論文リスト
- Learning Robust Named Entity Recognizers From Noisy Data With Retrieval Augmentation [67.89838237013078]
名前付きエンティティ認識(NER)モデルは、しばしばノイズの多い入力に悩まされる。
ノイズの多いテキストとそのNERラベルのみを利用できる、より現実的な設定を提案する。
我々は、推論中にテキストを取得することなく、堅牢なNERを改善するマルチビュートレーニングフレームワークを採用している。
論文 参考訳(メタデータ) (2024-07-26T07:30:41Z) - Drop your Decoder: Pre-training with Bag-of-Word Prediction for Dense Passage Retrieval [26.00149743478937]
マスケードオートエンコーダの事前学習は,高密度検索システムの初期化・拡張技術として広く普及している。
マスク付きオートエンコーダのデコーダを、完全に単純化されたBag-of-Word予測タスクに置き換えることで、従来のMAEの修正を提案する。
提案手法は,新たなパラメータを必要とせずに,大規模検索ベンチマークにおける最先端の検索性能を実現する。
論文 参考訳(メタデータ) (2024-01-20T15:02:33Z) - Challenging Decoder helps in Masked Auto-Encoder Pre-training for Dense
Passage Retrieval [10.905033385938982]
Masked Auto-Encoder (MAE) 事前トレーニングアーキテクチャが最も有望である。
本稿では,デコーダの難易度を高めるために,ポイントワイド相互情報に基づく新しいトークン重要マスキング戦略を提案する。
論文 参考訳(メタデータ) (2023-05-22T16:27:10Z) - Tram: A Token-level Retrieval-augmented Mechanism for Source Code Summarization [76.57699934689468]
ニューラルモデルの性能を高めるために,デコーダ側で詳細なTokenレベル検索強化機構(Tram)を提案する。
文脈的コードセマンティクスの取得におけるトークンレベルの検索の課題を克服するために,コードセマンティクスを個々の要約トークンに統合することを提案する。
論文 参考訳(メタデータ) (2023-05-18T16:02:04Z) - RetroMAE-2: Duplex Masked Auto-Encoder For Pre-Training
Retrieval-Oriented Language Models [12.37229805276939]
本稿では,DupMAE(Duplex Masked Auto-Encoder)と呼ばれる新しい事前学習手法を提案する。
事前訓練されたモデルのすべてのコンテキスト化埋め込みを活用できる品質意味表現を改善するように設計されている。
論文 参考訳(メタデータ) (2023-05-04T05:37:22Z) - CoT-MoTE: Exploring ConTextual Masked Auto-Encoder Pre-training with
Mixture-of-Textual-Experts for Passage Retrieval [23.69812399753584]
コンテクチュアル・マスク付きオートエンコーダは,モノリシックなデュアルエンコーダのコンテクスト前処理におけるボトルネックの表現に有効であることが証明されている。
We propose to Pre-train Contextual Masked Auto-Encoder with Mixture-of-Textual-Experts (CoT-MoTE)。
論文 参考訳(メタデータ) (2023-04-20T10:12:09Z) - Noise-Robust Dense Retrieval via Contrastive Alignment Post Training [89.29256833403167]
Contrastive Alignment POst Training (CAPOT) は、指数再生を必要とせず、モデルロバスト性を改善する高効率な微調整法である。
CAPOTはドキュメントエンコーダを凍結することで堅牢な検索を可能にし、クエリエンコーダはノイズの多いクエリを修正されていないルートに整列させる。
MSMARCO、Natural Questions、Trivia QAパス検索のCAPOTノイズ変動を評価し、CAPOTがオーバーヘッドを伴わないデータ増大に類似した影響があることを発見した。
論文 参考訳(メタデータ) (2023-04-06T22:16:53Z) - CoT-MAE v2: Contextual Masked Auto-Encoder with Multi-view Modeling for
Passage Retrieval [34.08763911138496]
本研究は、コンテキストマスキング自動エンコーダにマルチビューモデリングをもたらす。
このマルチビュー事前学習手法をCoT-MAE v2と呼ぶ。
論文 参考訳(メタデータ) (2023-04-05T08:00:38Z) - MASTER: Multi-task Pre-trained Bottlenecked Masked Autoencoders are
Better Dense Retrievers [140.0479479231558]
本研究では,様々な事前学習タスクをマルチタスク事前学習モデル(MASTER)に統合することを目的とする。
MASTERは共有エンコーダのマルチデコーダアーキテクチャを利用して、タスク全体にわたる豊富なセマンティック情報を高密度ベクトルに圧縮する表現ボトルネックを構築することができる。
論文 参考訳(メタデータ) (2022-12-15T13:57:07Z) - Cross-Thought for Sentence Encoder Pre-training [89.32270059777025]
Cross-Thoughtは、事前トレーニングシーケンスエンコーダに対する新しいアプローチである。
我々は、Transformerベースのシーケンスエンコーダを、多数の短いシーケンスに対してトレーニングする。
質問応答とテキストのエンコーダタスクの実験は、事前学習したエンコーダが最先端のエンコーダより優れていることを示す。
論文 参考訳(メタデータ) (2020-10-07T21:02:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。