論文の概要: CoT-MAE v2: Contextual Masked Auto-Encoder with Multi-view Modeling for
Passage Retrieval
- arxiv url: http://arxiv.org/abs/2304.03158v1
- Date: Wed, 5 Apr 2023 08:00:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-07 13:42:07.526052
- Title: CoT-MAE v2: Contextual Masked Auto-Encoder with Multi-view Modeling for
Passage Retrieval
- Title(参考訳): cot-mae v2:マルチビューモデルを用いたコンテクストマスク型オートエンコーダ
- Authors: Xing Wu, Guangyuan Ma, Peng Wang, Meng Lin, Zijia Lin, Fuzheng Zhang
and Songlin Hu
- Abstract要約: 本研究は、コンテキストマスキング自動エンコーダにマルチビューモデリングをもたらす。
このマルチビュー事前学習手法をCoT-MAE v2と呼ぶ。
- 参考スコア(独自算出の注目度): 34.08763911138496
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Growing techniques have been emerging to improve the performance of passage
retrieval. As an effective representation bottleneck pretraining technique, the
contextual masked auto-encoder utilizes contextual embedding to assist in the
reconstruction of passages. However, it only uses a single auto-encoding
pre-task for dense representation pre-training. This study brings multi-view
modeling to the contextual masked auto-encoder. Firstly, multi-view
representation utilizes both dense and sparse vectors as multi-view
representations, aiming to capture sentence semantics from different aspects.
Moreover, multiview decoding paradigm utilizes both autoencoding and
auto-regressive decoders in representation bottleneck pre-training, aiming to
provide both reconstructive and generative signals for better contextual
representation pretraining. We refer to this multi-view pretraining method as
CoT-MAE v2. Through extensive experiments, we show that CoT-MAE v2 is effective
and robust on large-scale passage retrieval benchmarks and out-of-domain
zero-shot benchmarks.
- Abstract(参考訳): 通路検索の性能を向上させる技術が発展してきた。
効果的な表現ボトルネック事前学習手法として,コンテキストマスキングオートエンコーダはコンテクスト埋め込みを利用して通路の再構築を支援する。
しかし、シングルオートエンコードプレタスクのみを使用して、密度の高い表現事前トレーニングを行う。
本研究は、コンテキストマスキング自動エンコーダにマルチビューモデリングをもたらす。
まず、多視点表現は、密度ベクトルとスパースベクトルの両方を多視点表現として利用し、異なる側面から文の意味を捉えることを目的としている。
さらに、マルチビューデコーディングパラダイムは、自己エンコーディングと自己回帰デコーダの両方を利用して、表現ボトルネック事前学習を行い、コンテクスト表現事前学習を改善するために、再構成信号と生成信号の両方を提供する。
このマルチビュー事前学習手法をCoT-MAE v2と呼ぶ。
広範な実験により,CoT-MAE v2は大規模通過探索ベンチマークやドメイン外ゼロショットベンチマークにおいて有効で堅牢であることを示す。
関連論文リスト
- Few-shot Action Recognition with Captioning Foundation Models [61.40271046233581]
CapFSARは、テキストを手動でアノテートすることなく、マルチモーダルモデルの知識を利用するフレームワークである。
Transformerをベースとしたビジュアルテキストアグリゲーションモジュールはさらに、モーダル時間間の補完情報を組み込むように設計されている。
複数の標準的な数ショットベンチマークの実験では、提案したCapFSARが既存の手法に対して好適に動作することを示した。
論文 参考訳(メタデータ) (2023-10-16T07:08:39Z) - RetroMAE-2: Duplex Masked Auto-Encoder For Pre-Training
Retrieval-Oriented Language Models [12.37229805276939]
本稿では,DupMAE(Duplex Masked Auto-Encoder)と呼ばれる新しい事前学習手法を提案する。
事前訓練されたモデルのすべてのコンテキスト化埋め込みを活用できる品質意味表現を改善するように設計されている。
論文 参考訳(メタデータ) (2023-05-04T05:37:22Z) - CoT-MoTE: Exploring ConTextual Masked Auto-Encoder Pre-training with
Mixture-of-Textual-Experts for Passage Retrieval [23.69812399753584]
コンテクチュアル・マスク付きオートエンコーダは,モノリシックなデュアルエンコーダのコンテクスト前処理におけるボトルネックの表現に有効であることが証明されている。
We propose to Pre-train Contextual Masked Auto-Encoder with Mixture-of-Textual-Experts (CoT-MoTE)。
論文 参考訳(メタデータ) (2023-04-20T10:12:09Z) - TimeMAE: Self-Supervised Representations of Time Series with Decoupled
Masked Autoencoders [55.00904795497786]
トランスフォーマネットワークに基づく転送可能な時系列表現を学習するための,新しい自己教師型パラダイムであるTimeMAEを提案する。
TimeMAEは双方向符号化方式を用いて時系列の豊富な文脈表現を学習する。
新たに挿入されたマスク埋め込みによって生じる不一致を解消するため、分離されたオートエンコーダアーキテクチャを設計する。
論文 参考訳(メタデータ) (2023-03-01T08:33:16Z) - RetroMAE v2: Duplex Masked Auto-Encoder For Pre-Training
Retrieval-Oriented Language Models [3.4523793651427113]
本稿では,[] と通常のトークンの両方のコンテキスト化埋め込みにおける意味表現能力の向上を目標とする,二重マスク付き自動エンコーダ DupMAE を提案する。
DupMAEは単純だが経験的競争力があり、デコードコストが小さいため、モデルの表現能力と転送可能性に大きく貢献する。
論文 参考訳(メタデータ) (2022-11-16T08:57:55Z) - ConTextual Mask Auto-Encoder for Dense Passage Retrieval [49.49460769701308]
CoT-MAEは,高密度経路抽出のための簡易かつ効果的な生成前訓練法である。
文のセマンティクスを高密度ベクトルに圧縮する学習は、自己教師付きおよび文脈教師付きマスキングによる自動エンコーディングによって行われる。
我々は,大規模経路探索ベンチマークの実験を行い,強力なベースラインよりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2022-08-16T11:17:22Z) - MILES: Visual BERT Pre-training with Injected Language Semantics for
Video-text Retrieval [43.2299969152561]
ゼロショット・ファインチューン評価プロトコルを用いた4つのデータセットのテキスト・ビデオ検索手法
提案手法は,ゼロショットおよびファインチューン評価プロトコルを用いた4つのデータセット上でのテキスト・ビデオ検索における最先端手法よりも優れる。
論文 参考訳(メタデータ) (2022-04-26T16:06:31Z) - Single-Stream Multi-Level Alignment for Vision-Language Pretraining [103.09776737512078]
モーダルを複数のレベルで整列させる単一ストリームモデルを提案する。
対称的相互モダリティ再構築と擬似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。
我々は、ゼロショット/ファインチューニングされた画像/テキスト検索、参照表現、VQAといった一連の視覚言語タスクにおいて、トップパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-27T21:16:10Z) - Context Autoencoder for Self-Supervised Representation Learning [64.63908944426224]
符号化された表現空間で予測を行うことにより、符号化器を事前訓練する。
ネットワークはエンコーダ/レグレッサ/デコーダアーキテクチャである。
下流タスクにおける転送性能の向上によるCAEの有効性を実証する。
論文 参考訳(メタデータ) (2022-02-07T09:33:45Z) - Enhanced Modality Transition for Image Captioning [51.72997126838352]
MTM(Modality Transition Module)を構築し、言語モデルに転送する前に視覚的機能をセマンティック表現に転送します。
トレーニング段階では、モダリティ遷移ネットワークは提案されたモダリティ損失によって最適化される。
提案手法の有効性を示すMS-COCOデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2021-02-23T07:20:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。