論文の概要: CorrMAE: Pre-training Correspondence Transformers with Masked Autoencoder
- arxiv url: http://arxiv.org/abs/2406.05773v1
- Date: Sun, 9 Jun 2024 13:14:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 18:07:23.202181
- Title: CorrMAE: Pre-training Correspondence Transformers with Masked Autoencoder
- Title(参考訳): CorrMAE: Masked Autoencoder による事前学習対応対応変換器
- Authors: Tangfei Liao, Xiaoqin Zhang, Guobao Xiao, Min Li, Tao Wang, Mang Ye,
- Abstract要約: 本稿では,マスク付き対応を再構築することにより,一般的な不整合表現を取得するための事前学習手法を提案する。
実際には,通信プルーニングの事前学習に適したマスクオートエンコーダフレームワークであるCorrMAEを導入する。
- 参考スコア(独自算出の注目度): 44.94921073819524
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Pre-training has emerged as a simple yet powerful methodology for representation learning across various domains. However, due to the expensive training cost and limited data, pre-training has not yet been extensively studied in correspondence pruning. To tackle these challenges, we propose a pre-training method to acquire a generic inliers-consistent representation by reconstructing masked correspondences, providing a strong initial representation for downstream tasks. Toward this objective, a modicum of true correspondences naturally serve as input, thus significantly reducing pre-training overhead. In practice, we introduce CorrMAE, an extension of the mask autoencoder framework tailored for the pre-training of correspondence pruning. CorrMAE involves two main phases, \ie correspondence learning and matching point reconstruction, guiding the reconstruction of masked correspondences through learning visible correspondence consistency. Herein, we employ a dual-branch structure with an ingenious positional encoding to reconstruct unordered and irregular correspondences. Also, a bi-level designed encoder is proposed for correspondence learning, which offers enhanced consistency learning capability and transferability. Extensive experiments have shown that the model pre-trained with our CorrMAE outperforms prior work on multiple challenging benchmarks. Meanwhile, our CorrMAE is primarily a task-driven pre-training method, and can achieve notable improvements for downstream tasks by pre-training on the targeted dataset. We hope this work can provide a starting point for correspondence pruning pre-training.
- Abstract(参考訳): プレトレーニングは、様々な領域にわたる表現学習のためのシンプルだが強力な方法論として登場した。
しかし,高額なトレーニングコストとデータ制限のため,通信プルーニングでは事前学習が広く研究されていない。
これらの課題に対処するために、マスク付き対応を再構築し、下流タスクの強力な初期表現を提供することにより、一般的な不整合表現を取得するための事前学習手法を提案する。
この目的に向けて、真の対応のモチーフは自然に入力として機能し、事前学習のオーバーヘッドを大幅に減少させる。
実際には,通信プルーニングの事前学習に適したマスクオートエンコーダフレームワークであるCorrMAEを導入する。
CorrMAEは2つの主要なフェーズ、すなわち「ie対応学習」と「マッチングポイント再構築」を伴い、可視対応の学習を通じてマスク付き対応の再構築を導く。
ここでは,非順序および不規則な対応を再構成するために,創発的な位置符号化を備えた二重分岐構造を用いる。
また, 整合性学習能力と伝達性を向上させる, 対応学習のためのバイレベル設計エンコーダを提案する。
大規模な実験では、CorrMAEで事前訓練されたモデルは、複数の挑戦的なベンチマークで以前の作業より優れていることが示されている。
一方、私たちのCorrMAEは主にタスク駆動の事前トレーニング手法であり、ターゲットデータセットで事前トレーニングすることで、下流タスクの顕著な改善を実現できます。
この作業が,事前学習を行う通信プルーニングの出発点となることを願っている。
関連論文リスト
- PT-Tuning: Bridging the Gap between Time Series Masked Reconstruction
and Forecasting via Prompt Token Tuning [14.332279447231416]
近年,自己指導型学習が時系列領域で盛んに研究されている。
これらの手法の多くは、新しいデコーダが事前訓練されたデコーダを置き換える"事前訓練+微調整"パラダイムに従っている。
本稿では,事前学習したパラメータをすべて凍結し,拡張マスクトークンに数個のトレーニング可能なプロンプトトークンを追加する,シンプルで効果的なプロンプトチューニング(PT-Tuning)パラダイムを提案する。
論文 参考訳(メタデータ) (2023-11-07T07:11:27Z) - RetroMAE-2: Duplex Masked Auto-Encoder For Pre-Training
Retrieval-Oriented Language Models [12.37229805276939]
本稿では,DupMAE(Duplex Masked Auto-Encoder)と呼ばれる新しい事前学習手法を提案する。
事前訓練されたモデルのすべてのコンテキスト化埋め込みを活用できる品質意味表現を改善するように設計されている。
論文 参考訳(メタデータ) (2023-05-04T05:37:22Z) - MASTER: Multi-task Pre-trained Bottlenecked Masked Autoencoders are
Better Dense Retrievers [140.0479479231558]
本研究では,様々な事前学習タスクをマルチタスク事前学習モデル(MASTER)に統合することを目的とする。
MASTERは共有エンコーダのマルチデコーダアーキテクチャを利用して、タスク全体にわたる豊富なセマンティック情報を高密度ベクトルに圧縮する表現ボトルネックを構築することができる。
論文 参考訳(メタデータ) (2022-12-15T13:57:07Z) - Self-Supervised Learning via Maximum Entropy Coding [57.56570417545023]
本稿では,表現の構造を明示的に最適化する原理的目的として,最大エントロピー符号化(MEC)を提案する。
MECは、特定のプリテキストタスクに基づいて、以前のメソッドよりもより一般化可能な表現を学ぶ。
ImageNetリニアプローブだけでなく、半教師付き分類、オブジェクト検出、インスタンスセグメンテーション、オブジェクトトラッキングなど、さまざまなダウンストリームタスクに対して一貫して最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-20T17:58:30Z) - Unveiling Transformers with LEGO: a synthetic reasoning task [23.535488809197787]
我々は、トランスフォーマーアーキテクチャが推論の連鎖に従うことを学ぶ方法について研究する。
一部のデータ構造では、訓練されたトランスフォーマーは、推論の連鎖に従う"ショートカット"ソリューションを見つける。
このようなショートカットが適切なアーキテクチャ修正やデータ準備によって防止できることが分かりました。
論文 参考訳(メタデータ) (2022-06-09T06:30:17Z) - Aligning Pretraining for Detection via Object-Level Contrastive Learning [57.845286545603415]
画像レベルのコントラスト表現学習は、伝達学習の汎用モデルとして非常に有効であることが証明されている。
我々は、これは準最適である可能性があり、従って、自己教師付きプレテキストタスクと下流タスクのアライメントを促進する設計原則を提唱する。
Selective Object Contrastive Learning (SoCo) と呼ばれる本手法は,COCO検出における伝達性能の最先端化を実現する。
論文 参考訳(メタデータ) (2021-06-04T17:59:52Z) - Self-supervised Augmentation Consistency for Adapting Semantic
Segmentation [56.91850268635183]
本稿では,実用的かつ高精度な意味セグメンテーションのためのドメイン適応手法を提案する。
私たちは標準データ拡張技術である$-$フォトメトリックノイズ、フリップとスケーリング$-$を採用し、セマンティック予測の一貫性を保証する。
適応後の最先端セグメンテーション精度を大幅に改善し、バックボーンアーキテクチャと適応シナリオの異なる選択に整合性を持たせる。
論文 参考訳(メタデータ) (2021-04-30T21:32:40Z) - Counterfactual Detection meets Transfer Learning [48.82717416666232]
既存のモデルアーキテクチャに最小限の適応で実装可能な,単純なバイナリ分類タスクであることを示す。
本稿では,先行者や後続者をエンティティ認識タスクとして処理するエンド・ツー・エンドパイプラインを導入し,それらをトークン分類に適用する。
論文 参考訳(メタデータ) (2020-05-27T02:02:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。