論文の概要: Siamese Masked Autoencoders
- arxiv url: http://arxiv.org/abs/2305.14344v1
- Date: Tue, 23 May 2023 17:59:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 13:28:58.853823
- Title: Siamese Masked Autoencoders
- Title(参考訳): siamese masked autoencoder(英語)
- Authors: Agrim Gupta, Jiajun Wu, Jia Deng, Li Fei-Fei
- Abstract要約: ビデオから視覚的対応を学習するために,Siamese Masked Autoencoders(SiamMAE)を提案する。
SiamMAEはランダムにサンプリングされたビデオフレームのペアで動作し、非対称にそれらをマスクする。
ビデオオブジェクトのセグメンテーション、キーポイントのプロパゲーション、セマンティック部分のプロパゲーションタスクにおいて、最先端の自己管理手法よりも優れています。
- 参考スコア(独自算出の注目度): 76.35448665609998
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Establishing correspondence between images or scenes is a significant
challenge in computer vision, especially given occlusions, viewpoint changes,
and varying object appearances. In this paper, we present Siamese Masked
Autoencoders (SiamMAE), a simple extension of Masked Autoencoders (MAE) for
learning visual correspondence from videos. SiamMAE operates on pairs of
randomly sampled video frames and asymmetrically masks them. These frames are
processed independently by an encoder network, and a decoder composed of a
sequence of cross-attention layers is tasked with predicting the missing
patches in the future frame. By masking a large fraction ($95\%$) of patches in
the future frame while leaving the past frame unchanged, SiamMAE encourages the
network to focus on object motion and learn object-centric representations.
Despite its conceptual simplicity, features learned via SiamMAE outperform
state-of-the-art self-supervised methods on video object segmentation, pose
keypoint propagation, and semantic part propagation tasks. SiamMAE achieves
competitive results without relying on data augmentation, handcrafted
tracking-based pretext tasks, or other techniques to prevent representational
collapse.
- Abstract(参考訳): 画像やシーン間の対応を確立することは、特にオクルージョンや視点の変化、オブジェクトの外観の変化など、コンピュータビジョンにおいて重要な課題である。
本稿では,ビデオから視覚的対応を学習するためのMasked Autoencoders(MAE)の簡易拡張であるSiamese Masked Autoencoders(SiamMAE)を提案する。
siammaeはランダムにサンプリングされたビデオフレームのペアで動作し、非対称にマスクする。
これらのフレームはエンコーダネットワークによって独立に処理され、複数のクロスアテンション層からなるデコーダは、将来のフレームの欠落パッチを予測する。
SiamMAEは、過去のフレームをそのままにして、将来のフレームで大量のパッチをマスクすることで、オブジェクトの動きに集中し、オブジェクト中心の表現を学ぶようネットワークに促す。
概念的単純さにもかかわらず、SiamMAEで学んだ機能は、ビデオオブジェクトのセグメンテーション、キーポイントの伝搬、セマンティック部分の伝搬タスクにおいて、最先端の自己管理手法より優れている。
SiamMAEは、データ拡張、手作りのトラッキングベースのプレテキストタスク、あるいは表現の崩壊を防ぐための他のテクニックに頼ることなく、競争結果を達成する。
関連論文リスト
- Text-Guided Video Masked Autoencoder [12.321239366215426]
本稿では,ペア字幕に高い対応で映像領域をマスキングする新しいテキスト誘導マスキングアルゴリズム(TGM)を提案する。
既存のマスキングアルゴリズム、統一MAE、マスキングビデオテキストコントラスト学習により、純粋なMAEと比較して下流性能が向上することを示す。
論文 参考訳(メタデータ) (2024-08-01T17:58:19Z) - Efficient Image Pre-Training with Siamese Cropped Masked Autoencoders [89.12558126877532]
そこで我々は,SiamMAE が導入した Siamese プレトレーニングの代替手法である CropMAE を提案する。
本手法では, ビデオから抽出した従来のフレームの対から切り離して, 同一画像から抽出した画像の対を別々に抽出する。
CropMAEは、これまでで最も高いマスキング比(98.5%)を達成し、2つの目に見えるパッチのみを使用して画像の再構成を可能にする。
論文 参考訳(メタデータ) (2024-03-26T16:04:19Z) - Concatenated Masked Autoencoders as Spatial-Temporal Learner [6.475592804311682]
自己教師型ビデオ表現学習のための時空間学習システムとして,Concatenated Masked Autoencoders (CatMAE)を導入した。
そこで本研究では,ビデオフレームをモデル再構成ターゲットとして用いた新しいデータ拡張戦略であるVideo-Reverse(ViRe)を提案する。
論文 参考訳(メタデータ) (2023-11-02T03:08:26Z) - Mask to reconstruct: Cooperative Semantics Completion for Video-text
Retrieval [19.61947785487129]
Mask for Semantics Completion (MASCOT) - 意味に基づくマスキングモデル。
我々のMASCOTは4つの主要なテキストビデオ検索ベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-05-13T12:31:37Z) - Unified Mask Embedding and Correspondence Learning for Self-Supervised
Video Segmentation [76.40565872257709]
我々は、局所的な識別的特徴学習のためのフレーム間密度対応を同時にモデル化する統合フレームワークを開発する。
ラベルなしビデオから直接マスク誘導シーケンシャルセグメンテーションを実行することができる。
我々のアルゴリズムは、2つの標準ベンチマーク(DAVIS17とYouTube-VOS)に最先端をセットする。
論文 参考訳(メタデータ) (2023-03-17T16:23:36Z) - Masked Motion Encoding for Self-Supervised Video Representation Learning [84.24773072241945]
Masked Motion MMEは、外観情報と動作情報の両方を再構成し、時間的手がかりを探索する新しい事前学習パラダイムである。
物体の位置変化や形状変化を追跡することで、人間が行動を認識することができるという事実を動機として、マスク領域におけるこれらの2種類の変化を表す運動軌跡を再構築することを提案する。
我々のMMEパラダイムで事前訓練されたモデルでは、長期的かつきめ細かな動きの詳細を予測できる。
論文 参考訳(メタデータ) (2022-10-12T11:19:55Z) - Differentiable Soft-Masked Attention [115.5770357189209]
Weakly Supervised Video Objectのタスクには,「識別可能なソフトマッシュアップ注意」が使用されている。
我々は、トランスフォーマーベースのトレーニングネットワークを開発したが、1つのアノテートフレームだけで、ビデオ上でのサイクル一貫性トレーニングの恩恵を受けることができる。
論文 参考訳(メタデータ) (2022-06-01T02:05:13Z) - Context Autoencoder for Self-Supervised Representation Learning [64.63908944426224]
符号化された表現空間で予測を行うことにより、符号化器を事前訓練する。
ネットワークはエンコーダ/レグレッサ/デコーダアーキテクチャである。
下流タスクにおける転送性能の向上によるCAEの有効性を実証する。
論文 参考訳(メタデータ) (2022-02-07T09:33:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。