論文の概要: Gaussian Masked Autoencoders
- arxiv url: http://arxiv.org/abs/2501.03229v1
- Date: Mon, 06 Jan 2025 18:59:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:08:51.619478
- Title: Gaussian Masked Autoencoders
- Title(参考訳): ガウス仮面オートエンコーダ
- Authors: Jathushan Rajasegaran, Xinlei Chen, Rulilong Li, Christoph Feichtenhofer, Jitendra Malik, Shiry Ginosar,
- Abstract要約: 本稿では,Masked Autoencoders (MAE) をガウススプラッティングで探索する。
GMAE(Gaussian Masked Autoencoder)と呼ばれる我々のアプローチは,意味論的抽象化と空間的理解を共同で学習することを目的としている。
- 参考スコア(独自算出の注目度): 74.2341070024126
- License:
- Abstract: This paper explores Masked Autoencoders (MAE) with Gaussian Splatting. While reconstructive self-supervised learning frameworks such as MAE learns good semantic abstractions, it is not trained for explicit spatial awareness. Our approach, named Gaussian Masked Autoencoder, or GMAE, aims to learn semantic abstractions and spatial understanding jointly. Like MAE, it reconstructs the image end-to-end in the pixel space, but beyond MAE, it also introduces an intermediate, 3D Gaussian-based representation and renders images via splatting. We show that GMAE can enable various zero-shot learning capabilities of spatial understanding (e.g., figure-ground segmentation, image layering, edge detection, etc.) while preserving the high-level semantics of self-supervised representation quality from MAE. To our knowledge, we are the first to employ Gaussian primitives in an image representation learning framework beyond optimization-based single-scene reconstructions. We believe GMAE will inspire further research in this direction and contribute to developing next-generation techniques for modeling high-fidelity visual data. More details at https://brjathu.github.io/gmae
- Abstract(参考訳): 本稿では,Masked Autoencoders (MAE) をガウススプラッティングで探索する。
MAEのような再構成型自己教師型学習フレームワークは、優れたセマンティック抽象化を学習するが、空間的意識を明示するための訓練は行われない。
GMAE(Gaussian Masked Autoencoder)と呼ばれる我々のアプローチは,意味論的抽象化と空間的理解を共同で学習することを目的としている。
MAEと同様に、ピクセル空間における画像のエンドツーエンドを再構築するが、MAE以外にも、中間的な3Dガウス表現を導入し、スプラッティングで画像をレンダリングする。
GMAEは,MAEから自己教師付き表現品質の高レベルなセマンティクスを保ちながら,空間的理解(図形分割,画像階層化,エッジ検出など)の様々なゼロショット学習機能を実現できることを示す。
我々の知る限りでは、最適化に基づく単一シーン再構成以上の画像表現学習フレームワークにガウスプリミティブを初めて採用している。
我々は、GMAEがこの方向にさらなる研究を刺激し、高忠実度ビジュアルデータモデリングのための次世代技術の開発に寄与すると考えている。
詳細はhttps://brjathu.github.io/gmaeを参照。
関連論文リスト
- Feature Guided Masked Autoencoder for Self-supervised Learning in Remote
Sensing [16.683132793313693]
Masked AutoEncoder (MAE) はリモートセンシングにおける視覚トランスフォーマーの事前訓練に広く注目を集めている。
本研究では,多スペクトル画像に対する向き付けされた粒度(HOG)と正規化差分指標(NDI)の組合せを再構成し,SAR画像のHOGを再構成する特徴誘導マスク付きオートエンコーダ(FG-MAE)を提案する。
論文 参考訳(メタデータ) (2023-10-28T09:43:13Z) - CtxMIM: Context-Enhanced Masked Image Modeling for Remote Sensing Image Understanding [38.53988682814626]
リモートセンシング画像理解のためのコンテキスト強化マスク画像モデリング手法(CtxMIM)を提案する。
CtxMIMは、オリジナルのイメージパッチを再構成テンプレートとして定式化し、2セットのイメージパッチを操作するために、Siameseフレームワークを使用している。
シンプルでエレガントな設計により、CtxMIMは、大規模データセットでオブジェクトレベルまたはピクセルレベルの機能を学ぶための事前トレーニングモデルを奨励する。
論文 参考訳(メタデータ) (2023-09-28T18:04:43Z) - GiGaMAE: Generalizable Graph Masked Autoencoder via Collaborative Latent
Space Reconstruction [76.35904458027694]
マスク付きオートエンコーダモデルは、グラフデータに対する優れた一般化能力に欠ける。
本稿では,GiGaMAEと呼ばれる新しいグラフマスマスキングオートエンコーダフレームワークを提案する。
私たちの結果は、グラフ構造化データに基づく基礎モデルの設計に光を当てます。
論文 参考訳(メタデータ) (2023-08-18T16:30:51Z) - R-MAE: Regions Meet Masked Autoencoders [113.73147144125385]
我々は、自己教師付き画像表現学習のための単語の潜在的な視覚的類似として領域を探索する。
生成前トレーニングベースラインであるMasked Autoencoding (MAE) に触発されて, 画素群や領域群から学習するためのマスク付き領域オートエンコーディングを提案する。
論文 参考訳(メタデータ) (2023-06-08T17:56:46Z) - Not All Image Regions Matter: Masked Vector Quantization for
Autoregressive Image Generation [78.13793505707952]
既存の自己回帰モデルは、まず画像再構成のための潜伏空間のコードブックを学習し、学習したコードブックに基づいて自己回帰的に画像生成を完了する2段階生成パラダイムに従っている。
そこで本研究では,Masked Quantization VAE (MQ-VAE) Stackモデルを用いた2段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-23T02:15:53Z) - MAGE: MAsked Generative Encoder to Unify Representation Learning and
Image Synthesis [33.46831766206675]
MASked Generative (MAGE)は、SOTA画像生成と自己教師付き表現学習を統合するための最初のフレームワークである。
以前の生成モデルにインスパイアされたMAGEは、入力と出力でベクトル量子化されたGANによって学習された意味トークンを使用する。
ImageNet-1Kでは、1つのMAGE ViT-Lモデルがクラス非条件画像生成のタスクで9.10 FIDを得る。
論文 参考訳(メタデータ) (2022-11-16T18:59:02Z) - Stare at What You See: Masked Image Modeling without Reconstruction [154.74533119863864]
Masked Autoencoders (MAE) は、大規模な視覚表現事前学習のパラダイムとして広く普及している。
近年の手法では, 画像特徴を再構成対象として抽出するために, セマンティック・リッチな教師モデルが適用されており, 性能が向上している。
強力な教師モデルによって抽出された特徴は、画像中の領域間のリッチなセマンティックな相関を既にエンコードしていると論じる。
論文 参考訳(メタデータ) (2022-11-16T12:48:52Z) - The Devil is in the Frequency: Geminated Gestalt Autoencoder for
Self-Supervised Visual Pre-Training [13.087987450384036]
視覚前訓練のための新しいMasked Image Modeling (MIM) をGeminated Autoencoder (Ge$2-AE) と呼ぶ。
具体的には、画素と周波数空間の両方から画像内容を再構成するgeminated decoderをモデルに装備する。
論文 参考訳(メタデータ) (2022-04-18T09:22:55Z) - MGAE: Masked Autoencoders for Self-Supervised Learning on Graphs [55.66953093401889]
Masked Graph Autoencoder (MGAE) フレームワークは、グラフ構造データの効果的な学習を行う。
自己指導型学習から洞察を得て、私たちはランダムに大量のエッジを隠蔽し、トレーニング中に欠落したエッジを再構築しようとします。
論文 参考訳(メタデータ) (2022-01-07T16:48:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。