論文の概要: Multi-Modal Masked Pre-Training for Monocular Panoramic Depth Completion
- arxiv url: http://arxiv.org/abs/2203.09855v1
- Date: Fri, 18 Mar 2022 10:48:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-21 15:07:19.905676
- Title: Multi-Modal Masked Pre-Training for Monocular Panoramic Depth Completion
- Title(参考訳): 単眼パノラマ深度完了のためのマルチモーダルマスクプレトレーニング
- Authors: Zhiqiang Yan and Xiang Li and Kun Wang and Zhenyu Zhang and Jun Li and
Jian Yang
- Abstract要約: パノラマ3Dカメラは、複雑な場面で欠落したデータで360度深度を生成することが多い。
その目標は、粗い生のものを回収し、パノラマ画像から粗いRGB深度を回収することである。
M31.7%という単純なアプローチを提案する。
- 参考スコア(独自算出の注目度): 28.91716162403531
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we formulate a potentially valuable panoramic depth completion
(PDC) task as panoramic 3D cameras often produce 360{\deg} depth with missing
data in complex scenes. Its goal is to recover dense panoramic depths from raw
sparse ones and panoramic RGB images. To deal with the PDC task, we train a
deep network that takes both depth and image as inputs for the dense panoramic
depth recovery. However, it needs to face a challenging optimization problem of
the network parameters due to its non-convex objective function. To address
this problem, we propose a simple yet effective approach termed M{^3}PT:
multi-modal masked pre-training. Specifically, during pre-training, we
simultaneously cover up patches of the panoramic RGB image and sparse depth by
shared random mask, then reconstruct the sparse depth in the masked regions. To
our best knowledge, it is the first time that we show the effectiveness of
masked pre-training in a multi-modal vision task, instead of the single-modal
task resolved by masked autoencoders (MAE). Different from MAE where
fine-tuning completely discards the decoder part of pre-training, there is no
architectural difference between the pre-training and fine-tuning stages in our
M$^{3}$PT as they only differ in the prediction density, which potentially
makes the transfer learning more convenient and effective. Extensive
experiments verify the effectiveness of M{^3}PT on three panoramic datasets.
Notably, we improve the state-of-the-art baselines by averagely 26.2% in RMSE,
51.7% in MRE, 49.7% in MAE, and 37.5% in RMSElog on three benchmark datasets.
Codes and pre-trained models are available at
https://github.com/anonymoustbd/MMMPT.
- Abstract(参考訳): そこで本稿では,パノラマ3dカメラが複雑なシーンに欠落したデータを含む360{\deg}深度を生成するため,潜在的に価値のあるパノラマ深度完了(pdc)タスクを定式化する。
その目標は、粗いスパース画像とパノラマRGB画像から密集したパノラマ深度を回収することである。
PDCタスクに対処するため,高密度パノラマ深度回復のための入力として,深度と画像の両方を考慮した深度ネットワークを訓練する。
しかし、非凸目的関数のため、ネットワークパラメータの困難な最適化問題に直面する必要がある。
この問題に対処するために,M{^3}PT: Multi-modal masked pre-training というシンプルなアプローチを提案する。
具体的には,事前トレーニング中にパノラマRGB画像のパッチとスパース深さを共有ランダムマスクで同時にカバーし,マスク領域のスパース深さを再構築する。
我々の知る限り、マスク付きオートエンコーダ(MAE)が解決した単一モードタスクの代わりに、マルチモーダル視覚タスクにおいてマスク付き事前学習の有効性を示すのはこれが初めてである。
プリトレーニングのデコーダ部分を完全に破棄するMAEとは異なり、M$^{3}$PTの事前トレーニングと微調整ステージの間には、予測密度だけが異なるため、アーキテクチャ上の違いはなく、転送学習をより便利かつ効果的にする可能性がある。
3つのパノラマデータセットに対するM{^3}PTの有効性を検証する。
特に、平均26.2%のRMSE、51.7%のMRE、49.7%のMAE、37.5%のRMSElogを3つのベンチマークデータセットで改善しています。
コードと事前訓練されたモデルはhttps://github.com/anonymoustbd/MMMPTで入手できる。
関連論文リスト
- MultiDepth: Multi-Sample Priors for Refining Monocular Metric Depth Estimations in Indoor Scenes [0.0]
既存のモデルは、シーン内のオブジェクトの境界周波数やシーンの複雑さといった要因に敏感である。
本稿では,事前学習したMMDEモデルを用いて,画像のサンプルと初期深度マップ予測を併用した解を提案する。
既存の反復深度補正技術と比較して、MultiDepthはアーキテクチャの一部として通常の地図予測を採用していない。
論文 参考訳(メタデータ) (2024-11-01T21:30:51Z) - Triple Point Masking [49.39218611030084]
既存の3Dマスク学習手法は、限られたデータの下でパフォーマンスボトルネックに遭遇する。
我々は、マスク付きオートエンコーダの事前学習のためのスケーラブルなフレームワークとして、TPMと呼ばれるトリプルポイントマスキング方式を導入する。
大規模な実験により,提案したTPMを組み込んだ4つのベースラインが,下流タスクの総合的な性能向上を実現することが示された。
論文 参考訳(メタデータ) (2024-09-26T05:33:30Z) - ARAI-MVSNet: A multi-view stereo depth estimation network with adaptive
depth range and depth interval [19.28042366225802]
マルチビューステレオ(MVS)は幾何学的コンピュータビジョンの基本的な問題である。
適応的な全画素深度範囲と深度間隔を実現するために,新しい多段粗大化フレームワークを提案する。
我々のモデルは最先端の性能を達成し、競争一般化能力を得る。
論文 参考訳(メタデータ) (2023-08-17T14:52:11Z) - Mask Hierarchical Features For Self-Supervised Learning [23.140060988999352]
本稿では,Masking the Deep Hierarchical featuresは,MaskDeepとして表される効率的な自己教師手法であることを示す。
我々は、表現空間内のパッチの一部を隠蔽し、疎可視パッチを使用して、高い意味的イメージ表現を再構築する。
200エポックでResNet50でトレーニングされたMaskDeepは、ImageNet上で71.2%の精度で線形分類を行う。
論文 参考訳(メタデータ) (2023-04-01T04:14:57Z) - MM-3DScene: 3D Scene Understanding by Customizing Masked Modeling with
Informative-Preserved Reconstruction and Self-Distilled Consistency [120.9499803967496]
本稿では,地域統計を探索し,代表的構造化点の発見と保存を行う新しい情報保存型再構築法を提案する。
本手法は, 地域形状のモデル化に集中し, マスク復元のあいまいさを軽減できる。
マスク付き領域における情報保存型再構築と未加工領域からの連続自己蒸留を組み合わせることにより,MM-3DSceneと呼ばれる統合フレームワークが提供される。
論文 参考訳(メタデータ) (2022-12-20T01:53:40Z) - Learning 3D Representations from 2D Pre-trained Models via
Image-to-Point Masked Autoencoders [52.91248611338202]
I2P-MAEという名前のイメージ・ツー・ポイント・マスケッド・オートエンコーダを用いて,2次元事前学習モデルから優れた3次元表現を得る方法を提案する。
自己教師付き事前学習により、よく学習された2D知識を利用して、3Dマスクによる自動エンコーディングをガイドする。
I2P-MAEは最先端の90.11%の精度、+3.68%の精度で第2ベストに到達し、より優れた転送能力を示す。
論文 参考訳(メタデータ) (2022-12-13T17:59:20Z) - GD-MAE: Generative Decoder for MAE Pre-training on LiDAR Point Clouds [72.60362979456035]
Masked Autoencoders (MAE)は、大規模な3Dポイントクラウドでの探索が難しい。
我々は,周囲のコンテキストを自動的にマージするためのtextbfGenerative textbfDecoder for MAE (GD-MAE)を提案する。
提案手法の有効性を, KITTI と ONCE の2つの大規模ベンチマークで実証した。
論文 参考訳(メタデータ) (2022-12-06T14:32:55Z) - CroCo: Self-Supervised Pre-training for 3D Vision Tasks by Cross-View
Completion [20.121597331207276]
Masked Image Modeling (MIM)は、最近、強力な事前学習パラダイムとして確立されている。
本稿では,多種多様な3次元視覚と下層の幾何学的下流課題によく伝達される表現を学習することを目的とする。
実験の結果,本研究のプリテキストタスクは,モノラルな3次元視覚の下流タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2022-10-19T16:50:36Z) - Layered Depth Refinement with Mask Guidance [61.10654666344419]
汎用マスクを用いてSIDEモデルの深度予測を洗練させるマスク誘導深度改善の新しい問題を定式化する。
本フレームワークは,奥行きマップをマスクと逆マスクで表される2つの別々の層に分解し,層状改質・塗装・塗装を行う。
本手法は,内面境界領域と外面境界領域の深度を正確に補正し,異なる種類のマスクや初期深度予測に対して堅牢であることを示す。
論文 参考訳(メタデータ) (2022-06-07T06:42:44Z) - Point-M2AE: Multi-scale Masked Autoencoders for Hierarchical Point Cloud
Pre-training [56.81809311892475]
Masked Autoencoders (MAE) は、言語と2次元画像変換器の自己教師付き事前学習において大きな可能性を示している。
我々は3次元点雲の階層的自己教師型学習のための強力なマルチスケールMAE事前学習フレームワークであるPoint-M2AEを提案する。
論文 参考訳(メタデータ) (2022-05-28T11:22:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。