Fugu-MT 論文翻訳(概要): M$^{3}$3D: Learning 3D priors using Multi-Modal Masked Autoencoders for 2D image and video understanding

論文の概要: M$^{3}$3D: Learning 3D priors using Multi-Modal Masked Autoencoders for 2D image and video understanding

arxiv url: http://arxiv.org/abs/2309.15313v1
Date: Tue, 26 Sep 2023 23:52:09 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-28 17:19:08.015221
Title: M$^{3}$3D: Learning 3D priors using Multi-Modal Masked Autoencoders for 2D image and video understanding
Title（参考訳）: M$^{3}$3D:Multi-Modal Masked Autoencodersを用いた2次元画像と映像理解のための3D先行学習
Authors: Muhammad Abdullah Jamal, Omid Mohareri
Abstract要約: M$3$3D ($underlineM$ulti-$underlineM$odal $underlineM$asked $underline3D$) はマルチモーダルマスキングオートエンコーダをベースとする。我々は,Masked Image Modeling(MIM)とコントラスト学習という,自己教師型学習フレームワークを統合した。実験の結果、M$3$3D は ScanNet, NYUv2, UCF-101, OR-AR における最先端のアプローチよりも優れていた。
参考スコア（独自算出の注目度）: 5.989397492717352
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: We present a new pre-training strategy called M$^{3}$3D ($\underline{M}$ulti-$\underline{M}$odal $\underline{M}$asked $\underline{3D}$) built based on Multi-modal masked autoencoders that can leverage 3D priors and learned cross-modal representations in RGB-D data. We integrate two major self-supervised learning frameworks; Masked Image Modeling (MIM) and contrastive learning; aiming to effectively embed masked 3D priors and modality complementary features to enhance the correspondence between modalities. In contrast to recent approaches which are either focusing on specific downstream tasks or require multi-view correspondence, we show that our pre-training strategy is ubiquitous, enabling improved representation learning that can transfer into improved performance on various downstream tasks such as video action recognition, video action detection, 2D semantic segmentation and depth estimation. Experiments show that M$^{3}$3D outperforms the existing state-of-the-art approaches on ScanNet, NYUv2, UCF-101 and OR-AR, particularly with an improvement of +1.3\% mIoU against Mask3D on ScanNet semantic segmentation. We further evaluate our method on low-data regime and demonstrate its superior data efficiency compared to current state-of-the-art approaches.
Abstract（参考訳）: 我々は,マルチモーダルマスク付きオートエンコーダをベースとし,rgb-dデータのクロスモーダル表現を活用し,m$^{3}$3d (\underline{m}$ulti-$\underline{m}$odal$\underline{m}$asked$\underline{3d}$) という新たな事前学習戦略を提案する。マスク付き画像モデリング(mim)とコントラスト型学習(con contrastive learning)の2つの主要な自己教師付き学習フレームワークを統合した。特定の下流タスクに焦点を当てたり、複数視点対応を必要とする最近のアプローチとは対照的に、我々の事前学習戦略はユビキタスであり、ビデオアクション認識、ビデオアクション検出、2次元セマンティックセグメンテーション、深度推定など、様々な下流タスクの性能向上に寄与できる表現学習の改善を可能にする。 M$^{3}$3Dは、ScanNet、NYUv2、UCF-101、OR-ARにおける既存の最先端アプローチ、特にScanNetセマンティックセマンティックセグメンテーションにおけるMask3Dに対する+1.3\% mIoUの改善よりも優れていた。提案手法を低データ方式で評価し,現在の最先端手法と比較して優れたデータ効率を示す。

関連論文リスト

Unleashing the Multi-View Fusion Potential: Noise Correction in VLM for Open-Vocabulary 3D Scene Understanding [15.86865606131156]
MVOV3Dはオープンな3Dシーン理解のための2次元多視点融合の可能性の解放を目的とした新しいアプローチである。具体的には、MVOV3Dは、CLIPエンコーダでエンコードされた正確な領域レベルの画像特徴とテキスト特徴を活用することで、マルチビュー2D機能を改善する。 ScanNet200では14.7% mIoU,Matterport160では16.2% mIoU,オープン語彙セマンティックセマンティックセグメンテーションでは14.7% mIoUを達成した。
論文参考訳（メタデータ） (2025-06-28T08:40:42Z)
econSG: Efficient and Multi-view Consistent Open-Vocabulary 3D Semantic Gaussians [56.85804719947]
3DGSを用いたオープン語彙セマンティックセマンティックセグメンテーションのためのeconSGを提案する。筆者らのeconSGは,既存手法と比較して,4つのベンチマークデータセット上での最先端性能を示す。
論文参考訳（メタデータ） (2025-04-08T13:12:31Z)
LargeAD: Large-Scale Cross-Sensor Data Pretraining for Autonomous Driving [52.83707400688378]
LargeADは多用途でスケーラブルなフレームワークで、さまざまな現実世界の運転データセットにわたる大規模3D事前トレーニング用に設計されている。我々のフレームワークは、VFMを利用して2次元画像から意味的にリッチなスーパーピクセルを抽出し、LiDAR点雲に整列して高品質なコントラストサンプルを生成する。提案手法は,LDARに基づくセグメント化とオブジェクト検出の両面において,線形探索と微調整の両作業において,最先端の手法よりも大幅な性能向上を実現している。
論文参考訳（メタデータ） (2025-01-07T18:59:59Z)
Is Contrastive Distillation Enough for Learning Comprehensive 3D Representations? [55.99654128127689]
クロスモーダル・コントラスト蒸留は近年,有効3次元表現の学習のために研究されている。既存の手法は主にモーダリティ共有の特徴に焦点を合わせ、事前学習過程におけるモーダリティ固有の特徴を無視している。本稿では,これらの欠点に対処する新しいフレームワークCMCRを提案する。
論文参考訳（メタデータ） (2024-12-12T06:09:49Z)
LUDVIG: Learning-free Uplifting of 2D Visual features to Gaussian Splatting scenes [39.687526103092445]
本稿では,3次元シーンのガウススプラッティング表現に2次元画像特徴を引き上げる新しい手法を提案する。 DINOv2はSAMのような数百万の注釈付きセグメンテーションマスクで訓練されていないにもかかわらず、汎用的なDINOv2特徴を用いて競合セグメンテーション結果を得る。 CLIP機能に適用すると,オープン語彙オブジェクトローカライゼーションタスクにおいて高い性能を示す。
論文参考訳（メタデータ） (2024-10-18T13:44:29Z)
Contrastive masked auto-encoders based self-supervised hashing for 2D image and 3D point cloud cross-modal retrieval [5.965791109321719]
2D画像と3Dポイントクラウドデータの相互ハッシュ化は、現実世界の検索システムにおいてますます懸念される。画像とポイントクラウドデータ間の検索のために,コントラッシブマスク付きオートエンコーダを用いた自己教師型ハッシュ(CMAH)を提案する。
論文参考訳（メタデータ） (2024-08-11T07:03:21Z)
A Two-Stage Progressive Pre-training using Multi-Modal Contrastive Masked Autoencoders [5.069884983892437]
本稿では,RGB-Dデータセットを利用した画像理解タスクのプログレッシブ事前学習手法を提案する。第一段階では、コントラスト学習を用いてモデルを事前学習し、クロスモーダル表現を学習する。第2段階では、マスク付きオートエンコーディングと雑音予測を用いてモデルをさらに事前訓練する。我々のアプローチはスケーラブルで堅牢で、RGB-Dデータセットを事前学習するのに適しています。
論文参考訳（メタデータ） (2024-08-05T05:33:59Z)
TAMM: TriAdapter Multi-Modal Learning for 3D Shape Understanding [28.112402580426174]
TriAdapter Multi-Modal Learning (TAMM)は3つの相乗的アダプタに基づく新しい2段階学習手法である。 TAMMは、広範囲の3Dエンコーダアーキテクチャ、事前トレーニングデータセット、下流タスクの3D表現を一貫して強化する。
論文参考訳（メタデータ） (2024-02-28T17:18:38Z)
Leveraging Large-Scale Pretrained Vision Foundation Models for Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文参考訳（メタデータ） (2023-11-03T15:41:15Z)
Beyond First Impressions: Integrating Joint Multi-modal Cues for Comprehensive 3D Representation [72.94143731623117]
既存の方法は、単に3D表現を単一ビューの2D画像と粗い親カテゴリテキストに整列させる。十分でないシナジーは、堅牢な3次元表現は共同視覚言語空間と一致すべきという考えを無視している。我々は,JM3Dと呼ばれる多視点共同モダリティモデリング手法を提案し,点雲,テキスト,画像の統一表現を求める。
論文参考訳（メタデータ） (2023-08-06T01:11:40Z)
MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。所望のプロパティを統一する単段および単段のMOCAを提案する。我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文参考訳（メタデータ） (2023-07-18T15:46:20Z)
PiMAE: Point Cloud and Image Interactive Masked Autoencoders for 3D Object Detection [26.03582038710992]
Masked Autoencoderは強力な視覚表現を学び、いくつかの独立したモダリティで最先端の結果を得る。本研究は,実世界でしばしば提示される2つのモダリティである,ポイントクラウドとRGBイメージデータに焦点を当てる。我々は3つの側面を通して3次元と2次元の相互作用を促進する自己教師付き事前学習フレームワークPiMAEを提案する。
論文参考訳（メタデータ） (2023-03-14T17:58:03Z)
Joint-MAE: 2D-3D Joint Masked Autoencoders for 3D Point Cloud Pre-training [65.75399500494343]
Masked Autoencoders (MAE) は、2Dおよび3Dコンピュータビジョンのための自己教師型学習において有望な性能を示した。自己監督型3次元点雲事前学習のための2D-3DジョイントMAEフレームワークであるJoint-MAEを提案する。
論文参考訳（メタデータ） (2023-02-27T17:56:18Z)
Learning 3D Representations from 2D Pre-trained Models via Image-to-Point Masked Autoencoders [52.91248611338202]
I2P-MAEという名前のイメージ・ツー・ポイント・マスケッド・オートエンコーダを用いて,2次元事前学習モデルから優れた3次元表現を得る方法を提案する。自己教師付き事前学習により、よく学習された2D知識を利用して、3Dマスクによる自動エンコーディングをガイドする。 I2P-MAEは最先端の90.11%の精度、+3.68%の精度で第2ベストに到達し、より優れた転送能力を示す。
論文参考訳（メタデータ） (2022-12-13T17:59:20Z)
SSMTL++: Revisiting Self-Supervised Multi-Task Learning for Video Anomaly Detection [108.57862846523858]
自己教師型マルチタスク学習フレームワークを再考し、元の手法にいくつかのアップデートを提案する。マルチヘッド・セルフアテンション・モジュールを導入することで3次元畳み込みバックボーンを近代化する。モデルをさらに改良するために,セグメントマップの予測などの自己指導型学習タスクについて検討した。
論文参考訳（メタデータ） (2022-07-16T19:25:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。