論文の概要: MuM: Multi-View Masked Image Modeling for 3D Vision
- arxiv url: http://arxiv.org/abs/2511.17309v1
- Date: Fri, 21 Nov 2025 15:25:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:19.076114
- Title: MuM: Multi-View Masked Image Modeling for 3D Vision
- Title(参考訳): MuM:3Dビジョンのためのマルチビューマスク画像モデリング
- Authors: David Nordström, Johan Edstedt, Fredrik Kahl, Georg Bökman,
- Abstract要約: 画像における自己教師付き学習は、ラベルのないデータから意味のある視覚的表現を抽出しようとする。
本研究では,3Dビジョンに適した学習機能に着目した。
我々は、同じシーンを任意に多くのビューに拡張し、フレーム間注目の軽量デコーダを使用します。
我々は、フィードフォワード再構成、濃密な画像マッチング、相対的なポーズ推定を含む下流タスクにおいて、結果のモデル MuM を広範囲に評価する。
- 参考スコア(独自算出の注目度): 29.044546222577804
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised learning on images seeks to extract meaningful visual representations from unlabeled data. When scaled to large datasets, this paradigm has achieved state-of-the-art performance and the resulting trained models such as DINOv3 have seen widespread adoption. However, most prior efforts are optimized for semantic understanding rather than geometric reasoning. One important exception is Cross-View Completion, CroCo, which is a form of masked autoencoding (MAE) tailored for 3D understanding. In this work, we continue on the path proposed by CroCo and focus on learning features tailored for 3D vision. In a nutshell, we extend MAE to arbitrarily many views of the same scene. By uniformly masking all views and employing a lightweight decoder with inter-frame attention, our approach is inherently simpler and more scalable than CroCo. We evaluate the resulting model, MuM, extensively on downstream tasks including feedforward reconstruction, dense image matching and relative pose estimation, finding that it outperforms the state-of-the-art visual encoders DINOv3 and CroCo v2.
- Abstract(参考訳): 画像における自己教師付き学習は、ラベルのないデータから意味のある視覚的表現を抽出しようとする。
大規模なデータセットにスケールすると、このパラダイムは最先端のパフォーマンスを達成し、DINOv3のようなトレーニングされたモデルが広く採用されている。
しかし、それまでの取り組みのほとんどは、幾何学的推論よりも意味理解に最適化されている。
重要な例外はCroCoのCross-View Completionであり、これは3D理解に適したマスク付きオートエンコーディング(MAE)の形式である。
本研究は,CroCoが提案するパスを継続し,3Dビジョンに適した学習機能に焦点を当てる。
簡単に言えば、同じシーンを任意に多くのビューに拡張します。
すべてのビューを均一にマスキングし、フレーム間注目の軽量デコーダを使用することで、私たちのアプローチは本質的にCroCoよりもシンプルでスケーラブルになります。
得られたモデル MuM は、フィードフォワード再構成、高密度画像マッチング、相対ポーズ推定などの下流タスクにおいて広範囲に評価され、最先端のビジュアルエンコーダ DINOv3 と CroCo v2 よりも優れていることが判明した。
関連論文リスト
- Ross3D: Reconstructive Visual Instruction Tuning with 3D-Awareness [73.72335146374543]
本稿では,3次元視覚指導を訓練手順に組み込んだ3次元視覚指導法(Ross3D)について紹介する。
Ross3Dは様々な3Dシーン理解ベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-04-02T16:59:55Z) - Alligat0R: Pre-Training Through Co-Visibility Segmentation for Relative Camera Pose Regression [23.65253469577653]
我々は、クロスビュー学習を協調視認性セグメンテーションタスクとして再構成する新しい事前学習手法であるAlligat0Rを紹介する。
提案手法は,画像中の各ピクセルが第2画像において同一視可能であるか,無視されているか,視野外か(FOV)を予測する。
これをサポートするために,250万のイメージペアと高密度なコビジュアビリティアノテーションを備えた大規模データセットであるCube3を提案する。
論文 参考訳(メタデータ) (2025-03-10T17:29:48Z) - Matryoshka Multimodal Models [92.41824727506751]
我々はM3: Matryoshka Multimodal Modelsを提案する。
COCOスタイルのベンチマークでは,576個のトークンを使用する場合と同様の精度を得るために,9個のビジュアルトークンしか必要としないことがわかった。
論文 参考訳(メタデータ) (2024-05-27T17:59:56Z) - Point Cloud Self-supervised Learning via 3D to Multi-view Masked Learner [19.908670991088556]
本稿では,3次元と投影された2次元特徴から点雲と多視点画像を再構成する3次元から多視点自動エンコーダを提案する。
2次元と3次元の表現を整合させる新しい2段階の自己学習戦略が提案されている。
提案手法は,3次元分類,部分分割,オブジェクト検出など,さまざまな下流タスクにおいて,最先端のタスクよりも優れる。
論文 参考訳(メタデータ) (2023-11-17T22:10:03Z) - Multiview Compressive Coding for 3D Reconstruction [77.95706553743626]
単一オブジェクトの3Dポイントやシーン全体で動作するシンプルなフレームワークを紹介します。
我々のモデルであるMultiview Compressive Codingは、入力の外観と形状を圧縮して3次元構造を予測する。
論文 参考訳(メタデータ) (2023-01-19T18:59:52Z) - MVTN: Learning Multi-View Transformations for 3D Understanding [60.15214023270087]
本稿では,3次元形状認識のための最適視点を決定するために,可変レンダリングを用いたマルチビュー変換ネットワーク(MVTN)を提案する。
MVTNは3次元形状認識のためのマルチビューネットワークでエンドツーエンドに訓練することができる。
提案手法は,複数のベンチマークによる3次元分類と形状検索における最先端性能を示す。
論文 参考訳(メタデータ) (2022-12-27T12:09:16Z) - CroCo: Self-Supervised Pre-training for 3D Vision Tasks by Cross-View
Completion [20.121597331207276]
Masked Image Modeling (MIM)は、最近、強力な事前学習パラダイムとして確立されている。
本稿では,多種多様な3次元視覚と下層の幾何学的下流課題によく伝達される表現を学習することを目的とする。
実験の結果,本研究のプリテキストタスクは,モノラルな3次元視覚の下流タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2022-10-19T16:50:36Z) - From 2D Images to 3D Model:Weakly Supervised Multi-View Face Reconstruction with Deep Fusion [25.068822438649928]
我々は,多視点画像間の特徴対応を探索し,高精度な3次元顔の再構成を行う,Deep Fusion MVRと呼ばれる新しいパイプラインを提案する。
具体的には、マスクを用いて複数のエンコーダの特徴を整列させる、新しいマルチビュー機能融合バックボーンを提案する。
マルチビュー機能融合と顔再構成を容易にする1つの簡潔なマスク機構を開発した。
論文 参考訳(メタデータ) (2022-04-08T05:11:04Z) - Direct Multi-view Multi-person 3D Pose Estimation [138.48139701871213]
マルチビュー画像からマルチパーソン3Dポーズを推定するためのMulti-view Pose Transformer(MvP)を提案する。
MvPは、中間タスクに頼ることなく、複数の人物の3Dポーズを直接クリーンで効率的な方法で回帰する。
我々は,MvPモデルがより効率的でありながら,いくつかのベンチマークにおいて最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-07T13:09:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。