論文の概要: Muskie: Multi-view Masked Image Modeling for 3D Vision Pre-training
- arxiv url: http://arxiv.org/abs/2511.18115v1
- Date: Sat, 22 Nov 2025 16:39:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.635569
- Title: Muskie: Multi-view Masked Image Modeling for 3D Vision Pre-training
- Title(参考訳): Muskie:3Dビジョンの事前トレーニングのためのマルチビューマスクイメージモデリング
- Authors: Wenyu Li, Sidun Liu, Peng Qiao, Yong Dou, Tongrui Hu,
- Abstract要約: Muskieは、3Dビジョンタスク用に設計された、ネイティブなマルチビューバックボーンビジョンである。
Muskieは複数のビューを同時に処理し、事前トレーニング段階に複数ビューの一貫性を導入するように設計されている。
Muskieをバックボーンとして使用すると、下流3Dタスクのパフォーマンスが継続的に向上することを示す。
- 参考スコア(独自算出の注目度): 21.0991525279
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Muskie, a native multi-view vision backbone designed for 3D vision tasks. Unlike existing models, which are frame-wise and exhibit limited multi-view consistency, Muskie is designed to process multiple views simultaneously and introduce multi-view consistency in pre-training stage. Muskie is trained to reconstruct heavily masked content in one view by finding and utilizing geometric correspondences from other views. Through this pretext task and our proposed aggressive masking strategy, the model implicitly to learn view-invariant features and develop strong geometric understanding without any 3D supervision. Compared with state-of-the-art frame-wise backbones such as DINO, Muskie achieves higher multi-view correspondence accuracy. Furthermore, we demonstrate that using Muskie as a backbone consistently enhances performance on downstream 3D tasks, including camera pose estimation and pointmap reconstruction. Codes are publicly available at https://leo-frank.github.io/Muskie/
- Abstract(参考訳): Muskieは3Dビジョンタスク用に設計された、ネイティブなマルチビュービジョンバックボーンだ。
フレームワイドで限定的なマルチビュー一貫性を持つ既存のモデルとは異なり、Muskieは複数のビューを同時に処理し、事前トレーニング段階でマルチビュー一貫性を導入するように設計されている。
マスキーは、他の視点からの幾何学的対応を見つけ、活用することで、1つの視点で重く隠されたコンテンツを再構築する訓練を受けている。
この前提課題と,提案したアグレッシブマスキング戦略を通じて,ビュー不変の特徴を暗黙的に学習し,3次元の監督なしに強力な幾何学的理解を発達させる。
DINOのような最先端のフレームワイドバックボーンと比較すると、Muskieは高いマルチビュー対応精度を実現する。
さらに,マスキーをバックボーンとして使用すると,カメラポーズ推定やポイントマップ再構成など,下流3Dタスクのパフォーマンスが継続的に向上することを示す。
コードはhttps://leo-frank.github.io/Muskie/で公開されている。
関連論文リスト
- MuM: Multi-View Masked Image Modeling for 3D Vision [29.044546222577804]
画像における自己教師付き学習は、ラベルのないデータから意味のある視覚的表現を抽出しようとする。
本研究では,3Dビジョンに適した学習機能に着目した。
我々は、同じシーンを任意に多くのビューに拡張し、フレーム間注目の軽量デコーダを使用します。
我々は、フィードフォワード再構成、濃密な画像マッチング、相対的なポーズ推定を含む下流タスクにおいて、結果のモデル MuM を広範囲に評価する。
論文 参考訳(メタデータ) (2025-11-21T15:25:47Z) - MVGenMaster: Scaling Multi-View Generation from Any Image via 3D Priors Enhanced Diffusion Model [87.71060849866093]
MVGenMasterは3Dプリエントで拡張された多視点拡散モデルであり,NVS(多目的なノベルビュー合成)タスクに対処する。
我々のモデルは、可変参照ビューとカメラポーズで条件付けられた100の新しいビューを生成できる、シンプルで効果的なパイプラインを特徴としている。
スケールアップデータセットを用いてモデルを強化するために,いくつかのトレーニングとモデル修正を提案する。
論文 参考訳(メタデータ) (2024-11-25T07:34:23Z) - MVGamba: Unify 3D Content Generation as State Space Sequence Modeling [150.80564081817786]
本稿では,多視点ガウス再構成器を備えた一般軽量ガウス再構成モデルMVGambaを紹介する。
オフザディテールのマルチビュー拡散モデルを統合することで、MVGambaは単一の画像、スパース画像、テキストプロンプトから3D生成タスクを統一する。
実験により、MVGambaは、すべての3Dコンテンツ生成シナリオで最先端のベースラインを約0.1タイムのモデルサイズで上回ります。
論文 参考訳(メタデータ) (2024-06-10T15:26:48Z) - Point Cloud Self-supervised Learning via 3D to Multi-view Masked Learner [19.908670991088556]
本稿では,3次元と投影された2次元特徴から点雲と多視点画像を再構成する3次元から多視点自動エンコーダを提案する。
2次元と3次元の表現を整合させる新しい2段階の自己学習戦略が提案されている。
提案手法は,3次元分類,部分分割,オブジェクト検出など,さまざまな下流タスクにおいて,最先端のタスクよりも優れる。
論文 参考訳(メタデータ) (2023-11-17T22:10:03Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal Pre-training Paradigm [111.16358607889609]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - From 2D Images to 3D Model:Weakly Supervised Multi-View Face Reconstruction with Deep Fusion [25.068822438649928]
我々は,多視点画像間の特徴対応を探索し,高精度な3次元顔の再構成を行う,Deep Fusion MVRと呼ばれる新しいパイプラインを提案する。
具体的には、マスクを用いて複数のエンコーダの特徴を整列させる、新しいマルチビュー機能融合バックボーンを提案する。
マルチビュー機能融合と顔再構成を容易にする1つの簡潔なマスク機構を開発した。
論文 参考訳(メタデータ) (2022-04-08T05:11:04Z) - Direct Multi-view Multi-person 3D Pose Estimation [138.48139701871213]
マルチビュー画像からマルチパーソン3Dポーズを推定するためのMulti-view Pose Transformer(MvP)を提案する。
MvPは、中間タスクに頼ることなく、複数の人物の3Dポーズを直接クリーンで効率的な方法で回帰する。
我々は,MvPモデルがより効率的でありながら,いくつかのベンチマークにおいて最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-07T13:09:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。