論文の概要: VFM-Recon: Unlocking Cross-Domain Scene-Level Neural Reconstruction with Scale-Aligned Foundation Priors
- arxiv url: http://arxiv.org/abs/2603.12657v1
- Date: Fri, 13 Mar 2026 05:00:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:11.91051
- Title: VFM-Recon: Unlocking Cross-Domain Scene-Level Neural Reconstruction with Scale-Aligned Foundation Priors
- Title(参考訳): VFM-Recon: スケールアライン・ファウンデーションを前倒ししたクロスドメイン・シーン・レベルニューラルリコン
- Authors: Yuhang Ming, Tingkang Xi, Xingrui Yang, Lixin Yang, Yong Peng, Cewu Lu, Wanzeng Kong,
- Abstract要約: VFMReconは, シーンレベルの神経再構成において, スケール一貫性の要求を満たすトランスファー可能なVFMプリエントをブリッジする最初の試みである。
具体的には、まず、マルチビュースケールコヒーレンスを復元する軽量なスケールアライメントステージを導入する。
次に、トレーニング済みのVFM機能を、軽量なタスク固有アダプタを介して、ニューラルボリューム再構築パイプラインに統合する。
- 参考スコア(独自算出の注目度): 49.39553550491549
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene-level neural volumetric reconstruction from monocular videos remains challenging, especially under severe domain shifts. Although recent advances in vision foundation models (VFMs) provide transferable generalized priors learned from large-scale data, their scaleambiguous predictions are incompatible with the scale consistency required by volumetric fusion. To address this gap, we present VFMRecon, the first attempt to bridge transferable VFM priors with scaleconsistent requirements in scene-level neural reconstruction. Specifically, we first introduce a lightweight scale alignment stage that restores multiview scale coherence. We then integrate pretrained VFM features into the neural volumetric reconstruction pipeline via lightweight task-specific adapters, which are trained for reconstruction while preserving the crossdomain robustness of pretrained representations. We train our model on ScanNet train split and evaluate on both in-distribution ScanNet test split and out-of-distribution TUM RGB-D and Tanks and Temples datasets. The results demonstrate that our model achieves state-of-theart performance across all datasets domains. In particular, on the challenging outdoor Tanks and Temples dataset, our model achieves an F1 score of 70.1 in reconstructed mesh evaluation, substantially outperforming the closest competitor, VGGT, which only attains 51.8.
- Abstract(参考訳): モノキュラービデオからのシーンレベルの神経ボリューム再構成は、特に激しいドメインシフトの下では困難である。
近年の視覚基礎モデル(VFM)は、大規模データから得られた伝達可能な一般化された事前情報を提供するが、そのスケールのあいまいな予測は、体積融合で要求されるスケールの一貫性とは相容れない。
このギャップに対処するために、我々は、シーンレベルのニューラル再構築においてスケール一貫性のある要求で、転送可能なVFMプリエントを橋渡しする最初の試みであるVFMReconを紹介する。
具体的には、まず、マルチビュースケールコヒーレンスを復元する軽量なスケールアライメントステージを導入する。
次に、トレーニング済みのVFM機能を、トレーニング済み表現のクロスドメインロバスト性を維持しつつ、再構築のためにトレーニングされた軽量タスク固有アダプタを介して、ニューラルボリューム再構築パイプラインに統合する。
我々は、ScanNetの列車分割をトレーニングし、ScanNetテスト分割とTUM RGB-DとTurps and Templesデータセットの両方で評価する。
その結果,本モデルがすべてのデータセット領域における最先端性能を実現することを示す。
特に、挑戦的な屋外タンクとテンプルのデータセットでは、再構成メッシュ評価においてF1スコアが70.1に達し、最も近い競合であるVGGTよりもかなり優れています。
関連論文リスト
- Sparse Data Tree Canopy Segmentation: Fine-Tuning Leading Pretrained Models on Only 150 Images [0.8294874285381528]
空中画像からの樹冠検出は, 環境モニタリング, 都市計画, 生態系分析において重要な課題である。
Solafune Tree Canopy Detectionコンペティションは、実際のデータアノテーションの不足をシミュレートし、わずか150の注釈付きイメージの小さな不均衡なデータセットを提供する。
我々は, YOLOv11, Mask R-CNN, DeepLabv3, Swin-UNet, DINOv2の5つの代表的なアーキテクチャを評価し, 極度のデータ不足下でのキャノピーセグメンテーションの適合性を評価する。
論文 参考訳(メタデータ) (2026-01-16T01:20:32Z) - Efficient Self-Supervised Learning for Earth Observation via Dynamic Dataset Curation [67.23953699167274]
自己教師付き学習(SSL)により、地球観測のための視覚基盤モデルの開発が可能になった。
EOでは、この課題は衛星画像に共通する冗長性と重尾分布によって増幅される。
本稿では,データセットの多様性とバランスを最大化し,SSL事前トレーニングを改善するために設計された動的データセットプルーニング戦略を提案する。
論文 参考訳(メタデータ) (2025-04-09T15:13:26Z) - Re-Visible Dual-Domain Self-Supervised Deep Unfolding Network for MRI Reconstruction [48.30341580103962]
本稿では、これらの問題に対処するために、新しい再視覚的二重ドメイン自己教師型深層展開ネットワークを提案する。
エンド・ツー・エンドの再構築を実現するために,シャンブルとポック・プロキシ・ポイント・アルゴリズム(DUN-CP-PPA)に基づく深層展開ネットワークを設計する。
高速MRIおよびIXIデータセットを用いて行った実験により,本手法は再建性能において最先端の手法よりも有意に優れていることが示された。
論文 参考訳(メタデータ) (2025-01-07T12:29:32Z) - Self-Supervised Pre-Training for Transformer-Based Person
Re-Identification [54.55281692768765]
トランスフォーマーに基づく教師付き事前訓練は、人物再識別(ReID)において大きなパフォーマンスを達成する
ImageNetとReIDデータセットのドメインギャップのため、通常、パフォーマンスを高めるために、より大きなトレーニング済みデータセットが必要です。
この研究は、データとモデル構造の観点から、事前トレーニングデータセットとReIDデータセットのギャップを軽減することを目的としている。
論文 参考訳(メタデータ) (2021-11-23T18:59:08Z) - Unsupervised MRI Reconstruction via Zero-Shot Learned Adversarial
Transformers [0.0]
Zero-Shot Learned Adrial Transformers (SLATER) を用いた新しい非監視MRI再構成法を提案する。
アンダーサンプルテストデータ上でゼロショット再構成を行い、ネットワークパラメータを最適化して推論を行います。
脳MRIデータセットの実験は、いくつかの最先端の教師なし手法に対してSLATERの優れた性能を明らかに示している。
論文 参考訳(メタデータ) (2021-05-15T02:01:21Z) - On Robustness and Transferability of Convolutional Neural Networks [147.71743081671508]
現代の深層畳み込みネットワーク(CNN)は、分散シフトの下で一般化しないとしてしばしば批判される。
現代画像分類CNNにおける分布外と転送性能の相互作用を初めて検討した。
トレーニングセットとモデルサイズを増大させることで、分散シフトロバスト性が著しく向上することがわかった。
論文 参考訳(メタデータ) (2020-07-16T18:39:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。