論文の概要: FUSER: Feed-Forward MUltiview 3D Registration Transformer and SE(3)$^N$ Diffusion Refinement
- arxiv url: http://arxiv.org/abs/2512.09373v1
- Date: Wed, 10 Dec 2025 07:11:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.426998
- Title: FUSER: Feed-Forward MUltiview 3D Registration Transformer and SE(3)$^N$ Diffusion Refinement
- Title(参考訳): FUSER: フィードフォワード MUltiview 3D Registration Transformer と SE(3)$^N$ Diffusion Refinement
- Authors: Haobo Jiang, Jin Xie, Jian Yang, Liang Yu, Jianmin Zheng,
- Abstract要約: Fは、全てのスキャンを統一されたコンパクトな潜在空間で処理する最初のフィードフォワードマルチビュー登録変換器である。
F はペアワイズ推定なしでグローバルなポーズを予測する。
3DMatch, ScanNet, ArkitScenesの実験により, 本手法が優れた登録精度と優れた計算効率を実現することを示す。
- 参考スコア(独自算出の注目度): 39.19949818461193
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Registration of multiview point clouds conventionally relies on extensive pairwise matching to build a pose graph for global synchronization, which is computationally expensive and inherently ill-posed without holistic geometric constraints. This paper proposes FUSER, the first feed-forward multiview registration transformer that jointly processes all scans in a unified, compact latent space to directly predict global poses without any pairwise estimation. To maintain tractability, FUSER encodes each scan into low-resolution superpoint features via a sparse 3D CNN that preserves absolute translation cues, and performs efficient intra- and inter-scan reasoning through a Geometric Alternating Attention module. Particularly, we transfer 2D attention priors from off-the-shelf foundation models to enhance 3D feature interaction and geometric consistency. Building upon FUSER, we further introduce FUSER-DF, an SE(3)$^N$ diffusion refinement framework to correct FUSER's estimates via denoising in the joint SE(3)$^N$ space. FUSER acts as a surrogate multiview registration model to construct the denoiser, and a prior-conditioned SE(3)$^N$ variational lower bound is derived for denoising supervision. Extensive experiments on 3DMatch, ScanNet and ArkitScenes demonstrate that our approach achieves the superior registration accuracy and outstanding computational efficiency.
- Abstract(参考訳): 従来、多視点雲の登録は、大域同期のためのポーズグラフを構築するために、広範囲なペアワイズマッチングに頼っていた。
本稿ではFUSERを提案する。FUSERはフィードフォワード型マルチビュー登録トランスフォーマーで、全スキャンをコンパクトなラテント空間で共同処理し、一対推定なしでグローバルなポーズを直接予測する。
トラクタビリティを維持するために、FUSERは、各スキャンを絶対的な翻訳キューを保持するスパース3D CNNを介して低解像度のスーパーポイント特徴にエンコードし、幾何学的交換アテンションモジュールを通じて効率的なスキャン内およびスキャン間推論を行う。
特に,3次元特徴相互作用と幾何整合性を高めるために,既成の基礎モデルから2次元の注意を移す。
さらに、FUSERをベースとしたFUSER-DF(SE(3)$^N$拡散補正フレームワーク)を導入し、共同SE(3)$^N$空間における denoising によるFUSERの推定を補正する。
FUSERは代用マルチビュー登録モデルとして機能し、事前条件付きSE(3)$^N$変動下界をデノナイズ管理のために導出する。
3DMatch, ScanNet, ArkitScenesの大規模実験により, 本手法が優れた登録精度と計算効率を実現することを示す。
関連論文リスト
- ProFuse: Efficient Cross-View Context Fusion for Open-Vocabulary 3D Gaussian Splatting [1.1470070927586018]
ProFuseは3Dガウススプラッティングを用いたオープンな3Dシーン理解のための効率的な文脈認識フレームワークである(3DGS)
パイプラインは、直接登録設定内でのクロスビュー一貫性とマスク内凝集を強化する。
ProFuseは1シーンあたり約5分でセマンティックアタッチメントを完了しながら、強力なオープン語彙の3DGS理解を実現する。
論文 参考訳(メタデータ) (2026-01-08T09:20:46Z) - Joint Semantic and Rendering Enhancements in 3D Gaussian Modeling with Anisotropic Local Encoding [86.55824709875598]
本稿では,セマンティックとレンダリングの両方を相乗化する3次元セマンティックガウスモデリングのための統合拡張フレームワークを提案する。
従来の点雲形状符号化とは異なり、細粒度3次元形状を捉えるために異方性3次元ガウシアン・チェビシェフ記述子を導入する。
我々は、学習した形状パターンを継続的に更新するために、クロスシーンの知識伝達モジュールを使用し、より高速な収束と堅牢な表現を可能にします。
論文 参考訳(メタデータ) (2026-01-05T18:33:50Z) - econSG: Efficient and Multi-view Consistent Open-Vocabulary 3D Semantic Gaussians [56.85804719947]
3DGSを用いたオープン語彙セマンティックセマンティックセグメンテーションのためのeconSGを提案する。
筆者らのeconSGは,既存手法と比較して,4つのベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2025-04-08T13:12:31Z) - Diff-Reg v2: Diffusion-Based Matching Matrix Estimation for Image Matching and 3D Registration [44.88739897482003]
本稿では,行列空間における拡散モデルを利用して,ロバストマッチング行列推定を行う革新的パラダイムを提案する。
具体的には、3D-3Dおよび2D-3D登録タスクに対して2次元行列空間に拡散モデルを適用する。
3つの登録タスクすべてに対して、各タスクの特定の特性に合わせた適応的マッチング行列埋め込み実装を提供する。
論文 参考訳(メタデータ) (2025-03-06T06:13:27Z) - DiHuR: Diffusion-Guided Generalizable Human Reconstruction [51.31232435994026]
一般化可能なヒト3次元再構成のための拡散誘導モデルであるDiHuRを導入し,スパース・ミニマル・オーバーラップ画像からのビュー合成について述べる。
提案手法は, 一般化可能なフィードフォワードモデルと2次元拡散モデルとの2つのキー前処理をコヒーレントな方法で統合する。
論文 参考訳(メタデータ) (2024-11-16T03:52:23Z) - S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z) - SE(3) Diffusion Model-based Point Cloud Registration for Robust 6D
Object Pose Estimation [66.16525145765604]
実世界のシナリオにおける6次元オブジェクトポーズ推定のためのSE(3)拡散モデルに基づく点クラウド登録フレームワークを提案する。
提案手法は,3次元登録タスクをデノナイズ拡散過程として定式化し,音源雲の姿勢を段階的に洗練する。
実世界のTUD-L, LINEMOD, およびOccluded-LINEMODデータセットにおいて, 拡散登録フレームワークが顕著なポーズ推定性能を示すことを示す。
論文 参考訳(メタデータ) (2023-10-26T12:47:26Z) - DPCN++: Differentiable Phase Correlation Network for Versatile Pose
Registration [18.60311260250232]
本稿では,世界規模で収束し,対応のない位相相関解法を提案する。
DCPN++は,2次元鳥眼視画像,3次元物体・シーン計測,医用画像など,入力モードが異なる幅広い登録タスクで評価される。
論文 参考訳(メタデータ) (2022-06-12T10:00:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。