論文の概要: SegVGGT: Joint 3D Reconstruction and Instance Segmentation from Multi-View Images
- arxiv url: http://arxiv.org/abs/2603.19926v1
- Date: Fri, 20 Mar 2026 13:10:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 19:48:39.14763
- Title: SegVGGT: Joint 3D Reconstruction and Instance Segmentation from Multi-View Images
- Title(参考訳): SegVGGT:マルチビュー画像からの3次元再構成とインスタンス分割
- Authors: Jinyuan Qu, Hongyang Li, Lei Zhang,
- Abstract要約: SegVGGTは、フィードフォワード3D再構成とインスタンスセグメンテーションを同時に実行する統合エンドツーエンドフレームワークである。
本手法は,視覚幾何学的基底変換器にインスタンス識別を深く統合する。
実験により、ScanNetv2とScanNet200でSegVGGTが最先端のパフォーマンスを達成することが示された。
- 参考スコア(独自算出の注目度): 11.617237358347777
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D instance segmentation methods typically rely on high-quality point clouds or posed RGB-D scans, requiring complex multi-stage processing pipelines, and are highly sensitive to reconstruction noise. While recent feed-forward transformers have revolutionized multi-view 3D reconstruction, they remain decoupled from high-level semantic understanding. In this work, we present SegVGGT, a unified end-to-end framework that simultaneously performs feed-forward 3D reconstruction and instance segmentation directly from multi-view RGB images. By introducing object queries that interact with multi-level geometric features, our method deeply integrates instance identification into the visual geometry grounded transformer. To address the severe attention dispersion problem caused by the massive number of global image tokens, we propose the Frame-level Attention Distribution Alignment (FADA) strategy. FADA explicitly guides object queries to attend to instance-relevant frames during training, providing structured supervision without extra inference overhead. Extensive experiments demonstrate that SegVGGT achieves the state-of-the-art performance on ScanNetv2 and ScanNet200, outperforming both recent joint models and RGB-D-based approaches, while exhibiting strong generalization capabilities on ScanNet++.
- Abstract(参考訳): 3Dインスタンスセグメンテーション法は、通常、高品質の点雲やRGB-Dスキャンに依存し、複雑な多段階処理パイプラインを必要とし、再構成ノイズに非常に敏感である。
最近のフィードフォワードトランスフォーマーは、マルチビュー3D再構成に革命をもたらしたが、ハイレベルなセマンティック理解から切り離されたままである。
本稿では,多視点RGB画像から直接フィードフォワード3D再構成とインスタンスセグメンテーションを同時に行う統合エンドツーエンドフレームワークであるSegVGGTを提案する。
マルチレベルな幾何学的特徴と相互作用するオブジェクトクエリを導入することで,視覚幾何学的基底変換器のインスタンス識別を深く統合する。
大量のグローバル画像トークンによる注意分散問題に対処するために,フレームレベルの注意分布アライメント(FADA)戦略を提案する。
FADAは、トレーニング中のインスタンス関連フレームへのオブジェクトクエリを明示的にガイドし、追加の推論オーバーヘッドなしに構造化された監視を提供する。
大規模な実験では、ScanNetv2とScanNet200でSegVGGTが最先端のパフォーマンスを実現し、最近のジョイントモデルとRGB-Dベースのアプローチの両方を上回り、ScanNet++上で強力な一般化能力を示している。
関連論文リスト
- MVGGT: Multimodal Visual Geometry Grounded Transformer for Multiview 3D Referring Expression Segmentation [59.75554954111619]
マルチビュー3D参照表現(MV-3DRES)を導入し、モデルがシーン構造を復元し、参照対象をスパースなマルチビュー画像から直接セグメント化する必要がある。
本稿では,言語情報をスパースビュー幾何学的推論に組み込む,効率的なエンドツーエンドフレームワークであるMultimodal Visual Geometry Grounded Transformer (MVGGT)を提案する。
実験により、MVGGTは最初の強力なベースラインを確立し、高精度かつ高速な推論を達成し、既存の選択肢よりも優れていることが示された。
論文 参考訳(メタデータ) (2026-01-11T11:44:07Z) - Hierarchical Image-Guided 3D Point Cloud Segmentation in Industrial Scenes via Multi-View Bayesian Fusion [4.679314646805623]
3Dセグメンテーションは、高密度なレイアウトとマルチスケールオブジェクトを持つ複雑なシーンを理解するために重要である。
既存の3Dポイントベースの手法はコストのかかるアノテーションを必要とするが、画像誘導方式はビュー間のセマンティックな不整合に悩まされることが多い。
本稿では,階層的な画像誘導型3次元セグメンテーションフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-07T15:15:52Z) - IGGT: Instance-Grounded Geometry Transformer for Semantic 3D Reconstruction [82.53307702809606]
人間は自然に3次元世界の幾何学的構造と意味的内容を中間次元として知覚する。
本稿では,空間再構成とインスタンスレベルの文脈理解の両面での知識を統合するために,IGGT (InstanceGrounded Geometry Transformer) を提案する。
論文 参考訳(メタデータ) (2025-10-26T14:57:44Z) - Large Spatial Model: End-to-end Unposed Images to Semantic 3D [79.94479633598102]
大空間モデル(LSM)は、RGB画像を直接意味的放射場に処理する。
LSMは、単一のフィードフォワード操作における幾何学、外観、意味を同時に推定する。
新しい視点で言語と対話することで、多目的ラベルマップを生成することができる。
論文 参考訳(メタデータ) (2024-10-24T17:54:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。