論文の概要: IGGT: Instance-Grounded Geometry Transformer for Semantic 3D Reconstruction
- arxiv url: http://arxiv.org/abs/2510.22706v1
- Date: Sun, 26 Oct 2025 14:57:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.334019
- Title: IGGT: Instance-Grounded Geometry Transformer for Semantic 3D Reconstruction
- Title(参考訳): IGGT : セマンティック3次元再構成のためのケースグラウンド幾何変換器
- Authors: Hao Li, Zhengyu Zou, Fangfu Liu, Xuanyang Zhang, Fangzhou Hong, Yukang Cao, Yushi Lan, Manyuan Zhang, Gang Yu, Dingwen Zhang, Ziwei Liu,
- Abstract要約: 人間は自然に3次元世界の幾何学的構造と意味的内容を中間次元として知覚する。
本稿では,空間再構成とインスタンスレベルの文脈理解の両面での知識を統合するために,IGGT (InstanceGrounded Geometry Transformer) を提案する。
- 参考スコア(独自算出の注目度): 82.53307702809606
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans naturally perceive the geometric structure and semantic content of a 3D world as intertwined dimensions, enabling coherent and accurate understanding of complex scenes. However, most prior approaches prioritize training large geometry models for low-level 3D reconstruction and treat high-level spatial understanding in isolation, overlooking the crucial interplay between these two fundamental aspects of 3D-scene analysis, thereby limiting generalization and leading to poor performance in downstream 3D understanding tasks. Recent attempts have mitigated this issue by simply aligning 3D models with specific language models, thus restricting perception to the aligned model's capacity and limiting adaptability to downstream tasks. In this paper, we propose InstanceGrounded Geometry Transformer (IGGT), an end-to-end large unified transformer to unify the knowledge for both spatial reconstruction and instance-level contextual understanding. Specifically, we design a 3D-Consistent Contrastive Learning strategy that guides IGGT to encode a unified representation with geometric structures and instance-grounded clustering through only 2D visual inputs. This representation supports consistent lifting of 2D visual inputs into a coherent 3D scene with explicitly distinct object instances. To facilitate this task, we further construct InsScene-15K, a large-scale dataset with high-quality RGB images, poses, depth maps, and 3D-consistent instance-level mask annotations with a novel data curation pipeline.
- Abstract(参考訳): 人間は自然に3次元世界の幾何学的構造と意味的内容を中間次元として認識し、複雑なシーンのコヒーレントで正確な理解を可能にする。
しかし, 従来の手法では, 低レベル3次元再構成のための大規模幾何学モデルの訓練を優先し, 高レベル空間理解を分離処理し, これら2つの基本的な3次元シーン解析の相互作用を見極め, 一般化を制限し, 下流3次元理解タスクにおける性能の低下を招いた。
最近の試みでは、特定の言語モデルに3Dモデルを合わせるだけでこの問題を緩和し、一致したモデルの能力に対する知覚を制限し、下流タスクへの適応性を制限している。
本稿では、空間再構成とインスタンスレベルの文脈理解の両方の知識を統合するために、エンドツーエンドの大規模統一変換器であるIGGT(InstanceGrounded Geometry Transformer)を提案する。
具体的には、IGGTを誘導し、幾何学的構造を持つ統一表現を符号化し、2次元視覚入力のみによるインスタンスグラウンドクラスタリングを行う3D一貫性コントラスト学習戦略を設計する。
この表現は、明確なオブジェクトインスタンスを持つコヒーレントな3Dシーンへの2D視覚入力の一貫したリフトをサポートする。
この作業を容易にするために,高品質なRGB画像,ポーズ,深度マップ,新しいデータキュレーションパイプラインによる3D一貫性のあるインスタンスレベルのマスクアノテーションを備えた大規模データセットであるInsScene-15Kを構築した。
関連論文リスト
- SGS-3D: High-Fidelity 3D Instance Segmentation via Reliable Semantic Mask Splitting and Growing [20.383892902000976]
高忠実度3Dインスタンスセグメンテーション(SGS-3D)のための分割・成長型セマンティックマスクを提案する。
本稿では,3次元幾何学的プリミティブの共起を利用したマスクフィルタリング手法を提案する。
幾何学的洗練のために,空間的連続性と高次特徴を両立させて細粒度オブジェクトインスタンスを構築する。
論文 参考訳(メタデータ) (2025-09-05T14:37:31Z) - Reg3D: Reconstructive Geometry Instruction Tuning for 3D Scene Understanding [6.7958985137291235]
Reg3DはReconstructive Geometry Instruction Tuningフレームワークである。
私たちの重要な洞察は、効果的な3D理解には、単に記述するのではなく、基礎となる幾何学的構造を再構築する必要があります。
ScanQA、Scan2Cap、ScanRefer、SQA3Dの実験は、Reg3Dが大幅なパフォーマンス改善を提供することを示した。
論文 参考訳(メタデータ) (2025-09-03T18:36:44Z) - UniUGG: Unified 3D Understanding and Generation via Geometric-Semantic Encoding [65.60549881706959]
3Dモダリティのための最初の統一的理解・生成フレームワークUniUGGを紹介する。
本フレームワークでは,LLMを用いて文や3次元表現の理解とデコードを行う。
遅延拡散モデルを利用して高品質な3次元表現を生成する空間デコーダを提案する。
論文 参考訳(メタデータ) (2025-08-16T07:27:31Z) - SeqAffordSplat: Scene-level Sequential Affordance Reasoning on 3D Gaussian Splatting [85.87902260102652]
本稿では, 連続3次元ガウシアン・アフラマンス推論の課題について紹介する。
次に,SeqSplatNetを提案する。SqSplatNetは,命令を直接3Dアベイランスマスクのシーケンスにマッピングするエンドツーエンドフレームワークである。
本手法は,1段階のインタラクションから,シーンレベルでの複雑なシーケンシャルなタスクへの可利用性推論を効果的に向上させる。
論文 参考訳(メタデータ) (2025-07-31T17:56:55Z) - 3D-Aware Vision-Language Models Fine-Tuning with Geometric Distillation [17.294440057314812]
VLM(Vision-Language Models)は様々な視覚的・言語的タスクにおいて顕著な性能を示した。
人為的な幾何学的手がかりを予め訓練されたVLMに注入するフレームワークであるGeometric Distillationを提案する。
本手法は、自然な画像テキスト入力と互換性を保ちながら、表現を幾何学的に認識するように形成する。
論文 参考訳(メタデータ) (2025-06-11T15:56:59Z) - Bootstraping Clustering of Gaussians for View-consistent 3D Scene Understanding [59.51535163599723]
FreeGSは、教師なしセマンティック組み込み3DGSフレームワークで、2Dラベルを必要とせずに、ビュー一貫性のある3Dシーン理解を実現する。
FreeGSは複雑なデータ前処理のワークロードを避けながら、最先端のメソッドと互換性がある。
論文 参考訳(メタデータ) (2024-11-29T08:52:32Z) - Large Spatial Model: End-to-end Unposed Images to Semantic 3D [79.94479633598102]
大空間モデル(LSM)は、RGB画像を直接意味的放射場に処理する。
LSMは、単一のフィードフォワード操作における幾何学、外観、意味を同時に推定する。
新しい視点で言語と対話することで、多目的ラベルマップを生成することができる。
論文 参考訳(メタデータ) (2024-10-24T17:54:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。