論文の概要: PARSE: Part-Aware Relational Spatial Modeling
- arxiv url: http://arxiv.org/abs/2603.07704v1
- Date: Sun, 08 Mar 2026 16:11:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.084677
- Title: PARSE: Part-Aware Relational Spatial Modeling
- Title(参考訳): PARSE:パートアウェアリレーショナル空間モデリング
- Authors: Yinuo Bai, Peijun Xu, Kuixiang Shao, Yuyang Jiao, Jingxuan Zhang, Kaixin Yao, Jiayuan Gu, Jingyi Yu,
- Abstract要約: 提案するPARSEは,オブジェクト部品の相互作用を明示的にモデル化し,現実的かつ空間的に接地されたシーン構成を決定するフレームワークである。
PARSE-10Kは,実画像レイアウトの先行画像から構築した1万枚の屋内シーンのデータセットと,キュレートされた部分注釈型形状データベースである。
この構造化された空間的な監督により、PARSE-10K上の細調整Qwen3-VLにより、より強力なオブジェクトレベルのレイアウト推論とより正確な部分レベルの関係理解が得られる。
- 参考スコア(独自算出の注目度): 37.44430581571346
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inter-object relations underpin spatial intelligence, yet existing representations -- linguistic prepositions or object-level scene graphs -- are too coarse to specify which regions actually support, contain, or contact one another, leading to ambiguous and physically inconsistent layouts. To address these ambiguities, a part-level formulation is needed; therefore, we introduce PARSE, a framework that explicitly models how object parts interact to determine feasible and spatially grounded scene configurations. PARSE centers on the Part-centric Assembly Graph (PAG), which encodes geometric relations between specific object parts, and a Part-Aware Spatial Configuration Solver that converts these relations into geometric constraints to assemble collision-free, physically valid scenes. Using PARSE, we build PARSE-10K, a dataset of 10,000 3D indoor scenes constructed from real-image layout priors and a curated part-annotated shape database, each with dense contact structures and a part-level contact graph. With this structured, spatially grounded supervision, fine-tuning Qwen3-VL on PARSE-10K yields stronger object-level layout reasoning and more accurate part-level relation understanding; furthermore, leveraging PAGs as structural priors in 3D generation models leads to scenes with substantially improved physical realism and structural complexity. Together, these results show that PARSE significantly advances geometry-grounded spatial reasoning and supports the generation of physically consistent 3D scenes.
- Abstract(参考訳): オブジェクト間の関係は空間的インテリジェンスを支えるが、既存の表現(言語的前置詞やオブジェクトレベルのシーングラフ)はあまりに粗いので、どの領域が実際にサポートしているか、含んでいるか、または接触しているかを特定できないため、曖昧で物理的に一貫性のないレイアウトに繋がる。
これらの曖昧性に対処するためには,部分レベルの定式化が必要である。したがって,対象部品の相互作用を明示的にモデル化し,現実的かつ空間的に接地されたシーン構成を決定するためのフレームワークであるPARSEを導入する。
PARSEは、特定のオブジェクト間の幾何学的関係を符号化するPart-centric Assembly Graph (PAG)と、これらの関係を幾何学的制約に変換するPart-Aware Space Configuration Solverを中心に、衝突のない物理的に有効なシーンを組み立てる。
PARSE-10Kは,実画像レイアウトの先行画像から構築した1万枚の屋内シーンと,密接な接点構造と部分レベルの接点グラフを備えた有意な部分付加型形状データベースである。
この構造的、空間的に根ざした監督により、PARSE-10K上の微調整Qwen3-VLはより強力なオブジェクトレベルのレイアウト推論とより正確な部分レベルの関係理解をもたらす。
これらの結果から,PARSEは幾何学的空間推論を著しく向上させ,物理的に一貫した3次元シーンの生成を支援することが示唆された。
関連論文リスト
- IGGT: Instance-Grounded Geometry Transformer for Semantic 3D Reconstruction [82.53307702809606]
人間は自然に3次元世界の幾何学的構造と意味的内容を中間次元として知覚する。
本稿では,空間再構成とインスタンスレベルの文脈理解の両面での知識を統合するために,IGGT (InstanceGrounded Geometry Transformer) を提案する。
論文 参考訳(メタデータ) (2025-10-26T14:57:44Z) - Causal Reasoning Elicits Controllable 3D Scene Generation [35.22855710229319]
CausalStructは3Dシーン生成に因果推論を組み込む新しいフレームワークである。
ノードがオブジェクトや属性を表現する因果グラフを構築し、エッジが因果依存性と物理的制約をエンコードする。
提案手法では,3次元ガウス切削およびスコア蒸留サンプリングにより形状精度とレンダリング安定性を向上し,3次元シーンにおけるオブジェクト配置とレイアウトの誘導にテキストや画像を用いる。
論文 参考訳(メタデータ) (2025-09-18T01:03:21Z) - HiScene: Creating Hierarchical 3D Scenes with Isometric View Generation [50.206100327643284]
HiSceneは、2D画像生成と3Dオブジェクト生成のギャップを埋める新しい階層的なフレームワークである。
構成構造を維持しながら2次元表現に整合した3次元コンテンツを生成する。
論文 参考訳(メタデータ) (2025-04-17T16:33:39Z) - TC-SfM: Robust Track-Community-Based Structure-from-Motion [24.956499348500763]
本研究では,現場における高次情報,すなわち地域空間の文脈情報を活用することで,復興を導くことを提案する。
新たな構造、すなわち、各コミュニティがトラックのグループで構成され、シーン内の局所的なセグメントを表現する、テキストトラックコミュニティが提案されている。
論文 参考訳(メタデータ) (2022-06-13T01:09:12Z) - Neural Part Priors: Learning to Optimize Part-Based Object Completion in
RGB-D Scans [27.377128012679076]
本稿では,部分情報付き3次元形状の大規模合成データセットを活用してニューラル部品の先行学習を提案する。
実世界でスキャンされた3Dシーンをテスト時に適合させるために、学習した部分を最適化できます。
ScanNetデータセットの実験では、NPPは部分分解とオブジェクト補完において、技術の状態を大幅に上回っている。
論文 参考訳(メタデータ) (2022-03-17T15:05:44Z) - Reconstructing Interactive 3D Scenes by Panoptic Mapping and CAD Model
Alignments [81.38641691636847]
エンボディエージェントの観点から,シーン再構築の問題を再考する。
rgb-dデータストリームを用いてインタラクティブシーンを再構築する。
この再構成されたシーンは、密集したパノプティカルマップのオブジェクトメッシュを、部分ベースのCADモデルに置き換える。
論文 参考訳(メタデータ) (2021-03-30T05:56:58Z) - Towards Part-Based Understanding of RGB-D Scans [43.4094489272776]
本研究では,実世界の3D環境をパートベースで理解する作業を提案する。
シーンのRGB-Dスキャンからオブジェクトを検出し,各オブジェクトに対して幾何学的な部分マスクへの分解を予測する。
中間部分グラフ表現を利用して、ロバストな補完と部分の事前構築を可能にします。
論文 参考訳(メタデータ) (2020-12-03T17:30:02Z) - Learning Unsupervised Hierarchical Part Decomposition of 3D Objects from
a Single RGB Image [102.44347847154867]
プリミティブの集合として3次元オブジェクトの幾何を共同で復元できる新しい定式化を提案する。
我々のモデルは、プリミティブのバイナリツリーの形で、様々なオブジェクトの高レベルな構造的分解を復元する。
ShapeNet と D-FAUST のデータセットを用いた実験により,部品の組織化を考慮すれば3次元形状の推論が容易になることが示された。
論文 参考訳(メタデータ) (2020-04-02T17:58:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。