論文の概要: CoSMo3D: Open-World Promptable 3D Semantic Part Segmentation through LLM-Guided Canonical Spatial Modeling
- arxiv url: http://arxiv.org/abs/2603.01205v1
- Date: Sun, 01 Mar 2026 17:57:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.566217
- Title: CoSMo3D: Open-World Promptable 3D Semantic Part Segmentation through LLM-Guided Canonical Spatial Modeling
- Title(参考訳): CoSMo3D:LLM誘導標準空間モデリングによるオープンワールド3次元セマンティック部分分割
- Authors: Li Jin, Weikai Chen, Yujie Wang, Yingda Yin, Zeyu Hu, Runze Zhang, Keyang Luo, Shengju Qian, Xin Wang, Xueying Qin,
- Abstract要約: 精神物理学的な証拠は、物体を標準的なフレームに精神的に回転させ、機能的役割を明らかにすることを示しています。
そこで本研究では,潜在標準参照フレームを誘導することにより,標準空間認識を実現する方法Nameを提案する。
実験の結果,methodNameはオープンワールドのプロンプト可能な3Dセグメンテーションにおいて,技術の新たな状態を確立することがわかった。
- 参考スコア(独自算出の注目度): 29.262031571010564
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-world promptable 3D semantic segmentation remains brittle as semantics are inferred in the input sensor coordinates. Yet, humans, in contrast, interpret parts via functional roles in a canonical space -- wings extend laterally, handles protrude to the side, and legs support from below. Psychophysical evidence shows that we mentally rotate objects into canonical frames to reveal these roles. To fill this gap, we propose \methodName{}, which attains canonical space perception by inducing a latent canonical reference frame learned directly from data. By construction, we create a unified canonical dataset through LLM-guided intra- and cross-category alignment, exposing canonical spatial regularities across 200 categories. By induction, we realize canonicality inside the model through a dual-branch architecture with canonical map anchoring and canonical box calibration, collapsing pose variation and symmetry into a stable canonical embedding. This shift from input pose space to canonical embedding yields far more stable and transferable part semantics. Experimental results show that \methodName{} establishes new state of the art in open-world promptable 3D segmentation.
- Abstract(参考訳): 入力センサ座標でセマンティクスが推測されるため、オープンワールドのプロンプト可能な3Dセマンティクスセグメンテーションは依然として不安定である。
しかし、対照的にヒトは、標準的な空間における機能的な役割を通じて部品を解釈する -- 翼は横に伸び、横に突出し、脚を下から支える。
心理学的な証拠は、物体を標準的なフレームに精神的に回転させ、それらの役割を明らかにすることを示しています。
このギャップを埋めるために,データから直接学習した潜在正準参照フレームを誘導することにより,標準空間認識を実現する<methodName{}>を提案する。
構築により,LLM誘導型およびクロスカテゴリアライメントによる統一された標準データセットを作成し,200のカテゴリにまたがる標準空間規則性を明らかにする。
モデル内部の正準性は、正準写像のアンカーと正準箱のキャリブレーション、ポーズの変化と対称性を安定な正準埋め込みに分解することで実現される。
入力ポーズ空間から標準埋め込みへのこのシフトは、はるかに安定で伝達可能な部分意味論をもたらす。
実験結果から, オープンワールドのプロンプト可能な3Dセグメンテーションにおいて, \methodName{} が新たな最先端技術を確立することが明らかになった。
関連論文リスト
- HeRO: Hierarchical 3D Semantic Representation for Pose-aware Object Manipulation [54.325346533275074]
HeROは、階層的意味論を通して幾何学と意味論を結合する拡散ベースのポリシーである。
様々なテストにおいて、HeROは新しい最先端技術を確立し、Place Dual Shoesの成功率を12.3%改善し、6つの挑戦的なポーズ対応タスクで平均6.5%向上した。
論文 参考訳(メタデータ) (2026-02-21T12:29:10Z) - Features Emerge as Discrete States: The First Application of SAEs to 3D Representations [5.751184796461698]
スパースオートエンコーダ(SAE)は、ニューラルネットワークのアクティベーションを分解する強力な辞書学習技術である。
53k3Dモデルに適用した最先端3D再構成VAEの特徴を解析し,SAEの3D領域への最初の応用について述べる。
論文 参考訳(メタデータ) (2025-12-12T03:54:45Z) - SegSplat: Feed-forward Gaussian Splatting and Open-Set Semantic Segmentation [114.57192386025373]
SegSplatは、高速でフィードフォワードな3D再構成とリッチでオープンなセマンティック理解のギャップを埋めるために設計された、新しいフレームワークである。
この研究は、意味的に認識された3D環境の実践的でオンザフライな生成に向けた重要なステップである。
論文 参考訳(メタデータ) (2025-11-23T10:26:38Z) - Octree Latent Diffusion for Semantic 3D Scene Generation and Completion [2.8992197334880268]
本研究では,屋内と屋外の両方でシーン補完,拡張,生成を行うことのできる単一のフレームワークを開発する。
提案手法は,効率的な2重オクツリーグラフ潜在表現を直接操作する。
単一LiDARスキャンによる高品質な構造,コヒーレントなセマンティクス,ロバストな補完を実証する。
論文 参考訳(メタデータ) (2025-09-20T00:53:13Z) - Self-Supervised and Generalizable Tokenization for CLIP-Based 3D Understanding [87.68271178167373]
凍結したCLIPバックボーンを用いたスケール不変表現学習のためのユニバーサル3Dトークン化器を提案する。
S4Tokenは、シーンスケールに関係なくセマンティックインフォームドトークンを生成するトークン化パイプラインである。
論文 参考訳(メタデータ) (2025-05-24T18:26:30Z) - Unsupervised Representation Learning for Diverse Deformable Shape
Collections [30.271818994854353]
本稿では,3次元表面メッシュを符号化し,操作するための新しい学習手法を提案する。
本手法は,変形可能な形状収集のための解釈可能な埋め込み空間を作成するために設計されている。
論文 参考訳(メタデータ) (2023-10-27T13:45:30Z) - 3DLatNav: Navigating Generative Latent Spaces for Semantic-Aware 3D
Object Manipulation [2.8661021832561757]
3D生成モデルは、最近、点雲という形で現実的な3Dオブジェクトを生成することに成功した。
ほとんどのモデルは、広範囲なセマンティックラベルや他の参照ポイントクラウドなしでコンポーネントオブジェクトの形状セマンティクスを操作するための制御性を提供していません。
本稿では3DLatNavを提案する。3Dオブジェクトの制御部分レベルのセマンティック操作を可能にするために,事前学習された潜在空間をナビゲートする新しいアプローチである。
論文 参考訳(メタデータ) (2022-11-17T18:47:56Z) - Learning Smooth Neural Functions via Lipschitz Regularization [92.42667575719048]
ニューラルフィールドにおけるスムーズな潜伏空間を促進するために設計された新しい正規化を導入する。
従来のリプシッツ正規化ネットワークと比較して、我々のアルゴリズムは高速で、4行のコードで実装できる。
論文 参考訳(メタデータ) (2022-02-16T21:24:54Z) - ConDor: Self-Supervised Canonicalization of 3D Pose for Partial Shapes [55.689763519293464]
ConDorは、完全および部分的な3次元点雲の3次元配向と位置を正準化することを学ぶ自己教師型手法である。
推測中,本手法は任意のポーズで完全あるいは部分的な3次元点の雲を抽出し,同変正則のポーズを出力する。
論文 参考訳(メタデータ) (2022-01-19T18:57:21Z) - MotioNet: 3D Human Motion Reconstruction from Monocular Video with
Skeleton Consistency [72.82534577726334]
モノクロビデオから3次元人間の骨格の動きを直接再構成するディープニューラルネットワークであるMotioNetを紹介した。
本手法は,動作表現を完全かつ一般的に使用するキネマティックスケルトンを直接出力する最初のデータ駆動型手法である。
論文 参考訳(メタデータ) (2020-06-22T08:50:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。