論文の概要: KitchenTwin: Semantically and Geometrically Grounded 3D Kitchen Digital Twins
- arxiv url: http://arxiv.org/abs/2603.24684v1
- Date: Wed, 25 Mar 2026 18:03:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:47.924084
- Title: KitchenTwin: Semantically and Geometrically Grounded 3D Kitchen Digital Twins
- Title(参考訳): KitchenTwin: セマンティックで幾何学的にグラウンド化された3Dキッチンデジタルツイン
- Authors: Quanyun Wu, Kyle Gao, Daniel Long, David A. Clausi, Jonathan Li, Yuhao Chen,
- Abstract要約: 身体的なAIトレーニングと評価には、正確なメートル法とセマンティックグラウンドを備えたオブジェクト中心のデジタルツインが必要である。
近年のトランスフォーマーによるフィードフォワード再構成手法は, 粗いモノクロビデオから大域点雲を効率的に予測できる。
このミスマッチは、これらの次元のないクラウド予測と局所的に再構成されたオブジェクトメッシュとの信頼性の高い融合を防ぐ。
- 参考スコア(独自算出の注目度): 11.881796071022157
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Embodied AI training and evaluation require object-centric digital twin environments with accurate metric geometry and semantic grounding. Recent transformer-based feedforward reconstruction methods can efficiently predict global point clouds from sparse monocular videos, yet these geometries suffer from inherent scale ambiguity and inconsistent coordinate conventions. This mismatch prevents the reliable fusion of these dimensionless point cloud predictions with locally reconstructed object meshes. We propose a novel scale-aware 3D fusion framework that registers visually grounded object meshes with transformer-predicted global point clouds to construct metrically consistent digital twins. Our method introduces a Vision-Language Model (VLM)-guided geometric anchor mechanism that resolves this fundamental coordinate mismatch by recovering an accurate real-world metric scale. To fuse these networks, we propose a geometry-aware registration pipeline that explicitly enforces physical plausibility through gravity-aligned vertical estimation, Manhattan-world structural constraints, and collision-free local refinement. Experiments on real indoor kitchen environments demonstrate improved cross-network object alignment and geometric consistency for downstream tasks, including multi-primitive fitting and metric measurement. We additionally introduce an open-source indoor digital twin dataset with metrically scaled scenes and semantically grounded and registered object-centric mesh annotations.
- Abstract(参考訳): 身体的AIトレーニングと評価には、正確なメートル法とセマンティックグラウンドを備えたオブジェクト中心のデジタルツイン環境が必要である。
近年の変圧器をベースとしたフィードフォワード再構成法は, 粗いモノクロビデオから大域点雲を効率的に予測できるが, これらの測地は, 固有のスケールのあいまいさや不整合座標規則に悩まされている。
このミスマッチは、これらの次元のないクラウド予測と局所的に再構成されたオブジェクトメッシュとの信頼性の高い融合を防ぐ。
本稿では,変圧器で予測される大域点雲で視覚的に接地されたオブジェクトメッシュを登録し,距離的に一貫したディジタルツインを構築するための,新しいスケール対応3D融合フレームワークを提案する。
本手法では,正確な実世界距離スケールを復元することにより,この基本的な座標ミスマッチを解消する視覚言語モデル(VLM)を誘導する幾何アンカー機構を導入する。
これらのネットワークを融合させるために,重力方向の垂直推定,マンハッタンの世界構造制約,衝突のない局所的な改善を通じて,物理的可視性を明示的に強制する幾何対応型登録パイプラインを提案する。
実際の屋内キッチン環境における実験は、マルチプリミティブなフィッティングやメートル法測定を含む下流タスクにおいて、クロスネットワークオブジェクトアライメントの改善と幾何整合性を示す。
さらに、メトリックスケールされたシーンとセマンティックグラウンドと登録されたオブジェクト中心メッシュアノテーションを備えた、オープンソースの屋内デジタルツインデータセットについても紹介する。
関連論文リスト
- Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。
そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文 参考訳(メタデータ) (2024-07-26T06:29:09Z) - Mesh Denoising Transformer [104.5404564075393]
Mesh Denoisingは、入力メッシュからノイズを取り除き、特徴構造を保存することを目的としている。
SurfaceFormerはTransformerベースのメッシュDenoisingフレームワークのパイオニアだ。
局所曲面記述子(Local Surface Descriptor)として知られる新しい表現は、局所幾何学的複雑さをキャプチャする。
Denoising Transformerモジュールは、マルチモーダル情報を受信し、効率的なグローバル機能アグリゲーションを実現する。
論文 参考訳(メタデータ) (2024-05-10T15:27:43Z) - Flattening-Net: Deep Regular 2D Representation for 3D Point Cloud
Analysis [66.49788145564004]
我々は、任意の幾何学と位相の不規則な3次元点雲を表現するために、Flattning-Netと呼ばれる教師なしのディープニューラルネットワークを提案する。
我々の手法は、現在の最先端の競合相手に対して好意的に機能する。
論文 参考訳(メタデータ) (2022-12-17T15:05:25Z) - TerrainMesh: Metric-Semantic Terrain Reconstruction from Aerial Images
Using Joint 2D-3D Learning [20.81202315793742]
本稿では,視覚的オドメトリーアルゴリズムによって保持される各カメラにおける局所的メートル法-セマンティックメッシュを再構築する2次元3次元学習手法を提案する。
メッシュはグローバル環境モデルに組み立てて、オンライン操作中の地形のトポロジとセマンティクスをキャプチャすることができる。
論文 参考訳(メタデータ) (2022-04-23T05:18:39Z) - Category-Level Metric Scale Object Shape and Pose Estimation [73.92460712829188]
本稿では,測度スケールの形状と1枚のRGB画像からのポーズを共同で推定するフレームワークを提案する。
カテゴリーレベルのオブジェクトのポーズと形状を評価するために,合成と実世界の両方のデータセット上で本手法の有効性を検証した。
論文 参考訳(メタデータ) (2021-09-01T12:16:46Z) - Learning Geometry-Disentangled Representation for Complementary
Understanding of 3D Object Point Cloud [50.56461318879761]
3次元画像処理のためのGDANet(Geometry-Disentangled Attention Network)を提案する。
GDANetは、点雲を3Dオブジェクトの輪郭と平らな部分に切り離し、それぞれ鋭い変化成分と穏やかな変化成分で表される。
3Dオブジェクトの分類とセグメンテーションベンチマークの実験は、GDANetがより少ないパラメータで最先端の処理を実現していることを示している。
論文 参考訳(メタデータ) (2020-12-20T13:35:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。