論文の概要: MonoArt: Progressive Structural Reasoning for Monocular Articulated 3D Reconstruction
- arxiv url: http://arxiv.org/abs/2603.19231v1
- Date: Thu, 19 Mar 2026 17:59:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:06.337029
- Title: MonoArt: Progressive Structural Reasoning for Monocular Articulated 3D Reconstruction
- Title(参考訳): MonoArt: モノクローナル3次元再構成のためのプログレッシブな構造推論
- Authors: Haitian Li, Haozhe Xie, Junxiang Xu, Beichen Wen, Fangzhou Hong, Ziwei Liu,
- Abstract要約: 単一の画像から明瞭な3Dオブジェクトを再構成するには、限られた視覚的証拠からオブジェクト形状、部分構造、運動パラメータを共同で推測する必要がある。
画像特徴から直接調音を予測するのではなく, 視覚的観察を標準幾何学, 構造的部分表現, 動き認識を単一のアーキテクチャに組み込む, 統合されたフレームワークであるMonoArtを提案する。
- 参考スコア(独自算出の注目度): 47.69179070489671
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reconstructing articulated 3D objects from a single image requires jointly inferring object geometry, part structure, and motion parameters from limited visual evidence. A key difficulty lies in the entanglement between motion cues and object structure, which makes direct articulation regression unstable. Existing methods address this challenge through multi-view supervision, retrieval-based assembly, or auxiliary video generation, often sacrificing scalability or efficiency. We present MonoArt, a unified framework grounded in progressive structural reasoning. Rather than predicting articulation directly from image features, MonoArt progressively transforms visual observations into canonical geometry, structured part representations, and motion-aware embeddings within a single architecture. This structured reasoning process enables stable and interpretable articulation inference without external motion templates or multi-stage pipelines. Extensive experiments on PartNet-Mobility demonstrate that OM achieves state-of-the-art performance in both reconstruction accuracy and inference speed. The framework further generalizes to robotic manipulation and articulated scene reconstruction.
- Abstract(参考訳): 単一の画像から明瞭な3Dオブジェクトを再構成するには、限られた視覚的証拠からオブジェクト形状、部分構造、運動パラメータを共同で推測する必要がある。
重要な困難は、運動キューと物体構造との間の絡み合いであり、直接的調音の劣化を不安定にする。
既存の方法は、多視点の監視、検索ベースのアセンブリ、または補助的なビデオ生成を通じて、しばしばスケーラビリティや効率を犠牲にすることで、この問題に対処する。
プログレッシブな構造的推論に基づく統一フレームワークであるMonoArtを提示する。
画像特徴から直接調音を予測するのではなく、MonoArtは、視覚的観察を段階的に標準幾何学、構造化された部分表現、単一のアーキテクチャ内のモーション認識埋め込みに変換する。
この構造化推論プロセスは、外部のモーションテンプレートや多段パイプラインを使わずに、安定かつ解釈可能な調音推論を可能にする。
PartNet-Mobilityの大規模な実験により、OMは再現精度と推論速度の両方で最先端の性能を達成することが示された。
このフレームワークはロボット操作とシーン再構築にさらに一般化する。
関連論文リスト
- ArtLLM: Generating Articulated Assets via 3D LLM [19.814132638278547]
ArtLLMは、完全な3Dメッシュから直接高品質な調音資産を生成するための新しいフレームワークである。
コアとなるのは,大規模な調音データセットに基づいてトレーニングされた,3Dマルチモーダルな大規模言語モデルだ。
実験の結果,ArtLLMは部品配置精度と接合予測の両方で最先端の手法を著しく上回ることがわかった。
論文 参考訳(メタデータ) (2026-03-01T15:07:46Z) - PAct: Part-Decomposed Single-View Articulated Object Generation [45.04652409374895]
アーティキュレートされたオブジェクトは、AI、ロボティクス、VR/ARなど、インタラクティブな3Dアプリケーションの中心である。
明示的な部分認識条件下で部分幾何学, 構成, 調音を合成する, 調音オブジェクト生成のための部分中心生成フレームワークを提案する。
我々の表現は、オブジェクトを可動部品の集合としてモデル化し、それぞれ、部品のアイデンティティと調音の手がかりを付加した潜在トークンで符号化する。
論文 参考訳(メタデータ) (2026-02-16T17:45:44Z) - ArtGen: Conditional Generative Modeling of Articulated Objects in Arbitrary Part-Level States [9.721009445297716]
ArtGenは、正確な幾何学とコヒーレント・キネマティクスを備えた3Dオブジェクトを生成することができる条件付き拡散ベースのフレームワークである。
具体的には、ArtGenはグローバルキネマティック一貫性を明示的に実施するために、クロスステートなMonte Carloサンプリングを使用している。
合成3D-VAE潜伏剤は局所的言語的注意に先行して強化され、微細な幾何学的関係と大域的部分的関係を効果的に捉える。
論文 参考訳(メタデータ) (2025-12-13T17:00:03Z) - VideoArtGS: Building Digital Twins of Articulated Objects from Monocular Video [60.63575135514847]
モノクロビデオから音声化されたオブジェクトのデジタルツインを構築することは、コンピュータビジョンにおいて重要な課題である。
本稿では,モノクロ映像から高忠実度デジタル双対を再構成する新しい手法であるVideoArtGSを紹介する。
VideoArtGSは、調音およびメッシュ再構成における最先端性能を示し、既存の方法に比べて約2桁の再現誤差を低減している。
論文 参考訳(メタデータ) (2025-09-22T11:52:02Z) - PAOLI: Pose-free Articulated Object Learning from Sparse-view Images [27.16160315662701]
本稿では,スパースビュー,アンポーズ画像から明瞭なオブジェクト表現を学習するための新しいフレームワークを提案する。
当社のアプローチは1音節あたり4ビューで運用されており、カメラの監視は行いません。
論文 参考訳(メタデータ) (2025-09-04T14:51:03Z) - GaussianArt: Unified Modeling of Geometry and Motion for Articulated Objects [4.717906057951389]
本稿では,3次元ガウスモデルを用いて幾何学と運動を共同でモデル化する統一表現を提案する。
この定式化により、運動分解の堅牢性が向上し、最大で20個の部分を持つ明瞭な物体をサポートする。
提案手法は, 広範囲な物体の形状復元と動き推定において, 常に優れた精度を達成できることを示す。
論文 参考訳(メタデータ) (2025-08-20T17:59:08Z) - EasyHOI: Unleashing the Power of Large Models for Reconstructing Hand-Object Interactions in the Wild [79.71523320368388]
本研究の目的は,手動物体のインタラクションを単一視点画像から再構築することである。
まず、手ポーズとオブジェクト形状を推定する新しいパイプラインを設計する。
最初の再構築では、事前に誘導された最適化方式を採用する。
論文 参考訳(メタデータ) (2024-11-21T16:33:35Z) - Shape of Motion: 4D Reconstruction from a Single Video [42.42669078777769]
本稿では,世界座標フレーム内の3次元運動軌跡を明示的かつ永続的に特徴付ける,ジェネリックダイナミックシーンの再構築手法を提案する。
まず,コンパクトなSE(3)モーションベースでシーンの動きを表現することで,3次元動作の低次元構造を利用する。
第2に,単眼深度マップや長距離2Dトラックなどの既成データ駆動の先行データを利用して,これらのノイズを効果的に処理する方法を考案する。
論文 参考訳(メタデータ) (2024-07-18T17:59:08Z) - Reconstructing Interactive 3D Scenes by Panoptic Mapping and CAD Model
Alignments [81.38641691636847]
エンボディエージェントの観点から,シーン再構築の問題を再考する。
rgb-dデータストリームを用いてインタラクティブシーンを再構築する。
この再構成されたシーンは、密集したパノプティカルマップのオブジェクトメッシュを、部分ベースのCADモデルに置き換える。
論文 参考訳(メタデータ) (2021-03-30T05:56:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。