論文の概要: SPARK: Sim-ready Part-level Articulated Reconstruction with VLM Knowledge
- arxiv url: http://arxiv.org/abs/2512.01629v1
- Date: Mon, 01 Dec 2025 12:51:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.852855
- Title: SPARK: Sim-ready Part-level Articulated Reconstruction with VLM Knowledge
- Title(参考訳): SPARK: VLM知識によるパートレベル調音再構成
- Authors: Yumeng He, Ying Jiang, Jiayin Lu, Yin Yang, Chenfanfu Jiang,
- Abstract要約: アーティキュレートされた3Dオブジェクトは、AI、ロボティクス、インタラクティブなシーン理解に不可欠である。
SPARKは1枚のRGB画像から物理的に一貫した運動的部分レベルの調音オブジェクトを再構成するフレームワークである。
- 参考スコア(独自算出の注目度): 22.64986854574998
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Articulated 3D objects are critical for embodied AI, robotics, and interactive scene understanding, yet creating simulation-ready assets remains labor-intensive and requires expert modeling of part hierarchies and motion structures. We introduce SPARK, a framework for reconstructing physically consistent, kinematic part-level articulated objects from a single RGB image. Given an input image, we first leverage VLMs to extract coarse URDF parameters and generate part-level reference images. We then integrate the part-image guidance and the inferred structure graph into a generative diffusion transformer to synthesize consistent part and complete shapes of articulated objects. To further refine the URDF parameters, we incorporate differentiable forward kinematics and differentiable rendering to optimize joint types, axes, and origins under VLM-generated open-state supervision. Extensive experiments show that SPARK produces high-quality, simulation-ready articulated assets across diverse categories, enabling downstream applications such as robotic manipulation and interaction modeling.
- Abstract(参考訳): 人工的な3Dオブジェクトは、AI、ロボティクス、インタラクティブなシーン理解に欠かせないが、シミュレーション可能なアセットの作成は労働集約的であり、部分階層とモーション構造を専門的にモデル化する必要がある。
SPARKは1枚のRGB画像から物理的に一貫した運動的部分レベルの調音オブジェクトを再構成するフレームワークである。
入力画像が与えられた場合、まずVLMを利用して粗いURDFパラメータを抽出し、部分レベルの参照画像を生成する。
次に、部分像誘導と推定構造グラフを生成拡散変換器に統合し、調音対象の整合部分と完全形状を合成する。
URDFパラメータをさらに洗練するために、VLM生成したオープンステート監視の下で、関節の種類、軸、起源を最適化するために、微分可能前方運動学と微分可能レンダリングを取り入れた。
大規模な実験により、SPARKは様々なカテゴリーにまたがって高品質でシミュレーション可能な音響資産を生産し、ロボット操作や相互作用モデリングといった下流の応用を可能にした。
関連論文リスト
- LARM: A Large Articulated-Object Reconstruction Model [29.66486888001511]
LARMは、スパースビュー画像から3Dの明瞭なオブジェクトを再構成する統合フィードフォワードフレームワークである。
LARMは、ディープマップやパートマスクなどの補助出力を生成し、明示的な3Dメッシュ抽出と関節推定を容易にする。
我々のパイプラインは、密集した監視の必要性を排除し、多様な対象カテゴリにわたる高忠実度再構築をサポートする。
論文 参考訳(メタデータ) (2025-11-14T18:55:27Z) - Kinematify: Open-Vocabulary Synthesis of High-DoF Articulated Objects [59.51185639557874]
本稿では,任意のRGB画像やテキスト記述から直接音声オブジェクトを合成するフレームワークであるKinematifyを紹介する。
提案手法は, 高DoFオブジェクトに対する運動的トポロジの推測と静的幾何からの関節パラメータの推定という2つの課題に対処する。
論文 参考訳(メタデータ) (2025-11-03T07:21:42Z) - URDF-Anything: Constructing Articulated Objects with 3D Multimodal Language Model [76.08429266631823]
3次元マルチモーダル大言語モデル(MLLM)に基づくエンドツーエンドの自動再構築フレームワークを提案する。
URDF-Anythingは、ポイントクラウドとテキストマルチモーダル入力に基づく自己回帰予測フレームワークを使用して、幾何学的セグメンテーションと運動論的パラメータ予測を協調的に最適化する。
シミュレーションと実世界の両方のデータセットの実験は、我々の手法が既存の手法よりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2025-11-02T13:45:51Z) - KineDiff3D: Kinematic-Aware Diffusion for Category-Level Articulated Object Shape Reconstruction and Generation [28.822034731724013]
ノートパソコンや引き出しなどのアーティキュレートオブジェクトは、3D再構成とポーズ推定において重要な課題を示す。
そこで我々は, KineDiff3D: Kinematic-Aware Diffusion for Category-Level Articulated Object Shape Reconstruction and Generationを提案する。
論文 参考訳(メタデータ) (2025-10-20T04:15:40Z) - IAAO: Interactive Affordance Learning for Articulated Objects in 3D Environments [56.85804719947]
IAAOは知的エージェントのための明示的な3Dモデルを構築するフレームワークで,対話を通して環境内の明瞭な物体の理解を得る。
マスク特徴とビュー一貫性ラベルを多視点画像から抽出し,まず3次元ガウススティング(3DGS)を用いて各オブジェクト状態の階層的特徴とラベルフィールドを構築する。
次に、3Dガウスプリミティブ上でオブジェクトと部分レベルのクエリを実行し、静的および明瞭な要素を識別し、大域的な変換と局所的な調音パラメータをアベイランスとともに推定する。
論文 参考訳(メタデータ) (2025-04-09T12:36:48Z) - ArtGS: Building Interactable Replicas of Complex Articulated Objects via Gaussian Splatting [66.29782808719301]
コンピュータビジョンにおいて、音声で表現されたオブジェクトを構築することが重要な課題である。
既存のメソッドは、しばしば異なるオブジェクト状態間で効果的に情報を統合できない。
3次元ガウスを柔軟かつ効率的な表現として活用する新しいアプローチであるArtGSを紹介する。
論文 参考訳(メタデータ) (2025-02-26T10:25:32Z) - CAST: Component-Aligned 3D Scene Reconstruction from an RGB Image [44.8172828045897]
現在のメソッドはドメイン固有の制限や低品質のオブジェクト生成に悩まされることが多い。
本稿では,3次元シーンの復元と復元のための新しい手法であるCASTを提案する。
論文 参考訳(メタデータ) (2025-02-18T14:29:52Z) - Reconstructing Interactive 3D Scenes by Panoptic Mapping and CAD Model
Alignments [81.38641691636847]
エンボディエージェントの観点から,シーン再構築の問題を再考する。
rgb-dデータストリームを用いてインタラクティブシーンを再構築する。
この再構成されたシーンは、密集したパノプティカルマップのオブジェクトメッシュを、部分ベースのCADモデルに置き換える。
論文 参考訳(メタデータ) (2021-03-30T05:56:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。