論文の概要: SIMART: Decomposing Monolithic Meshes into Sim-ready Articulated Assets via MLLM
- arxiv url: http://arxiv.org/abs/2603.23386v1
- Date: Tue, 24 Mar 2026 16:16:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.580981
- Title: SIMART: Decomposing Monolithic Meshes into Sim-ready Articulated Assets via MLLM
- Title(参考訳): SIMART:モノリシックメッシュをMLLM経由でSim-Ready Articulated Assetに分解する
- Authors: Chuanrui Zhang, Minghan Qin, Yuang Wang, Baifeng Xie, Hang Li, Ziwei Wang,
- Abstract要約: 本稿では,部分レベルの分解と運動予測を共同で行う統合MLLMフレームワークであるSIMARTを提案する。
Sparse 3D VQ-VAEを導入することで、SIMARTは、密度の高いボクセルトークンに対してトークン数を70%削減し、高忠実なマルチパーツアセンブリを可能にする。
- 参考スコア(独自算出の注目度): 14.374484080984423
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-quality articulated 3D assets are indispensable for embodied AI and physical simulation, yet 3D generation still focuses on static meshes, leaving a gap in "sim-ready" interactive objects. Most recent articulated object creation methods rely on multi-stage pipelines that accumulate errors across decoupled modules. Alternatively, unified MLLMs offer a single-stage path to joint static asset understanding and sim-ready asset generation. However dense voxel-based 3D tokenization yields long 3D token sequences and high memory overhead, limiting scalability to complex articulated objects. To address this, we propose SIMART, a unified MLLM framework that jointly performs part-level decomposition and kinematic prediction. By introducing a Sparse 3D VQ-VAE, SIMART reduces token counts by 70% vs. dense voxel tokens, enabling high-fidelity multi-part assemblies. SIMART achieves state-of-the-art performance on PartNet-Mobility and in-the-wild AIGC datasets, and enables physics-based robotic simulation.
- Abstract(参考訳): 高品質な3Dアセットは、AIの具体化と物理シミュレーションには不可欠だが、3D生成は静的メッシュに焦点を当てており、"sim-ready"インタラクティブオブジェクトのギャップを残している。
最近では、分離されたモジュール間でエラーを蓄積するマルチステージパイプラインに依存している。
あるいは、統合MLLMは、ジョイント静的アセット理解とsim-readyアセット生成へのシングルステージパスを提供する。
しかし、密度の高いボクセルベースの3Dトークン化は、長い3Dトークンシーケンスと高いメモリオーバーヘッドをもたらし、複雑な調音オブジェクトにスケーラビリティを制限している。
そこで本研究では,部分レベルの分解と運動予測を共同で行う統合MLLMフレームワークであるSIMARTを提案する。
Sparse 3D VQ-VAEを導入することで、SIMARTは、密度の高いボクセルトークンに対してトークン数を70%削減し、高忠実なマルチパーツアセンブリを可能にする。
SIMARTはPartNet-MobilityとIn-the-wild AIGCデータセット上での最先端のパフォーマンスを実現し、物理ベースのロボットシミュレーションを可能にする。
関連論文リスト
- MotionAnymesh: Physics-Grounded Articulation for Simulation-Ready Digital Twins [25.25391483526521]
MotionAnymeshは、非構造化の静的メッシュをシミュレーション可能なデジタルツインにシームレスに変換するフレームワークである。
提案手法は, VLM推論をSP4D物理先行値で根拠とした運動認識部分分割モジュールを特徴とする。
論文 参考訳(メタデータ) (2026-03-13T12:30:42Z) - ArtLLM: Generating Articulated Assets via 3D LLM [19.814132638278547]
ArtLLMは、完全な3Dメッシュから直接高品質な調音資産を生成するための新しいフレームワークである。
コアとなるのは,大規模な調音データセットに基づいてトレーニングされた,3Dマルチモーダルな大規模言語モデルだ。
実験の結果,ArtLLMは部品配置精度と接合予測の両方で最先端の手法を著しく上回ることがわかった。
論文 参考訳(メタデータ) (2026-03-01T15:07:46Z) - Articulated 3D Scene Graphs for Open-World Mobile Manipulation [55.97942733699124]
本報告では, セマンティックな3次元シーングラフを構築するためのフレームワークであるMoMa-SGについて述べる。
新たな統合的ツイスト推定法を用いて調音モデルを推定する。
また,Arti4D-Semanticデータセットについても紹介する。
論文 参考訳(メタデータ) (2026-02-18T10:40:35Z) - Particulate: Feed-Forward 3D Object Articulation [89.78788418174946]
Particulateは、毎日のオブジェクトの1つの静的3Dメッシュが与えられたフィードフォワードアプローチであり、基盤となる関節構造のすべての属性を直接推論する。
私たちは、公開データセットから多種多様な3Dアセットの集合に基づいて、ネットワークのエンドツーエンドをトレーニングします。
推論中、Particulateはネットワークのフィードフォワード予測を入力メッシュに持ち上げ、完全に調音された3Dモデルを数秒で生成する。
論文 参考訳(メタデータ) (2025-12-12T18:59:51Z) - ArtiWorld: LLM-Driven Articulation of 3D Objects in Scenes [43.19849355456126]
ArtiWorldは、テキストシーン記述から候補のアーティキュラブルオブジェクトをローカライズする、シーン認識パイプラインである。
このパイプラインのコアとなるArti4URDFは、3Dポイントクラウドと大規模言語モデルの事前知識を活用している。
ArtiWorldを3つのレベル(3Dシミュレーションオブジェクト、フル3Dシミュレーションシーン、実世界のスキャンシーン)で評価する。
論文 参考訳(メタデータ) (2025-11-17T04:59:21Z) - URDF-Anything: Constructing Articulated Objects with 3D Multimodal Language Model [76.08429266631823]
3次元マルチモーダル大言語モデル(MLLM)に基づくエンドツーエンドの自動再構築フレームワークを提案する。
URDF-Anythingは、ポイントクラウドとテキストマルチモーダル入力に基づく自己回帰予測フレームワークを使用して、幾何学的セグメンテーションと運動論的パラメータ予測を協調的に最適化する。
シミュレーションと実世界の両方のデータセットの実験は、我々の手法が既存の手法よりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2025-11-02T13:45:51Z) - Agentic 3D Scene Generation with Spatially Contextualized VLMs [67.31920821192323]
本稿では,複雑な3D環境の生成,理解,編集を可能にする新しいパラダイムを提案する。
我々は,VLMが空間コンテキストから反復的に読み取って更新するエージェント型3Dシーン生成パイプラインを開発した。
その結果,我々のフレームワークは多様かつ困難な入力を処理でき,事前の作業では観測できないような一般化のレベルを達成することができることがわかった。
論文 参考訳(メタデータ) (2025-05-26T15:28:17Z) - IAAO: Interactive Affordance Learning for Articulated Objects in 3D Environments [56.85804719947]
IAAOは知的エージェントのための明示的な3Dモデルを構築するフレームワークで,対話を通して環境内の明瞭な物体の理解を得る。
マスク特徴とビュー一貫性ラベルを多視点画像から抽出し,まず3次元ガウススティング(3DGS)を用いて各オブジェクト状態の階層的特徴とラベルフィールドを構築する。
次に、3Dガウスプリミティブ上でオブジェクトと部分レベルのクエリを実行し、静的および明瞭な要素を識別し、大域的な変換と局所的な調音パラメータをアベイランスとともに推定する。
論文 参考訳(メタデータ) (2025-04-09T12:36:48Z) - Efficient Physics Simulation for 3D Scenes via MLLM-Guided Gaussian Splatting [32.846428862045634]
Sim Anythingは、静的な3Dオブジェクトにインタラクティブなダイナミクスを与える物理ベースのアプローチである。
人間の視覚的推論に触発されて,MLLMに基づく物理特性知覚を提案する。
また、物理幾何学的適応サンプリングを用いて粒子をサンプリングして、オープンワールドシーンでオブジェクトをシミュレートする。
論文 参考訳(メタデータ) (2024-11-19T12:52:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。