論文の概要: ArtGen: Conditional Generative Modeling of Articulated Objects in Arbitrary Part-Level States
- arxiv url: http://arxiv.org/abs/2512.12395v1
- Date: Sat, 13 Dec 2025 17:00:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.244986
- Title: ArtGen: Conditional Generative Modeling of Articulated Objects in Arbitrary Part-Level States
- Title(参考訳): ArtGen: 任意部分レベル状態におけるArticulated Objectの条件付き生成モデル
- Authors: Haowen Wang, Xiaoping Yuan, Fugang Zhang, Rui Jian, Yuanwei Zhu, Xiuquan Qiao, Yakun Huang,
- Abstract要約: ArtGenは、正確な幾何学とコヒーレント・キネマティクスを備えた3Dオブジェクトを生成することができる条件付き拡散ベースのフレームワークである。
具体的には、ArtGenはグローバルキネマティック一貫性を明示的に実施するために、クロスステートなMonte Carloサンプリングを使用している。
合成3D-VAE潜伏剤は局所的言語的注意に先行して強化され、微細な幾何学的関係と大域的部分的関係を効果的に捉える。
- 参考スコア(独自算出の注目度): 9.721009445297716
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating articulated assets is crucial for robotics, digital twins, and embodied intelligence. Existing generative models often rely on single-view inputs representing closed states, resulting in ambiguous or unrealistic kinematic structures due to the entanglement between geometric shape and joint dynamics. To address these challenges, we introduce ArtGen, a conditional diffusion-based framework capable of generating articulated 3D objects with accurate geometry and coherent kinematics from single-view images or text descriptions at arbitrary part-level states. Specifically, ArtGen employs cross-state Monte Carlo sampling to explicitly enforce global kinematic consistency, reducing structural-motion entanglement. Additionally, we integrate a Chain-of-Thought reasoning module to infer robust structural priors, such as part semantics, joint types, and connectivity, guiding a sparse-expert Diffusion Transformer to specialize in diverse kinematic interactions. Furthermore, a compositional 3D-VAE latent prior enhanced with local-global attention effectively captures fine-grained geometry and global part-level relationships. Extensive experiments on the PartNet-Mobility benchmark demonstrate that ArtGen significantly outperforms state-of-the-art methods.
- Abstract(参考訳): ロボット工学、デジタル双生児、エンボディドインテリジェンスにとって、調音資産の生成は不可欠である。
既存の生成モデルは、しばしば閉状態を表す単一ビュー入力に依存し、幾何学的形状と関節力学の絡み合いにより曖昧または非現実的なキネマティック構造をもたらす。
これらの課題に対処するため、ArtGenは、任意の部分レベル状態の単一ビュー画像やテキスト記述から正確な幾何学的およびコヒーレントなキネマティクスを持つ3Dオブジェクトを記述可能な条件拡散ベースのフレームワークである。
具体的には、ArtGenはクロスステートなモンテカルロサンプリングを使用して、グローバルなキネマティック一貫性を明示的に実施し、構造運動の絡み合いを低減している。
さらに、Chain-of-Thought推論モジュールを統合して、パートセマンティクス、ジョイントタイプ、接続といった頑健な構造的事前を推論し、スパースエキスパート拡散変換器を誘導し、多様なキネマティックな相互作用を専門化する。
さらに,3D-VAE潜伏剤は局所的言語的注意に先行して強化され,微細な幾何や大域的部分レベルの関係を効果的に捉えることができる。
PartNet-Mobilityベンチマークの大規模な実験では、ArtGenが最先端のメソッドを大幅に上回っていることが示されている。
関連論文リスト
- GeoDiT: A Diffusion-based Vision-Language Model for Geospatial Understanding [14.436063587920005]
地理空間領域に適した初めての拡散型視覚言語モデルであるGeoDiTを紹介する。
画像キャプション、視覚的接地、多物体検出において大きな進歩を遂げる。
本研究は, 複雑な地理空間解析において, 生成過程とデータ固有の構造との整合性が, 優れた性能の鍵となることを検証する。
論文 参考訳(メタデータ) (2025-12-02T07:59:46Z) - UniArt: Unified 3D Representation for Generating 3D Articulated Objects with Open-Set Articulation [14.687459506970301]
UniArtは、完全な3Dオブジェクトをエンドツーエンドで単一の画像から合成する拡散ベースのフレームワークである。
本稿では,音節特徴と体積幾何学を空間的に整合させる可逆な接合-ボクセル埋め込みを提案する。
PartNet-Mobilityベンチマークの実験は、UniArtが最先端のメッシュ品質と調音精度を達成することを示した。
論文 参考訳(メタデータ) (2025-11-26T20:09:11Z) - ArtiLatent: Realistic Articulated 3D Object Generation via Structured Latents [31.495577251319315]
ArtiLatentは、人間の作った3Dオブジェクトを精密な幾何学、正確な調音、リアルな外観で合成する生成フレームワークである。
論文 参考訳(メタデータ) (2025-10-24T13:08:15Z) - Hierarchical Neural Semantic Representation for 3D Semantic Correspondence [72.8101601086805]
階層型ニューラルセマンティック表現(HNSR)を設計し,高次構造と多分解能局所幾何学的特徴を捉える。
第2に,グローバルなセマンティック特徴を用いた粗いセマンティック対応を確立する,プログレッシブなグローバル-ローカルマッチング戦略を設計する。
第3に,本フレームワークはトレーニングフリーで,様々なトレーニング済みの3D生成バックボーンと広範囲に互換性があり,多様な形状カテゴリにまたがる強力な一般化が示されている。
論文 参考訳(メタデータ) (2025-09-22T07:23:07Z) - GaussianArt: Unified Modeling of Geometry and Motion for Articulated Objects [4.717906057951389]
本稿では,3次元ガウスモデルを用いて幾何学と運動を共同でモデル化する統一表現を提案する。
この定式化により、運動分解の堅牢性が向上し、最大で20個の部分を持つ明瞭な物体をサポートする。
提案手法は, 広範囲な物体の形状復元と動き推定において, 常に優れた精度を達成できることを示す。
論文 参考訳(メタデータ) (2025-08-20T17:59:08Z) - Self-Supervised Multi-Part Articulated Objects Modeling via Deformable Gaussian Splatting and Progressive Primitive Segmentation [23.18517560629462]
DeGSSは,物体を変形可能な3次元ガウス場として符号化し,幾何学,外観,動きを1つのコンパクト表現に埋め込む統一フレームワークである。
一般化とリアリズムを評価するために、合成PartNet-Mobilityベンチマークを拡張し、RGBキャプチャと正確にリバースエンジニアリングされた3Dモデルを組み合わせたリアル・トゥ・シムデータセットRS-Artをリリースする。
論文 参考訳(メタデータ) (2025-06-11T12:32:16Z) - DIPO: Dual-State Images Controlled Articulated Object Generation Powered by Diverse Data [67.99373622902827]
DIPOは、一対のイメージから調音された3Dオブジェクトを制御可能な生成するためのフレームワークである。
本稿では,イメージペア間の関係を捉え,部分配置と関節パラメータを生成するデュアルイメージ拡散モデルを提案する。
複雑な3Dオブジェクトの大規模データセットであるPM-Xについて,レンダリング画像,URDFアノテーション,テキスト記述を伴って提案する。
論文 参考訳(メタデータ) (2025-05-26T18:55:14Z) - ArtGS: Building Interactable Replicas of Complex Articulated Objects via Gaussian Splatting [66.29782808719301]
コンピュータビジョンにおいて、音声で表現されたオブジェクトを構築することが重要な課題である。
既存のメソッドは、しばしば異なるオブジェクト状態間で効果的に情報を統合できない。
3次元ガウスを柔軟かつ効率的な表現として活用する新しいアプローチであるArtGSを紹介する。
論文 参考訳(メタデータ) (2025-02-26T10:25:32Z) - REACTO: Reconstructing Articulated Objects from a Single Video [64.89760223391573]
関節の柔軟な変形を維持しつつ各部の剛性を向上する新しい変形モデルを提案する。
提案手法は, 従来よりも高忠実度な3D再構成を実現する上で, 従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-04-17T08:01:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。