論文の概要: LARM: A Large Articulated-Object Reconstruction Model
- arxiv url: http://arxiv.org/abs/2511.11563v1
- Date: Fri, 14 Nov 2025 18:55:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.766597
- Title: LARM: A Large Articulated-Object Reconstruction Model
- Title(参考訳): LARM: 大規模人工物体再構成モデル
- Authors: Sylvia Yuan, Ruoxi Shi, Xinyue Wei, Xiaoshuai Zhang, Hao Su, Minghua Liu,
- Abstract要約: LARMは、スパースビュー画像から3Dの明瞭なオブジェクトを再構成する統合フィードフォワードフレームワークである。
LARMは、ディープマップやパートマスクなどの補助出力を生成し、明示的な3Dメッシュ抽出と関節推定を容易にする。
我々のパイプラインは、密集した監視の必要性を排除し、多様な対象カテゴリにわたる高忠実度再構築をサポートする。
- 参考スコア(独自算出の注目度): 29.66486888001511
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modeling 3D articulated objects with realistic geometry, textures, and kinematics is essential for a wide range of applications. However, existing optimization-based reconstruction methods often require dense multi-view inputs and expensive per-instance optimization, limiting their scalability. Recent feedforward approaches offer faster alternatives but frequently produce coarse geometry, lack texture reconstruction, and rely on brittle, complex multi-stage pipelines. We introduce LARM, a unified feedforward framework that reconstructs 3D articulated objects from sparse-view images by jointly recovering detailed geometry, realistic textures, and accurate joint structures. LARM extends LVSM a recent novel view synthesis (NVS) approach for static 3D objects into the articulated setting by jointly reasoning over camera pose and articulation variation using a transformer-based architecture, enabling scalable and accurate novel view synthesis. In addition, LARM generates auxiliary outputs such as depth maps and part masks to facilitate explicit 3D mesh extraction and joint estimation. Our pipeline eliminates the need for dense supervision and supports high-fidelity reconstruction across diverse object categories. Extensive experiments demonstrate that LARM outperforms state-of-the-art methods in both novel view and state synthesis as well as 3D articulated object reconstruction, generating high-quality meshes that closely adhere to the input images. project page: https://sylviayuan-sy.github.io/larm-site/
- Abstract(参考訳): 現実的な幾何学、テクスチャ、キネマティクスを備えた3次元関節オブジェクトのモデリングは、幅広い応用に不可欠である。
しかし、既存の最適化に基づく再構築手法では、高密度なマルチビュー入力と高価なインスタンスごとの最適化が必要で、スケーラビリティが制限されることが多い。
最近のフィードフォワードアプローチは、より高速な代替手段を提供するが、しばしば粗い幾何学を生み出し、テクスチャの再構築が欠如し、脆く複雑なマルチステージパイプラインに依存している。
詳細な幾何学, 現実的なテクスチャ, 正確な関節構造を共同で復元することにより, スパースビュー画像から3次元明瞭な物体を再構成する統合フィードフォワードフレームワークであるLSMを導入する。
LARMは、静的な3Dオブジェクトに対する最近の新しいビュー合成(NVS)アプローチであるLVSMを拡張し、トランスフォーマーベースのアーキテクチャを用いて、カメラポーズと調音変化を共同で推論することで、スケーラブルで正確な新規ビュー合成を可能にする。
さらに, 深度マップや部分マスクなどの補助出力を生成し, 明示的な3次元メッシュ抽出と共同推定を容易にする。
我々のパイプラインは、密集した監視の必要性を排除し、多様な対象カテゴリにわたる高忠実度再構築をサポートする。
広汎な実験により、LARMは、新しいビューと状態合成の両方において最先端の手法と、3次元の明瞭なオブジェクト再構成を上回り、入力画像に密着した高品質なメッシュを生成する。
プロジェクトページ:https://sylviayuan-sy.github.io/larm-site/
関連論文リスト
- ReconViaGen: Towards Accurate Multi-view 3D Object Reconstruction via Generation [28.308731720451053]
我々はReconViaGenを提案する。
我々のReconViaGenは、グローバルな構造と局所的な詳細の両方において、入力ビューと整合した完全かつ正確な3Dモデルを再構築できることを実証した。
論文 参考訳(メタデータ) (2025-10-27T13:15:06Z) - DGS-LRM: Real-Time Deformable 3D Gaussian Reconstruction From Monocular Videos [52.46386528202226]
Deformable Gaussian Splats Large Reconstruction Model (DGS-LRM)を紹介する。
動的シーンのモノクロポーズビデオから変形可能な3Dガウススプラットを予測する最初のフィードフォワード法である。
最先端のモノクロビデオ3D追跡手法と同等の性能を発揮する。
論文 参考訳(メタデータ) (2025-06-11T17:59:58Z) - Object-X: Learning to Reconstruct Multi-Modal 3D Object Representations [114.57192386025373]
Object-Xは多目的なマルチモーダル3D表現フレームワークである。
リッチなオブジェクトの埋め込みをエンコードして、幾何学的および視覚的再構成に復号することができる。
シーンアライメント、シングルイメージの3Dオブジェクト再構成、ローカライゼーションなど、さまざまなダウンストリームタスクをサポートする。
論文 参考訳(メタデータ) (2025-06-05T09:14:42Z) - GTR: Gaussian Splatting Tracking and Reconstruction of Unknown Objects Based on Appearance and Geometric Complexity [49.31257173003408]
モノクローナルRGBDビデオからの6-DoFオブジェクト追跡と高品質な3D再構成のための新しい手法を提案する。
提案手法は, 高忠実度オブジェクトメッシュを復元する強力な能力を示し, オープンワールド環境における単一センサ3D再構成のための新しい標準を策定する。
論文 参考訳(メタデータ) (2025-05-17T08:46:29Z) - LIRM: Large Inverse Rendering Model for Progressive Reconstruction of Shape, Materials and View-dependent Radiance Fields [23.174562444342286]
本稿では,高品質な形状,材料,放射界を共同で再構成するトランスフォーマーアーキテクチャであるLarge Inverse Rendering Model(LIRM)を提案する。
我々のモデルは、現在最先端のスパース・ビュー・リコンストラクション品質を実現する、最近の大規模リコンストラクション・モデル(LRM)に基づいて構築されている。
論文 参考訳(メタデータ) (2025-04-28T17:48:58Z) - High-fidelity 3D GAN Inversion by Pseudo-multi-view Optimization [51.878078860524795]
フォトリアリスティック・ノベルビューを合成可能な高忠実度3次元生成対向ネットワーク(GAN)インバージョン・フレームワークを提案する。
提案手法は,1枚の画像から高忠実度3Dレンダリングを可能にし,AI生成3Dコンテンツの様々な応用に期待できる。
論文 参考訳(メタデータ) (2022-11-28T18:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。