論文の概要: ART: Articulated Reconstruction Transformer
- arxiv url: http://arxiv.org/abs/2512.14671v1
- Date: Tue, 16 Dec 2025 18:35:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.834048
- Title: ART: Articulated Reconstruction Transformer
- Title(参考訳): ART:Articulated Reconstruction Transformer
- Authors: Zizhang Li, Cheng Zhang, Zhengqin Li, Henry Howard-Jenkins, Zhaoyang Lv, Chen Geng, Jiajun Wu, Richard Newcombe, Jakob Engel, Zhao Dong,
- Abstract要約: 本稿では,低解像度の多状態RGB画像のみから完全な3D音声オブジェクトを再構成する,カテゴリに依存しないフィードフォワードモデルARTを紹介する。
新たに設計されたトランスフォーマーアーキテクチャは、スパース画像入力を学習可能な部分スロットの集合にマッピングし、ARTは個々の部分の統一表現を共同でデコードする。
- 参考スコア(独自算出の注目度): 22.27508161142687
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce ART, Articulated Reconstruction Transformer -- a category-agnostic, feed-forward model that reconstructs complete 3D articulated objects from only sparse, multi-state RGB images. Previous methods for articulated object reconstruction either rely on slow optimization with fragile cross-state correspondences or use feed-forward models limited to specific object categories. In contrast, ART treats articulated objects as assemblies of rigid parts, formulating reconstruction as part-based prediction. Our newly designed transformer architecture maps sparse image inputs to a set of learnable part slots, from which ART jointly decodes unified representations for individual parts, including their 3D geometry, texture, and explicit articulation parameters. The resulting reconstructions are physically interpretable and readily exportable for simulation. Trained on a large-scale, diverse dataset with per-part supervision, and evaluated across diverse benchmarks, ART achieves significant improvements over existing baselines and establishes a new state of the art for articulated object reconstruction from image inputs.
- Abstract(参考訳): 我々はART, Articulated Reconstruction Transformerを紹介した。これはカテゴリに依存しないフィードフォワードモデルで、スパースでマルチステートなRGB画像のみから完全な3D音声オブジェクトを再構成する。
従来は、脆弱なクロスステート対応による遅い最適化に頼っていたり、特定の対象カテゴリに限定されたフィードフォワードモデルを使用したりしていた。
対照的にARTは、調音された物体を剛体の集合体として扱い、再構成を部分ベースの予測として定式化する。
新たに設計されたトランスフォーマーアーキテクチャは、スパース画像入力を学習可能な部分スロットの集合にマッピングし、ARTはそれらの3次元幾何学、テクスチャ、明示的な記述パラメータを含む個々の部分の統一表現を共同でデコードする。
結果として得られた再構成は物理的に解釈可能であり、シミュレーションのために容易にエクスポートできる。
ARTは、部分ごとの監視を備えた大規模で多様なデータセットに基づいてトレーニングされ、さまざまなベンチマークで評価され、既存のベースラインよりも大幅に改善され、画像入力からオブジェクトを自動再構築するための新たな最先端技術を確立している。
関連論文リスト
- LARM: A Large Articulated-Object Reconstruction Model [29.66486888001511]
LARMは、スパースビュー画像から3Dの明瞭なオブジェクトを再構成する統合フィードフォワードフレームワークである。
LARMは、ディープマップやパートマスクなどの補助出力を生成し、明示的な3Dメッシュ抽出と関節推定を容易にする。
我々のパイプラインは、密集した監視の必要性を排除し、多様な対象カテゴリにわたる高忠実度再構築をサポートする。
論文 参考訳(メタデータ) (2025-11-14T18:55:27Z) - KineDiff3D: Kinematic-Aware Diffusion for Category-Level Articulated Object Shape Reconstruction and Generation [28.822034731724013]
ノートパソコンや引き出しなどのアーティキュレートオブジェクトは、3D再構成とポーズ推定において重要な課題を示す。
そこで我々は, KineDiff3D: Kinematic-Aware Diffusion for Category-Level Articulated Object Shape Reconstruction and Generationを提案する。
論文 参考訳(メタデータ) (2025-10-20T04:15:40Z) - Detection Based Part-level Articulated Object Reconstruction from Single RGBD Image [52.11275397911693]
本稿では,1枚のRGBD画像から複数の人工関節オブジェクトを再構成する,エンドツーエンドで訓練可能なクロスカテゴリ手法を提案する。
私たちは、あらかじめ定義された部分数で人工的なオブジェクトに焦点をあて、インスタンスレベルの潜在空間を学習することに依存する以前の作業から離れています。
提案手法は, 従来の作業では処理できない様々な構成された複数インスタンスの再構築に成功し, 形状再構成や運動学推定において, 先行の作業よりも優れていた。
論文 参考訳(メタデータ) (2025-04-04T05:08:04Z) - ArtGS: Building Interactable Replicas of Complex Articulated Objects via Gaussian Splatting [66.29782808719301]
コンピュータビジョンにおいて、音声で表現されたオブジェクトを構築することが重要な課題である。
既存のメソッドは、しばしば異なるオブジェクト状態間で効果的に情報を統合できない。
3次元ガウスを柔軟かつ効率的な表現として活用する新しいアプローチであるArtGSを紹介する。
論文 参考訳(メタデータ) (2025-02-26T10:25:32Z) - Part123: Part-aware 3D Reconstruction from a Single-view Image [54.589723979757515]
Part123は、一視点画像から部分認識された3D再構成のための新しいフレームワークである。
ニューラルレンダリングフレームワークにコントラスト学習を導入し、部分認識機能空間を学習する。
クラスタリングに基づくアルゴリズムも開発され、再構成されたモデルから3次元部分分割結果を自動的に導出する。
論文 参考訳(メタデータ) (2024-05-27T07:10:21Z) - LegoFormer: Transformers for Block-by-Block Multi-view 3D Reconstruction [45.16128577837725]
現代のディープラーニングベースの多視点3D再構成技術のほとんどは、RNNまたは融合モジュールを使用して、エンコード後の複数の画像からの情報を組み合わせている。
我々は, 1 つのフレームワークでオブジェクト再構成を統一し, その分解因子によって再構成された占有グリッドをパラメータ化する, トランスフォーマーベースのモデルである LegoFormer を提案する。
論文 参考訳(メタデータ) (2021-06-23T00:15:08Z) - Reconstructing Interactive 3D Scenes by Panoptic Mapping and CAD Model
Alignments [81.38641691636847]
エンボディエージェントの観点から,シーン再構築の問題を再考する。
rgb-dデータストリームを用いてインタラクティブシーンを再構築する。
この再構成されたシーンは、密集したパノプティカルマップのオブジェクトメッシュを、部分ベースのCADモデルに置き換える。
論文 参考訳(メタデータ) (2021-03-30T05:56:58Z) - Monocular Human Pose and Shape Reconstruction using Part Differentiable
Rendering [53.16864661460889]
近年の研究では、3次元基底真理によって教師されるディープニューラルネットワークを介してパラメトリックモデルを直接推定する回帰に基づく手法が成功している。
本稿では,ボディセグメンテーションを重要な監視対象として紹介する。
部分分割による再構成を改善するために,部分分割により部分ベースモデルを制御可能な部分レベル微分可能部を提案する。
論文 参考訳(メタデータ) (2020-03-24T14:25:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。