論文の概要: Generalizable Articulated Object Reconstruction from Casually Captured RGBD Videos
- arxiv url: http://arxiv.org/abs/2506.08334v1
- Date: Tue, 10 Jun 2025 01:41:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:41.050892
- Title: Generalizable Articulated Object Reconstruction from Casually Captured RGBD Videos
- Title(参考訳): カジュアルキャプチャRGBD画像からの一般化可能なアーティキュレートオブジェクト再構成
- Authors: Weikun Peng, Jun Lv, Cewu Lu, Manolis Savva,
- Abstract要約: 我々は,手持ちカメラで撮影したカジュアルなRGBD映像から,明瞭な物体を復元することに焦点を当てた。
スマートフォンを使って、手動で物体と対話するカジュアルな映像を簡単に取得できる。
動的RGBDビデオからオブジェクトの関節パラメータとセグメントを推定する粗大なフレームワークを提案する。
- 参考スコア(独自算出の注目度): 53.47352228180637
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Articulated objects are prevalent in daily life. Understanding their kinematic structure and reconstructing them have numerous applications in embodied AI and robotics. However, current methods require carefully captured data for training or inference, preventing practical, scalable, and generalizable reconstruction of articulated objects. We focus on reconstruction of an articulated object from a casually captured RGBD video shot with a hand-held camera. A casually captured video of an interaction with an articulated object is easy to acquire at scale using smartphones. However, this setting is quite challenging, as the object and camera move simultaneously and there are significant occlusions as the person interacts with the object. To tackle these challenges, we introduce a coarse-to-fine framework that infers joint parameters and segments movable parts of the object from a dynamic RGBD video. To evaluate our method under this new setting, we build a 20$\times$ larger synthetic dataset of 784 videos containing 284 objects across 11 categories. We compare our approach with existing methods that also take video as input. Experiments show that our method can reconstruct synthetic and real articulated objects across different categories from dynamic RGBD videos, outperforming existing methods significantly.
- Abstract(参考訳): 人工物は日常生活で一般的である。
キネマティック構造を理解して再構築することは、AIやロボット工学に多くの応用がある。
しかし、現在の手法では、訓練や推論のために注意深く収集されたデータが必要であり、実用的でスケーラブルで一般化可能なオブジェクトの再構築を妨げている。
我々は,手持ちカメラで撮影したカジュアルなRGBD映像から,明瞭な物体を復元することに焦点を当てた。
カジュアルにキャプチャーされた、スマートフォンを使って大規模に取得できるオブジェクトとのインタラクションのビデオは、容易に取得できる。
しかし、この設定は、オブジェクトとカメラが同時に動き、人がオブジェクトと対話するときにかなりの閉塞があるため、非常に難しい。
これらの課題に対処するために、動的RGBDビデオからオブジェクトの関節パラメータと可動部分のセグメントを推論する粗大なフレームワークを導入する。
この新しい設定で手法を評価するため、11のカテゴリに284のオブジェクトを含む784本のビデオからなる20$\times$大きな合成データセットを構築した。
我々は,映像を入力とする既存の手法と比較した。
実験により,本手法は動的RGBDビデオと異なるカテゴリの合成および実調音オブジェクトを再構成し,既存の手法を著しく上回ることを示す。
関連論文リスト
- PickScan: Object discovery and reconstruction from handheld interactions [99.99566882133179]
シーンの3次元表現を再構成する対話誘導型クラス依存型手法を開発した。
我々の主な貢献は、操作対象のインタラクションを検出し、操作対象のマスクを抽出する新しいアプローチである。
相互作用ベースとクラス非依存のベースラインであるCo-Fusionと比較すると、これはシャムファー距離の73%の減少に相当する。
論文 参考訳(メタデータ) (2024-11-17T23:09:08Z) - HOLD: Category-agnostic 3D Reconstruction of Interacting Hands and
Objects from Video [70.11702620562889]
HOLD - 単分子インタラクションビデオから手とオブジェクトを共同で再構成する最初のカテゴリーに依存しない方法。
我々は,3次元手と物体を2次元画像から切り離すことができる構成的明瞭な暗黙モデルを開発した。
本手法は,3次元手オブジェクトアノテーションに頼らず,組込みと組込みの両面において,完全教師付きベースラインに優れる。
論文 参考訳(メタデータ) (2023-11-30T10:50:35Z) - Total-Recon: Deformable Scene Reconstruction for Embodied View Synthesis [76.72505510632904]
長い単眼のRGBDビデオから変形可能なシーンを再構成する最初の方法であるTotal-Reconを提案する。
本手法は背景と物体にシーンを階層的に分解し,動作を根体運動と局所的調音に分解する。
論文 参考訳(メタデータ) (2023-04-24T17:59:52Z) - Class-agnostic Reconstruction of Dynamic Objects from Videos [127.41336060616214]
動的オブジェクトをRGBDや校正ビデオから再構成するためのクラスに依存しないフレームワークであるREDOを紹介する。
我々は2つの新しいモジュールを開発し、まず、時間的視覚的手がかりを集約したピクセル整合性を持つ正準4次元暗黙関数を導入する。
第2に、時間的伝播と集約をサポートするためにオブジェクトのダイナミクスをキャプチャする4D変換モジュールを開発する。
論文 参考訳(メタデータ) (2021-12-03T18:57:47Z) - MOLTR: Multiple Object Localisation, Tracking, and Reconstruction from
Monocular RGB Videos [30.541606989348377]
MOLTRはモノクロ画像シーケンスとカメラポーズのみを用いたオブジェクト中心マッピングのソリューションである。
rgbカメラが周囲のビデオをキャプチャすると、複数のオブジェクトをオンライン形式でローカライズし、追跡し、再構築することができる。
屋内および屋外シーンのベンチマークデータセットのローカリゼーション、追跡、および再構築を評価します。
論文 参考訳(メタデータ) (2020-12-09T23:15:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。