論文の概要: iTACO: Interactable Digital Twins of Articulated Objects from Casually Captured RGBD Videos
- arxiv url: http://arxiv.org/abs/2506.08334v2
- Date: Thu, 25 Sep 2025 21:24:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 14:23:57.437436
- Title: iTACO: Interactable Digital Twins of Articulated Objects from Casually Captured RGBD Videos
- Title(参考訳): iTACO:RGBDビデオから被写体を再現可能なデジタル双眼鏡
- Authors: Weikun Peng, Jun Lv, Cewu Lu, Manolis Savva,
- Abstract要約: 本研究では,手持ちカメラで撮影したカジュアルなRGBD映像から,物体の動作解析と部分レベルセグメンテーションに焦点を当てた。
スマートフォンを用いて手軽に手軽に手軽に手軽に手に入ることができる。
動的RGBDビデオからオブジェクトの関節パラメータとセグメントを推論する粗粒度フレームワークiTACOを紹介する。
- 参考スコア(独自算出の注目度): 52.398752421673144
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Articulated objects are prevalent in daily life. Interactable digital twins of such objects have numerous applications in embodied AI and robotics. Unfortunately, current methods to digitize articulated real-world objects require carefully captured data, preventing practical, scalable, and generalizable acquisition. We focus on motion analysis and part-level segmentation of an articulated object from a casually captured RGBD video shot with a hand-held camera. A casually captured video of an interaction with an articulated object is easy to obtain at scale using smartphones. However, this setting is challenging due to simultaneous object and camera motion and significant occlusions as the person interacts with the object. To tackle these challenges, we introduce iTACO: a coarse-to-fine framework that infers joint parameters and segments movable parts of the object from a dynamic RGBD video. To evaluate our method under this new setting, we build a dataset of 784 videos containing 284 objects across 11 categories that is 20$\times$ larger than available in prior work. We then compare our approach with existing methods that also take video as input. Our experiments show that iTACO outperforms existing articulated object digital twin methods on both synthetic and real casually captured RGBD videos.
- Abstract(参考訳): 人工物は日常生活で一般的である。
そのような物体の相互作用可能なデジタルツインは、具現化されたAIやロボット工学に多くの応用がある。
残念ながら、実世界のオブジェクトをデジタル化する現在の方法は、注意深くキャプチャされたデータを必要とし、実用的でスケーラブルで一般化可能な取得を防止する。
本研究では,手持ちカメラで撮影したカジュアルなRGBD映像から,物体の動作解析と部分レベルセグメンテーションに焦点を当てた。
スマートフォンを用いて手軽に手軽に手軽に手軽に手に入ることができる。
しかし、この設定は、オブジェクトとカメラが同時に動き、人がオブジェクトと対話するときにかなりの閉塞があるため、困難である。
これらの課題に対処するために、動的RGBDビデオからオブジェクトの関節パラメータとセグメントを推論する粗大なフレームワークiTACOを紹介する。
この新しい設定でメソッドを評価するために、11カテゴリにわたる284のオブジェクトを含む784の動画のデータセットを構築しました。
そして、我々のアプローチと既存の手法を比較して、ビデオも入力として受け取ります。
実験の結果,iTACOは合成および実カジュアルにキャプチャされたRGBDビデオにおいて,既存のデジタルツイン法よりも優れていた。
関連論文リスト
- PickScan: Object discovery and reconstruction from handheld interactions [99.99566882133179]
シーンの3次元表現を再構成する対話誘導型クラス依存型手法を開発した。
我々の主な貢献は、操作対象のインタラクションを検出し、操作対象のマスクを抽出する新しいアプローチである。
相互作用ベースとクラス非依存のベースラインであるCo-Fusionと比較すると、これはシャムファー距離の73%の減少に相当する。
論文 参考訳(メタデータ) (2024-11-17T23:09:08Z) - HOLD: Category-agnostic 3D Reconstruction of Interacting Hands and
Objects from Video [70.11702620562889]
HOLD - 単分子インタラクションビデオから手とオブジェクトを共同で再構成する最初のカテゴリーに依存しない方法。
我々は,3次元手と物体を2次元画像から切り離すことができる構成的明瞭な暗黙モデルを開発した。
本手法は,3次元手オブジェクトアノテーションに頼らず,組込みと組込みの両面において,完全教師付きベースラインに優れる。
論文 参考訳(メタデータ) (2023-11-30T10:50:35Z) - Total-Recon: Deformable Scene Reconstruction for Embodied View Synthesis [76.72505510632904]
長い単眼のRGBDビデオから変形可能なシーンを再構成する最初の方法であるTotal-Reconを提案する。
本手法は背景と物体にシーンを階層的に分解し,動作を根体運動と局所的調音に分解する。
論文 参考訳(メタデータ) (2023-04-24T17:59:52Z) - Articulated 3D Human-Object Interactions from RGB Videos: An Empirical
Analysis of Approaches and Challenges [19.21834600205309]
RGBビデオからの3次元人-物体インタラクション再構築のタスクを標準化する。
このタスクには,3次元平面推定,3次元立方体推定,CADモデル適合,暗黙のフィールド適合,自由形メッシュ適合という5種類の手法を用いる。
実験の結果,全ての手法が真理情報を提供しても精度の高い結果を得るのに苦慮していることがわかった。
論文 参考訳(メタデータ) (2022-09-12T21:03:25Z) - Class-agnostic Reconstruction of Dynamic Objects from Videos [127.41336060616214]
動的オブジェクトをRGBDや校正ビデオから再構成するためのクラスに依存しないフレームワークであるREDOを紹介する。
我々は2つの新しいモジュールを開発し、まず、時間的視覚的手がかりを集約したピクセル整合性を持つ正準4次元暗黙関数を導入する。
第2に、時間的伝播と集約をサポートするためにオブジェクトのダイナミクスをキャプチャする4D変換モジュールを開発する。
論文 参考訳(メタデータ) (2021-12-03T18:57:47Z) - D3D-HOI: Dynamic 3D Human-Object Interactions from Videos [49.38319295373466]
本稿では,D3D-HOIについて紹介する。D3D-HOIは3次元オブジェクトのポーズ,形状,動きを,人間と物体の相互作用の時,地上の真理アノテーションを付加したモノクロビデオのデータセットである。
我々のデータセットは、様々な現実世界のシーンとカメラの視点から捉えた、いくつかの共通したオブジェクトで構成されている。
我々は、推定された3次元人間のポーズを利用して、物体の空間的レイアウトとダイナミクスをより正確に推定する。
論文 参考訳(メタデータ) (2021-08-19T00:49:01Z) - MOLTR: Multiple Object Localisation, Tracking, and Reconstruction from
Monocular RGB Videos [30.541606989348377]
MOLTRはモノクロ画像シーケンスとカメラポーズのみを用いたオブジェクト中心マッピングのソリューションである。
rgbカメラが周囲のビデオをキャプチャすると、複数のオブジェクトをオンライン形式でローカライズし、追跡し、再構築することができる。
屋内および屋外シーンのベンチマークデータセットのローカリゼーション、追跡、および再構築を評価します。
論文 参考訳(メタデータ) (2020-12-09T23:15:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。