論文の概要: Zero-shot Reconstruction of In-Scene Object Manipulation from Video
- arxiv url: http://arxiv.org/abs/2512.19684v1
- Date: Mon, 22 Dec 2025 18:58:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.892945
- Title: Zero-shot Reconstruction of In-Scene Object Manipulation from Video
- Title(参考訳): 映像からのシーン内物体操作のゼロショット再構成
- Authors: Dixuan Lin, Tianyou Wang, Zhuoyang Pan, Yufu Wang, Lingjie Liu, Kostas Daniilidis,
- Abstract要約: モノクロRGBビデオからシーン内オブジェクト操作を再構築する問題に対処する最初のシステムを構築した。
不用意なシーン再構築、不明瞭な手・物体の深さ、物理的に妥当な相互作用の必要性により、これは困難である。
- 参考スコア(独自算出の注目度): 47.13702503259619
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We build the first system to address the problem of reconstructing in-scene object manipulation from a monocular RGB video. It is challenging due to ill-posed scene reconstruction, ambiguous hand-object depth, and the need for physically plausible interactions. Existing methods operate in hand centric coordinates and ignore the scene, hindering metric accuracy and practical use. In our method, we first use data-driven foundation models to initialize the core components, including the object mesh and poses, the scene point cloud, and the hand poses. We then apply a two-stage optimization that recovers a complete hand-object motion from grasping to interaction, which remains consistent with the scene information observed in the input video.
- Abstract(参考訳): モノクロRGBビデオからシーン内オブジェクト操作を再構築する問題に対処する最初のシステムを構築した。
不用意なシーン再構築、不明瞭な手・物体の深さ、物理的に妥当な相互作用の必要性により、これは困難である。
既存の手法は手中心の座標で動作し、シーンを無視し、メートル法精度と実用性を妨げている。
提案手法では,まず,オブジェクトメッシュやポーズ,シーンポイントクラウド,手ポーズなどのコアコンポーネントを初期化するために,データ駆動基盤モデルを用いる。
次に,映像中のシーン情報と整合性を保ちながら,手動の完全な動作を把握からインタラクションへと回復する2段階の最適化手法を提案する。
関連論文リスト
- sim2art: Accurate Articulated Object Modeling from a Single Video using Synthetic Training Data Only [20.99905717289565]
本稿では,自由移動カメラで撮影した単眼ビデオから,関節部分のセグメンテーションと関節パラメータを共同で予測する最初のデータ駆動方式を提案する。
提案手法は,実世界のオブジェクトへの強力な一般化を実証し,拡張性および実用的なオブジェクト理解ソリューションを提供する。
提案手法は, カジュアルに記録された映像を直接操作し, 動的環境におけるリアルタイムなアプリケーションに適合する。
論文 参考訳(メタデータ) (2025-12-08T16:38:30Z) - VideoArtGS: Building Digital Twins of Articulated Objects from Monocular Video [60.63575135514847]
モノクロビデオから音声化されたオブジェクトのデジタルツインを構築することは、コンピュータビジョンにおいて重要な課題である。
本稿では,モノクロ映像から高忠実度デジタル双対を再構成する新しい手法であるVideoArtGSを紹介する。
VideoArtGSは、調音およびメッシュ再構成における最先端性能を示し、既存の方法に比べて約2桁の再現誤差を低減している。
論文 参考訳(メタデータ) (2025-09-22T11:52:02Z) - Object Pose Estimation through Dexterous Touch [27.99244228962149]
本手法では,ロボットハンドを積極的に制御し,物体と対話する。
本手法は,物体表面を積極的に探索し,物体の形状を事前に知ることなく重要なポーズ特徴を識別できることを実証する。
論文 参考訳(メタデータ) (2025-09-16T23:25:05Z) - iTACO: Interactable Digital Twins of Articulated Objects from Casually Captured RGBD Videos [52.398752421673144]
本研究では,手持ちカメラで撮影したカジュアルなRGBD映像から,物体の動作解析と部分レベルセグメンテーションに焦点を当てた。
スマートフォンを用いて手軽に手軽に手軽に手軽に手に入ることができる。
動的RGBDビデオからオブジェクトの関節パラメータとセグメントを推論する粗粒度フレームワークiTACOを紹介する。
論文 参考訳(メタデータ) (2025-06-10T01:41:46Z) - HOLD: Category-agnostic 3D Reconstruction of Interacting Hands and
Objects from Video [70.11702620562889]
HOLD - 単分子インタラクションビデオから手とオブジェクトを共同で再構成する最初のカテゴリーに依存しない方法。
我々は,3次元手と物体を2次元画像から切り離すことができる構成的明瞭な暗黙モデルを開発した。
本手法は,3次元手オブジェクトアノテーションに頼らず,組込みと組込みの両面において,完全教師付きベースラインに優れる。
論文 参考訳(メタデータ) (2023-11-30T10:50:35Z) - SHOWMe: Benchmarking Object-agnostic Hand-Object 3D Reconstruction [13.417086460511696]
96本の動画からなるSHOWMeデータセットについて,実物と詳細な3Dテクスチャメッシュで注釈付けした。
我々は、手の動きがビデオシーケンス全体を通して一定である厳密な手オブジェクトのシナリオを考察する。
この仮定により、SHOWMeの画像シーケンスにサブミリメートル精度の基底3Dスキャンを登録できる。
論文 参考訳(メタデータ) (2023-09-19T16:48:29Z) - TOCH: Spatio-Temporal Object-to-Hand Correspondence for Motion
Refinement [42.3418874174372]
そこで本研究では,データを用いた不正確な3次元手オブジェクトインタラクションシーケンスの精細化手法TOCHを提案する。
時間分解オートエンコーダを用いた可塑性TOCH場の潜在多様体を学習する。
実験により、TOCHは最先端の3Dハンドオブジェクトインタラクションモデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-05-16T20:41:45Z) - NeuralDiff: Segmenting 3D objects that move in egocentric videos [92.95176458079047]
観測された3次元シーンを静的な背景と動的前景に分解する問題について検討する。
このタスクは、古典的な背景の減算問題を連想させるが、静的でダイナミックなシーンの全ての部分が大きな動きを生じさせるため、非常に難しい。
特に、自我中心のビデオについて検討し、動的コンポーネントを観察・移動するオブジェクトとアクターにさらに分離する。
論文 参考訳(メタデータ) (2021-10-19T12:51:35Z) - Towards unconstrained joint hand-object reconstruction from RGB videos [81.97694449736414]
ハンドオブジェクト操作の再構築は、ロボット工学と人間のデモから学ぶ大きな可能性を秘めている。
まず,手動物体の相互作用をシームレスに処理できる学習不要な手動物体再構成手法を提案する。
論文 参考訳(メタデータ) (2021-08-16T12:26:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。