論文の概要: Class-agnostic Reconstruction of Dynamic Objects from Videos
- arxiv url: http://arxiv.org/abs/2112.02091v1
- Date: Fri, 3 Dec 2021 18:57:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-06 14:59:09.633302
- Title: Class-agnostic Reconstruction of Dynamic Objects from Videos
- Title(参考訳): 映像からの動的物体のクラス別再構成
- Authors: Zhongzheng Ren, Xiaoming Zhao, Alexander G. Schwing
- Abstract要約: 動的オブジェクトをRGBDや校正ビデオから再構成するためのクラスに依存しないフレームワークであるREDOを紹介する。
我々は2つの新しいモジュールを開発し、まず、時間的視覚的手がかりを集約したピクセル整合性を持つ正準4次元暗黙関数を導入する。
第2に、時間的伝播と集約をサポートするためにオブジェクトのダイナミクスをキャプチャする4D変換モジュールを開発する。
- 参考スコア(独自算出の注目度): 127.41336060616214
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce REDO, a class-agnostic framework to REconstruct the Dynamic
Objects from RGBD or calibrated videos. Compared to prior work, our problem
setting is more realistic yet more challenging for three reasons: 1) due to
occlusion or camera settings an object of interest may never be entirely
visible, but we aim to reconstruct the complete shape; 2) we aim to handle
different object dynamics including rigid motion, non-rigid motion, and
articulation; 3) we aim to reconstruct different categories of objects with one
unified framework. To address these challenges, we develop two novel modules.
First, we introduce a canonical 4D implicit function which is pixel-aligned
with aggregated temporal visual cues. Second, we develop a 4D transformation
module which captures object dynamics to support temporal propagation and
aggregation. We study the efficacy of REDO in extensive experiments on
synthetic RGBD video datasets SAIL-VOS 3D and DeformingThings4D++, and on
real-world video data 3DPW. We find REDO outperforms state-of-the-art dynamic
reconstruction methods by a margin. In ablation studies we validate each
developed component.
- Abstract(参考訳): 動的オブジェクトをRGBDや校正ビデオから再構成するためのクラスに依存しないフレームワークであるREDOを紹介する。
以前の作業と比較して、私たちの問題設定はより現実的だが、3つの理由により難しい。
1) 閉塞やカメラの設定により,興味のある対象が完全には見えないかもしれないが,完全な形状を再構築することを目指している。
2) 剛体運動, 非剛体運動, 調音など, 異なる物体力学を扱うことを目的とする。
3) 1つの統一フレームワークで異なるカテゴリのオブジェクトを再構築することを目指している。
これらの課題に対処するため、我々は2つの新しいモジュールを開発した。
まず,時間的視覚的手がかりを集約した画素アライメントを持つ正準4次元暗黙関数を提案する。
第2に,オブジェクトのダイナミクスをキャプチャして,時間的伝播と集約をサポートする4次元変換モジュールを開発した。
合成RGBDビデオデータセットSAIL-VOS 3D,DeformingThings4D++,および実世界のビデオデータ3DPWにおけるREDOの有効性を検討した。
redoは最先端のダイナミックリコンストラクション手法をわずかに上回っている。
アブレーション研究では、それぞれの発達した成分を検証する。
関連論文リスト
- DO3D: Self-supervised Learning of Decomposed Object-aware 3D Motion and
Depth from Monocular Videos [76.01906393673897]
本研究では,モノクラービデオから3次元運動と深度を協調的に学習する自己教師手法を提案する。
本システムでは,深度を推定する深度推定モジュールと,エゴモーションと3次元物体の動きを推定する新しい分解対象3次元運動推定モジュールを備える。
我々のモデルは評価されたすべての設定において優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-03-09T12:22:46Z) - HOLD: Category-agnostic 3D Reconstruction of Interacting Hands and
Objects from Video [70.11702620562889]
HOLD - 単分子インタラクションビデオから手とオブジェクトを共同で再構成する最初のカテゴリーに依存しない方法。
我々は,3次元手と物体を2次元画像から切り離すことができる構成的明瞭な暗黙モデルを開発した。
本手法は,3次元手オブジェクトアノテーションに頼らず,組込みと組込みの両面において,完全教師付きベースラインに優れる。
論文 参考訳(メタデータ) (2023-11-30T10:50:35Z) - DynaVol: Unsupervised Learning for Dynamic Scenes through Object-Centric
Voxelization [67.85434518679382]
幾何学構造と物体中心学習を統一した3次元シーン生成モデルDynaVolを提案する。
鍵となるアイデアは、シーンの3D特性を捉えるために、オブジェクト中心のボキセル化を実行することである。
ボクセルの機能は標準空間の変形関数を通じて時間とともに進化し、グローバルな表現学習の基礎を形成する。
論文 参考訳(メタデータ) (2023-04-30T05:29:28Z) - Anything-3D: Towards Single-view Anything Reconstruction in the Wild [61.090129285205805]
本稿では,一連の視覚言語モデルとSegment-Anythingオブジェクトセグメンテーションモデルを組み合わせた方法論的フレームワークであるAnything-3Dを紹介する。
提案手法では、BLIPモデルを用いてテキスト記述を生成し、Segment-Anythingモデルを用いて関心対象を効果的に抽出し、テキスト・画像拡散モデルを用いて物体を神経放射場へ持ち上げる。
論文 参考訳(メタデータ) (2023-04-19T16:39:51Z) - Learning Dynamic View Synthesis With Few RGBD Cameras [60.36357774688289]
本稿では,RGBDカメラを用いて動的屋内シーンのフリー視点映像を合成することを提案する。
我々は、RGBDフレームから点雲を生成し、それをニューラル機能を介して、自由視点ビデオにレンダリングする。
そこで本研究では,未完成の深度を適応的に塗布して新規なビューを描画する,シンプルなRegional Depth-Inpaintingモジュールを提案する。
論文 参考訳(メタデータ) (2022-04-22T03:17:35Z) - Online Adaptation for Implicit Object Tracking and Shape Reconstruction
in the Wild [22.19769576901151]
本稿では,DeepSDFモデルを用いて野生の3Dオブジェクトの同時追跡と再構成を行う新しい統一フレームワークを提案する。
追跡と形状復元の両面において,最先端手法の大幅な改善が見られた。
論文 参考訳(メタデータ) (2021-11-24T19:00:05Z) - DymSLAM:4D Dynamic Scene Reconstruction Based on Geometrical Motion
Segmentation [22.444657614883084]
DymSLAM(ダイムSLAM)は、4D(3D + Time)ダイナミックシーンを剛体移動物体で再構成できる動的ステレオ視覚SLAMシステムである。
提案システムでは,動的物体の障害物回避などの高レベルなタスクにロボットを使用できる。
論文 参考訳(メタデータ) (2020-03-10T08:25:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。