論文の概要: NeuralDiff: Segmenting 3D objects that move in egocentric videos
- arxiv url: http://arxiv.org/abs/2110.09936v1
- Date: Tue, 19 Oct 2021 12:51:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-20 14:36:22.239972
- Title: NeuralDiff: Segmenting 3D objects that move in egocentric videos
- Title(参考訳): NeuralDiff:エゴ中心のビデオで動く3Dオブジェクトのセグメンテーション
- Authors: Vadim Tschernezki, Diane Larlus, Andrea Vedaldi
- Abstract要約: 観測された3次元シーンを静的な背景と動的前景に分解する問題について検討する。
このタスクは、古典的な背景の減算問題を連想させるが、静的でダイナミックなシーンの全ての部分が大きな動きを生じさせるため、非常に難しい。
特に、自我中心のビデオについて検討し、動的コンポーネントを観察・移動するオブジェクトとアクターにさらに分離する。
- 参考スコア(独自算出の注目度): 92.95176458079047
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given a raw video sequence taken from a freely-moving camera, we study the
problem of decomposing the observed 3D scene into a static background and a
dynamic foreground containing the objects that move in the video sequence. This
task is reminiscent of the classic background subtraction problem, but is
significantly harder because all parts of the scene, static and dynamic,
generate a large apparent motion due to the camera large viewpoint change. In
particular, we consider egocentric videos and further separate the dynamic
component into objects and the actor that observes and moves them. We achieve
this factorization by reconstructing the video via a triple-stream neural
rendering network that explains the different motions based on corresponding
inductive biases. We demonstrate that our method can successfully separate the
different types of motion, outperforming recent neural rendering baselines at
this task, and can accurately segment moving objects. We do so by assessing the
method empirically on challenging videos from the EPIC-KITCHENS dataset which
we augment with appropriate annotations to create a new benchmark for the task
of dynamic object segmentation on unconstrained video sequences, for complex 3D
environments.
- Abstract(参考訳): 移動自在なカメラから撮影した生の映像シーケンスを考慮し、観察された3Dシーンを静的な背景と動画シーケンス内を移動する物体を含む動的前景に分解する問題を考察した。
この課題は古典的な背景の減算問題を想起させるものであるが、シーンのすべての部分が静的で動的であるため、カメラの大きな視点の変化により大きな動きが生じるため、はるかに困難である。
特に、自我中心のビデオについて検討し、動的コンポーネントを観察・移動するオブジェクトとアクターにさらに分離する。
この因子化は、トリプルストリームニューラルネットワークを用いて、対応する帰納バイアスに基づいて異なる動きを説明することによって実現される。
提案手法は,様々な動作を分離し,このタスクで最近のニューラルネットワークのベースラインを上回り,移動物体を正確にセグメント化できることを実証する。
そこで我々は,EPIC-KITCHENSデータセットから,制約のないビデオシーケンス上の動的オブジェクトセグメンテーションのタスクに対する,複雑な3D環境のための新しいベンチマークを作成するために,適切なアノテーションを付加した課題のビデオに対して,実証的に評価を行う。
関連論文リスト
- EPIC Fields: Marrying 3D Geometry and Video Understanding [76.60638761589065]
EPIC Fieldsは、EPIC-KITCHENSの3Dカメラ情報の拡張である。
これは、フォトグラムを使ってカメラを再構築する複雑で高価なステップを取り除く。
EPICKITCHENSのビデオの96%を再構築し、45のキッチンで99時間に19Mフレームを登録した。
論文 参考訳(メタデータ) (2023-06-14T20:33:49Z) - Decoupling Dynamic Monocular Videos for Dynamic View Synthesis [60.171882970835625]
動的モノクロビデオからの動的ビュー合成の課題を教師なしで解決する。
具体的には、動的物体の運動を物体の動きとカメラの動きに分離し、教師なし表面の整合性およびパッチベースのマルチビュー制約によって規則化する。
論文 参考訳(メタデータ) (2023-04-04T11:25:44Z) - InstMove: Instance Motion for Object-centric Video Segmentation [70.16915119724757]
本研究では,オブジェクト中心ビデオのインスタンス・モーションを表すInstMoveとインスタンス・レベル・モーションについて検討する。
InstMoveは主に画像特徴の埋め込みのないインスタンスレベルのモーション情報に依存している。
数行のコードだけで、InstMoveは3つの異なるビデオセグメンテーションタスクのために、現在のSOTAメソッドに統合できる。
論文 参考訳(メタデータ) (2023-03-14T17:58:44Z) - DynIBaR: Neural Dynamic Image-Based Rendering [79.44655794967741]
複雑な動的シーンを描写したモノクロ映像から新しいビューを合成する問題に対処する。
我々は,近傍のビューから特徴を集約することで,新しい視点を合成するボリューム画像ベースのレンダリングフレームワークを採用する。
動的シーンデータセットにおける最先端手法の大幅な改善を示す。
論文 参考訳(メタデータ) (2022-11-20T20:57:02Z) - D$^2$NeRF: Self-Supervised Decoupling of Dynamic and Static Objects from
a Monocular Video [23.905013304668426]
モノクロ映像が与えられたとき、静的環境を回復しながら動的オブジェクトを分割して分離することは、マシンインテリジェンスにおいて広く研究されている問題である。
Decoupled Dynamic Neural Radiance Field (D$2$NeRF) は、モノクロ映像を撮り、3Dシーンの表現を学習する自己教師型アプローチである。
論文 参考訳(メタデータ) (2022-05-31T14:41:24Z) - Consistent Depth of Moving Objects in Video [52.72092264848864]
移動カメラで撮影した通常の映像から任意の移動物体を含む動的シーンの深さを推定する手法を提案する。
我々は、この目的を、深度予測CNNを入力ビデオ全体にわたって補助的なシーンフロー予測でタンデムで訓練する新しいテストタイムトレーニングフレームワークで定式化する。
我々は、さまざまな移動物体(ペット、人、車)とカメラの動きを含む様々な挑戦的なビデオに対して、正確かつ時間的に一貫性のある結果を示す。
論文 参考訳(メタデータ) (2021-08-02T20:53:18Z) - Unsupervised object-centric video generation and decomposition in 3D [36.08064849807464]
本研究では,複数の3Dオブジェクトと3D背景を持つシーンを移動しながら映像を映像としてモデル化することを提案する。
我々のモデルは、監督なしに単眼ビデオから訓練されるが、複数の動く物体を含むコヒーレントな3Dシーンを生成することを学ぶ。
論文 参考訳(メタデータ) (2020-07-07T18:01:29Z) - DymSLAM:4D Dynamic Scene Reconstruction Based on Geometrical Motion
Segmentation [22.444657614883084]
DymSLAM(ダイムSLAM)は、4D(3D + Time)ダイナミックシーンを剛体移動物体で再構成できる動的ステレオ視覚SLAMシステムである。
提案システムでは,動的物体の障害物回避などの高レベルなタスクにロボットを使用できる。
論文 参考訳(メタデータ) (2020-03-10T08:25:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。