論文の概要: Learning Priors for Non Rigid SfM from Casual Videos
- arxiv url: http://arxiv.org/abs/2404.07097v1
- Date: Wed, 10 Apr 2024 15:37:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-11 13:51:53.782038
- Title: Learning Priors for Non Rigid SfM from Casual Videos
- Title(参考訳): カジュアルビデオからの非剛性SfMの学習優先事項
- Authors: Yoni Kasten, Wuyue Lu, Haggai Maron,
- Abstract要約: ビデオから3D構造とカメラの位置を再構築する,新たなディープラーニングベースのアプローチであるTracksTo4Dを提案する。
我々は最近の2Dポイントトラッキングの進歩を活用し、2Dポイントトラックを直接処理するための同変ニューラルアーキテクチャを設計する。
TracksTo4Dは、推論時に目に見えないセマンティックなカテゴリのビデオを一般化し、最先端の手法と同等の結果を生み出す。
- 参考スコア(独自算出の注目度): 22.563073026889324
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We tackle the long-standing challenge of reconstructing 3D structures and camera positions from videos. The problem is particularly hard when objects are transformed in a non-rigid way. Current approaches to this problem make unrealistic assumptions or require a long optimization time. We present TracksTo4D, a novel deep learning-based approach that enables inferring 3D structure and camera positions from dynamic content originating from in-the-wild videos using a single feed-forward pass on a sparse point track matrix. To achieve this, we leverage recent advances in 2D point tracking and design an equivariant neural architecture tailored for directly processing 2D point tracks by leveraging their symmetries. TracksTo4D is trained on a dataset of in-the-wild videos utilizing only the 2D point tracks extracted from the videos, without any 3D supervision. Our experiments demonstrate that TracksTo4D generalizes well to unseen videos of unseen semantic categories at inference time, producing equivalent results to state-of-the-art methods while significantly reducing the runtime compared to other baselines.
- Abstract(参考訳): 我々は、ビデオから3D構造とカメラの位置を再構築する、長年にわたる課題に取り組む。
この問題は、オブジェクトが厳密でない方法で変換される場合、特に難しい。
この問題に対する現在のアプローチは非現実的な仮定や長い最適化時間を必要とする。
そこで我々は,3D構造とカメラ位置を,一本のフィードフォワードパスをスパース・ポイント・トラック・マトリクス上に用いて動的コンテンツから推定できる,新しいディープラーニングベースのアプローチであるTracksTo4Dを提案する。
そこで我々は,近年の2次元点追跡の進歩を活用し,その対称性を活用して2次元点追跡を直接処理する等変ニューラルアーキテクチャを設計する。
TracksTo4Dは、3Dの監督なしにビデオから抽出された2Dポイントトラックのみを利用して、Wildのビデオのデータセットに基づいて訓練される。
実験の結果,TracksTo4Dは予測時に見つからないセマンティックなカテゴリの動画を一般化し,最先端の手法と同等な結果が得られる一方で,他のベースラインに比べて実行時間を大幅に削減できることがわかった。
関連論文リスト
- 3D-Aware Instance Segmentation and Tracking in Egocentric Videos [107.10661490652822]
エゴセントリックなビデオは、3Dシーンの理解にユニークな課題を提示する。
本稿では,一対一のビデオにおけるインスタンスのセグメンテーションとトラッキングに対する新しいアプローチを提案する。
空間的および時間的手がかりを取り入れることで、最先端の2D手法と比較して優れた性能が得られる。
論文 参考訳(メタデータ) (2024-08-19T10:08:25Z) - Long-Term 3D Point Tracking By Cost Volume Fusion [2.3411633024711573]
テストタイムの微調整を必要とせず,新たなポイントやビデオに一般化する3Dの長期追跡のための,最初のディープラーニングフレームワークを提案する。
モデルでは,複数過去の外観と動き情報をトランスフォーマーアーキテクチャで統合し,全体的なトラッキング性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-07-18T09:34:47Z) - TAPVid-3D: A Benchmark for Tracking Any Point in 3D [63.060421798990845]
我々は,3Dにおける任意の点の追跡作業を評価するための新しいベンチマークTAPVid-3Dを導入する。
このベンチマークは、モノクロビデオから正確な3Dの動きと表面の変形を理解する能力を改善するためのガイドポストとして機能する。
論文 参考訳(メタデータ) (2024-07-08T13:28:47Z) - Instance Tracking in 3D Scenes from Egocentric Videos [18.02107257369472]
AR/VRデバイスのようなエゴセントリックなセンサーは、人間とオブジェクトのインタラクションをキャプチャし、タスクアシストを提供する。
この機能は、エゴセントリックビデオ(IT3DEgo)の現実世界の3Dシーンのインスタンス追跡を必要とする
RGBと深度ビデオ、フレームごとのカメラポーズ、および2Dカメラと3Dワールド座標の両方におけるインスタンスレベルのアノテーションからなる新しいベンチマークデータセットを導入する。
論文 参考訳(メタデータ) (2023-12-07T08:18:35Z) - PointOdyssey: A Large-Scale Synthetic Dataset for Long-Term Point
Tracking [90.29143475328506]
本稿では,大規模合成データセットとデータ生成フレームワークであるPointOdysseyを紹介する。
私たちのゴールは、自然主義的な動きを持つ長いビデオに重点を置いて、最先端の技術を推し進めることです。
実世界のモーションキャプチャーデータを用いて変形可能なキャラクタをアニメーション化し、モーションキャプチャー環境に合わせて3Dシーンを構築し、リアルビデオ上で構造から抽出したトラジェクトリを用いてカメラ視点を描画する。
論文 参考訳(メタデータ) (2023-07-27T17:58:11Z) - Tracking by 3D Model Estimation of Unknown Objects in Videos [122.56499878291916]
この表現は限定的であり、代わりに明示的なオブジェクト表現を用いて2次元追跡をガイドし改善することを提案する。
我々の表現は、全てのビデオフレームのオブジェクト上の全ての3Dポイント間の複雑な長期密度対応問題に取り組む。
提案手法は, 最適3次元形状, テクスチャ, 6DoFのポーズを推定するために, 新たな損失関数を最小化する。
論文 参考訳(メタデータ) (2023-04-13T11:32:36Z) - Monocular Quasi-Dense 3D Object Tracking [99.51683944057191]
周囲の物体の将来の位置を予測し、自律運転などの多くのアプリケーションで観測者の行動を計画するためには、信頼性と正確な3D追跡フレームワークが不可欠である。
移動プラットフォーム上で撮影された2次元画像のシーケンスから,移動物体を時間とともに効果的に関連付け,その全3次元バウンディングボックス情報を推定するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-12T15:30:02Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。