論文の概要: Learning Priors for Non Rigid SfM from Casual Videos
- arxiv url: http://arxiv.org/abs/2404.07097v1
- Date: Wed, 10 Apr 2024 15:37:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-11 13:51:53.782038
- Title: Learning Priors for Non Rigid SfM from Casual Videos
- Title(参考訳): カジュアルビデオからの非剛性SfMの学習優先事項
- Authors: Yoni Kasten, Wuyue Lu, Haggai Maron,
- Abstract要約: ビデオから3D構造とカメラの位置を再構築する,新たなディープラーニングベースのアプローチであるTracksTo4Dを提案する。
我々は最近の2Dポイントトラッキングの進歩を活用し、2Dポイントトラックを直接処理するための同変ニューラルアーキテクチャを設計する。
TracksTo4Dは、推論時に目に見えないセマンティックなカテゴリのビデオを一般化し、最先端の手法と同等の結果を生み出す。
- 参考スコア(独自算出の注目度): 22.563073026889324
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We tackle the long-standing challenge of reconstructing 3D structures and camera positions from videos. The problem is particularly hard when objects are transformed in a non-rigid way. Current approaches to this problem make unrealistic assumptions or require a long optimization time. We present TracksTo4D, a novel deep learning-based approach that enables inferring 3D structure and camera positions from dynamic content originating from in-the-wild videos using a single feed-forward pass on a sparse point track matrix. To achieve this, we leverage recent advances in 2D point tracking and design an equivariant neural architecture tailored for directly processing 2D point tracks by leveraging their symmetries. TracksTo4D is trained on a dataset of in-the-wild videos utilizing only the 2D point tracks extracted from the videos, without any 3D supervision. Our experiments demonstrate that TracksTo4D generalizes well to unseen videos of unseen semantic categories at inference time, producing equivalent results to state-of-the-art methods while significantly reducing the runtime compared to other baselines.
- Abstract(参考訳): 我々は、ビデオから3D構造とカメラの位置を再構築する、長年にわたる課題に取り組む。
この問題は、オブジェクトが厳密でない方法で変換される場合、特に難しい。
この問題に対する現在のアプローチは非現実的な仮定や長い最適化時間を必要とする。
そこで我々は,3D構造とカメラ位置を,一本のフィードフォワードパスをスパース・ポイント・トラック・マトリクス上に用いて動的コンテンツから推定できる,新しいディープラーニングベースのアプローチであるTracksTo4Dを提案する。
そこで我々は,近年の2次元点追跡の進歩を活用し,その対称性を活用して2次元点追跡を直接処理する等変ニューラルアーキテクチャを設計する。
TracksTo4Dは、3Dの監督なしにビデオから抽出された2Dポイントトラックのみを利用して、Wildのビデオのデータセットに基づいて訓練される。
実験の結果,TracksTo4Dは予測時に見つからないセマンティックなカテゴリの動画を一般化し,最先端の手法と同等な結果が得られる一方で,他のベースラインに比べて実行時間を大幅に削減できることがわかった。
関連論文リスト
- Inverse Neural Rendering for Explainable Multi-Object Tracking [35.072142773300655]
我々はRGBカメラから3Dマルチオブジェクト追跡をEmphInverse Rendering (IR)問題として再放送した。
我々は、本質的に形状と外観特性を歪ませる生成潜在空間上の画像損失を最適化する。
本手法の一般化とスケーリング能力は,合成データのみから生成前を学習することで検証する。
論文 参考訳(メタデータ) (2024-04-18T17:37:53Z) - SpatialTracker: Tracking Any 2D Pixels in 3D Space [71.58016288648447]
本稿では,画像投影による問題点を軽減するために,3次元空間における点軌道の推定を提案する。
この手法はSpatialTrackerと呼ばれ、2Dピクセルをモノクロ深度推定器を用いて3Dにリフトする。
3Dでのトラッキングにより、ピクセルを異なる剛性部分にクラスタ化する剛性埋め込みを同時に学習しながら、ARAP(as-rigid-as-possible)制約を活用することができます。
論文 参考訳(メタデータ) (2024-04-05T17:59:25Z) - Instance Tracking in 3D Scenes from Egocentric Videos [19.686727161734836]
AR/VRデバイスのようなエゴセントリックなセンサーは、人間とオブジェクトのインタラクションをキャプチャし、タスクアシストを提供する。
この機能は、エゴセントリックビデオ(IT3DEgo)の現実世界の3Dシーンのインスタンス追跡を必要とする
RGBと深度ビデオ、フレームごとのカメラポーズ、および2Dカメラと3Dワールド座標の両方におけるインスタンスレベルのアノテーションからなる新しいベンチマークデータセットを導入する。
論文 参考訳(メタデータ) (2023-12-07T08:18:35Z) - PointOdyssey: A Large-Scale Synthetic Dataset for Long-Term Point
Tracking [90.29143475328506]
本稿では,大規模合成データセットとデータ生成フレームワークであるPointOdysseyを紹介する。
私たちのゴールは、自然主義的な動きを持つ長いビデオに重点を置いて、最先端の技術を推し進めることです。
実世界のモーションキャプチャーデータを用いて変形可能なキャラクタをアニメーション化し、モーションキャプチャー環境に合わせて3Dシーンを構築し、リアルビデオ上で構造から抽出したトラジェクトリを用いてカメラ視点を描画する。
論文 参考訳(メタデータ) (2023-07-27T17:58:11Z) - Tracking by 3D Model Estimation of Unknown Objects in Videos [122.56499878291916]
この表現は限定的であり、代わりに明示的なオブジェクト表現を用いて2次元追跡をガイドし改善することを提案する。
我々の表現は、全てのビデオフレームのオブジェクト上の全ての3Dポイント間の複雑な長期密度対応問題に取り組む。
提案手法は, 最適3次元形状, テクスチャ, 6DoFのポーズを推定するために, 新たな損失関数を最小化する。
論文 参考訳(メタデータ) (2023-04-13T11:32:36Z) - Common Pets in 3D: Dynamic New-View Synthesis of Real-Life Deformable
Categories [80.30216777363057]
コモンペットを3Dで紹介する(CoP3D)。
テスト時には、目に見えないオブジェクトの少数のビデオフレームが与えられたとき、Tracker-NeRFはその3Dポイントの軌跡を予測し、新しいビューを生成する。
CoP3Dの結果は、既存のベースラインよりも、厳密でない新規ビュー合成性能が著しく向上した。
論文 参考訳(メタデータ) (2022-11-07T22:42:42Z) - Monocular Quasi-Dense 3D Object Tracking [99.51683944057191]
周囲の物体の将来の位置を予測し、自律運転などの多くのアプリケーションで観測者の行動を計画するためには、信頼性と正確な3D追跡フレームワークが不可欠である。
移動プラットフォーム上で撮影された2次元画像のシーケンスから,移動物体を時間とともに効果的に関連付け,その全3次元バウンディングボックス情報を推定するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-12T15:30:02Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。