論文の概要: Learning Priors for Non Rigid SfM from Casual Videos
- arxiv url: http://arxiv.org/abs/2404.07097v1
- Date: Wed, 10 Apr 2024 15:37:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-04-11 13:51:53.782038
- Title: Learning Priors for Non Rigid SfM from Casual Videos
- Title(参考訳): カジュアルビデオからの非剛性SfMの学習優先事項
- Authors: Yoni Kasten, Wuyue Lu, Haggai Maron,
- Abstract要約: ビデオから3D構造とカメラの位置を再構築する,新たなディープラーニングベースのアプローチであるTracksTo4Dを提案する。
我々は最近の2Dポイントトラッキングの進歩を活用し、2Dポイントトラックを直接処理するための同変ニューラルアーキテクチャを設計する。
TracksTo4Dは、推論時に目に見えないセマンティックなカテゴリのビデオを一般化し、最先端の手法と同等の結果を生み出す。
- 参考スコア(独自算出の注目度): 22.563073026889324
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We tackle the long-standing challenge of reconstructing 3D structures and camera positions from videos. The problem is particularly hard when objects are transformed in a non-rigid way. Current approaches to this problem make unrealistic assumptions or require a long optimization time. We present TracksTo4D, a novel deep learning-based approach that enables inferring 3D structure and camera positions from dynamic content originating from in-the-wild videos using a single feed-forward pass on a sparse point track matrix. To achieve this, we leverage recent advances in 2D point tracking and design an equivariant neural architecture tailored for directly processing 2D point tracks by leveraging their symmetries. TracksTo4D is trained on a dataset of in-the-wild videos utilizing only the 2D point tracks extracted from the videos, without any 3D supervision. Our experiments demonstrate that TracksTo4D generalizes well to unseen videos of unseen semantic categories at inference time, producing equivalent results to state-of-the-art methods while significantly reducing the runtime compared to other baselines.
- Abstract(参考訳): 我々は、ビデオから3D構造とカメラの位置を再構築する、長年にわたる課題に取り組む。
この問題は、オブジェクトが厳密でない方法で変換される場合、特に難しい。
この問題に対する現在のアプローチは非現実的な仮定や長い最適化時間を必要とする。
そこで我々は,3D構造とカメラ位置を,一本のフィードフォワードパスをスパース・ポイント・トラック・マトリクス上に用いて動的コンテンツから推定できる,新しいディープラーニングベースのアプローチであるTracksTo4Dを提案する。
そこで我々は,近年の2次元点追跡の進歩を活用し,その対称性を活用して2次元点追跡を直接処理する等変ニューラルアーキテクチャを設計する。
TracksTo4Dは、3Dの監督なしにビデオから抽出された2Dポイントトラックのみを利用して、Wildのビデオのデータセットに基づいて訓練される。
実験の結果,TracksTo4Dは予測時に見つからないセマンティックなカテゴリの動画を一般化し,最先端の手法と同等な結果が得られる一方で,他のベースラインに比べて実行時間を大幅に削減できることがわかった。
関連論文リスト
- TAPIP3D: Tracking Any Point in Persistent 3D Geometry [25.357437591411347]
本稿では,モノクロおよびRGB-Dビデオにおける長期3次元点追跡の新しい手法であるTAPIP3Dを紹介する。
TAPIP3Dは、ビデオをカメラ安定化機能クラウドとして表現し、深度とカメラモーション情報を活用する。
以上の結果から,カメラモーションの補正によりトラッキング性能が向上することが示唆された。
論文 参考訳(メタデータ) (2025-04-20T19:09:43Z) - St4RTrack: Simultaneous 4D Reconstruction and Tracking in the World [106.91539872943864]
St4RTrackは、RGB入力から世界座標フレーム内の動的ビデオコンテンツを同時に再構成し、追跡するフレームワークである。
静的および動的シーン幾何学の両方をキャプチャして、同じ世界において、同時に両方のポイントマップを予測する。
統合されたデータ駆動フレームワークの有効性と効率を実証し、世界フレームの再構築と追跡のための新しい広範囲なベンチマークを構築します。
論文 参考訳(メタデータ) (2025-04-17T17:55:58Z) - Easi3R: Estimating Disentangled Motion from DUSt3R Without Training [48.87063562819018]
Easi3Rは,4次元再構成のための簡易かつ効率的なトレーニングフリー手法である。
提案手法は,事前学習やネットワークファインチューニングの必要性を排除し,推論中の注意適応を適用した。
実世界のダイナミックビデオの実験では、従来の最先端手法よりも軽量な注意適応が著しく優れていたことが示されている。
論文 参考訳(メタデータ) (2025-03-31T17:59:58Z) - VGGT: Visual Geometry Grounded Transformer [61.37669770946458]
VGGTは、シーンのすべての重要な3D属性を直接推論するフィードフォワードニューラルネットワークである。
ネットワークは、複数の3Dタスクで最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-03-14T17:59:47Z) - SIRE: SE(3) Intrinsic Rigidity Embeddings [16.630400019100943]
本稿では,オブジェクトの動作発見とシーンの動的再構築のための自己教師型手法であるSIREを紹介する。
本手法では,画像エンコーダを用いてシーンの剛性と形状を推定し,簡単な4次元再構成損失によって教師される。
以上の結果から,SIREは映像データから強い幾何や動きの剛性を,最小限の監督で学習できることが示唆された。
論文 参考訳(メタデータ) (2025-03-10T18:00:30Z) - 3D-Aware Instance Segmentation and Tracking in Egocentric Videos [107.10661490652822]
エゴセントリックなビデオは、3Dシーンの理解にユニークな課題を提示する。
本稿では,一対一のビデオにおけるインスタンスのセグメンテーションとトラッキングに対する新しいアプローチを提案する。
空間的および時間的手がかりを取り入れることで、最先端の2D手法と比較して優れた性能が得られる。
論文 参考訳(メタデータ) (2024-08-19T10:08:25Z) - Long-Term 3D Point Tracking By Cost Volume Fusion [2.3411633024711573]
テストタイムの微調整を必要とせず,新たなポイントやビデオに一般化する3Dの長期追跡のための,最初のディープラーニングフレームワークを提案する。
モデルでは,複数過去の外観と動き情報をトランスフォーマーアーキテクチャで統合し,全体的なトラッキング性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-07-18T09:34:47Z) - TAPVid-3D: A Benchmark for Tracking Any Point in 3D [63.060421798990845]
我々は,3Dにおける任意の点の追跡作業を評価するための新しいベンチマークTAPVid-3Dを導入する。
このベンチマークは、モノクロビデオから正確な3Dの動きと表面の変形を理解する能力を改善するためのガイドポストとして機能する。
論文 参考訳(メタデータ) (2024-07-08T13:28:47Z) - Instance Tracking in 3D Scenes from Egocentric Videos [18.02107257369472]
AR/VRデバイスのようなエゴセントリックなセンサーは、人間とオブジェクトのインタラクションをキャプチャし、タスクアシストを提供する。
この機能は、エゴセントリックビデオ(IT3DEgo)の現実世界の3Dシーンのインスタンス追跡を必要とする
RGBと深度ビデオ、フレームごとのカメラポーズ、および2Dカメラと3Dワールド座標の両方におけるインスタンスレベルのアノテーションからなる新しいベンチマークデータセットを導入する。
論文 参考訳(メタデータ) (2023-12-07T08:18:35Z) - PointOdyssey: A Large-Scale Synthetic Dataset for Long-Term Point
Tracking [90.29143475328506]
本稿では,大規模合成データセットとデータ生成フレームワークであるPointOdysseyを紹介する。
私たちのゴールは、自然主義的な動きを持つ長いビデオに重点を置いて、最先端の技術を推し進めることです。
実世界のモーションキャプチャーデータを用いて変形可能なキャラクタをアニメーション化し、モーションキャプチャー環境に合わせて3Dシーンを構築し、リアルビデオ上で構造から抽出したトラジェクトリを用いてカメラ視点を描画する。
論文 参考訳(メタデータ) (2023-07-27T17:58:11Z) - Tracking by 3D Model Estimation of Unknown Objects in Videos [122.56499878291916]
この表現は限定的であり、代わりに明示的なオブジェクト表現を用いて2次元追跡をガイドし改善することを提案する。
我々の表現は、全てのビデオフレームのオブジェクト上の全ての3Dポイント間の複雑な長期密度対応問題に取り組む。
提案手法は, 最適3次元形状, テクスチャ, 6DoFのポーズを推定するために, 新たな損失関数を最小化する。
論文 参考訳(メタデータ) (2023-04-13T11:32:36Z) - Monocular Quasi-Dense 3D Object Tracking [99.51683944057191]
周囲の物体の将来の位置を予測し、自律運転などの多くのアプリケーションで観測者の行動を計画するためには、信頼性と正確な3D追跡フレームワークが不可欠である。
移動プラットフォーム上で撮影された2次元画像のシーケンスから,移動物体を時間とともに効果的に関連付け,その全3次元バウンディングボックス情報を推定するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-12T15:30:02Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。