Fugu-MT 論文翻訳(概要): Fast Encoder-Based 3D from Casual Videos via Point Track Processing

論文の概要: Fast Encoder-Based 3D from Casual Videos via Point Track Processing

arxiv url: http://arxiv.org/abs/2404.07097v2
Date: Wed, 26 Jun 2024 20:09:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-28 19:16:49.537749
Title: Fast Encoder-Based 3D from Casual Videos via Point Track Processing
Title（参考訳）: ポイントトラック処理によるカジュアル映像からの高速エンコーダベース3D
Authors: Yoni Kasten, Wuyue Lu, Haggai Maron,
Abstract要約: そこで我々は,カジュアルビデオから3D構造とカメラの位置を動的コンテンツから推定できる学習ベースのTracksTo4Dを提案する。 TracksTo4Dは、カジュアルなビデオのデータセットに基づいて教師なしの方法で訓練される。実験により、TracksTo4Dは、最先端の手法に匹敵する精度で、基礎となるビデオの時間点雲とカメラの位置を再構築できることが示された。
参考スコア（独自算出の注目度）: 22.563073026889324
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper addresses the long-standing challenge of reconstructing 3D structures from videos with dynamic content. Current approaches to this problem were not designed to operate on casual videos recorded by standard cameras or require a long optimization time. Aiming to significantly improve the efficiency of previous approaches, we present TracksTo4D, a learning-based approach that enables inferring 3D structure and camera positions from dynamic content originating from casual videos using a single efficient feed-forward pass. To achieve this, we propose operating directly over 2D point tracks as input and designing an architecture tailored for processing 2D point tracks. Our proposed architecture is designed with two key principles in mind: (1) it takes into account the inherent symmetries present in the input point tracks data, and (2) it assumes that the movement patterns can be effectively represented using a low-rank approximation. TracksTo4D is trained in an unsupervised way on a dataset of casual videos utilizing only the 2D point tracks extracted from the videos, without any 3D supervision. Our experiments show that TracksTo4D can reconstruct a temporal point cloud and camera positions of the underlying video with accuracy comparable to state-of-the-art methods, while drastically reducing runtime by up to 95\%. We further show that TracksTo4D generalizes well to unseen videos of unseen semantic categories at inference time.
Abstract（参考訳）: 本稿では,動的コンテンツを用いたビデオから3次元構造を再構築する上での長年の課題について述べる。この問題に対する現在のアプローチは、標準的なカメラで記録されたカジュアルなビデオや、長い最適化時間を必要としないように設計されている。従来のアプローチの効率を大幅に向上することを目的として,1つの効率的なフィードフォワードパスを用いてカジュアルビデオから3D構造とカメラ位置を推定できる学習ベースのアプローチであるTracksTo4Dを提案する。そこで本研究では,2次元点線処理に適したアーキテクチャを入力として,直接2次元点線を動作させることを提案する。提案アーキテクチャは,(1)入力点トラックデータに存在する固有対称性を考慮し,(2)低ランク近似を用いて移動パターンを効果的に表現できる,という2つの原則を念頭に設計されている。 TracksTo4Dは、ビデオから抽出された2Dポイントトラックのみを利用して、カジュアルなビデオのデータセットに基づいて、教師なしの方法で訓練される。実験の結果,TracksTo4Dは映像の時間点雲とカメラの位置を,最先端の手法に匹敵する精度で再構成でき,ランタイムを最大95%削減できることがわかった。さらに、TracksTo4Dは推論時に目に見えないセマンティックなカテゴリーの動画を一般化することを示した。

関連論文リスト

SpatialTrackerV2: 3D Point Tracking Made Easy [73.0350898700048]
SpaceTrackerV2はモノクロビデオのフィードフォワード3Dポイントトラッキング手法である。これは、世界空間の3Dモーションをシーン幾何学、カメラエゴモーション、ピクセルワイドオブジェクトモーションに分解する。このような異種データから幾何学と運動を共同で学習することで、SpatialTrackerV2は既存の3Dトラッキング方法よりも30%優れています。
論文参考訳（メタデータ） (2025-07-16T17:59:03Z)
TAPIP3D: Tracking Any Point in Persistent 3D Geometry [25.357437591411347]
本稿では,モノクロおよびRGB-Dビデオにおける長期3次元点追跡の新しい手法であるTAPIP3Dを紹介する。 TAPIP3Dは、ビデオをカメラ安定化機能クラウドとして表現し、深度とカメラモーション情報を活用する。以上の結果から,カメラモーションの補正によりトラッキング性能が向上することが示唆された。
論文参考訳（メタデータ） (2025-04-20T19:09:43Z)
St4RTrack: Simultaneous 4D Reconstruction and Tracking in the World [106.91539872943864]
St4RTrackは、RGB入力から世界座標フレーム内の動的ビデオコンテンツを同時に再構成し、追跡するフレームワークである。静的および動的シーン幾何学の両方をキャプチャして、同じ世界において、同時に両方のポイントマップを予測する。統合されたデータ駆動フレームワークの有効性と効率を実証し、世界フレームの再構築と追跡のための新しい広範囲なベンチマークを構築します。
論文参考訳（メタデータ） (2025-04-17T17:55:58Z)
Easi3R: Estimating Disentangled Motion from DUSt3R Without Training [48.87063562819018]
Easi3Rは,4次元再構成のための簡易かつ効率的なトレーニングフリー手法である。提案手法は,事前学習やネットワークファインチューニングの必要性を排除し,推論中の注意適応を適用した。実世界のダイナミックビデオの実験では、従来の最先端手法よりも軽量な注意適応が著しく優れていたことが示されている。
論文参考訳（メタデータ） (2025-03-31T17:59:58Z)
VGGT: Visual Geometry Grounded Transformer [61.37669770946458]
VGGTは、シーンのすべての重要な3D属性を直接推論するフィードフォワードニューラルネットワークである。ネットワークは、複数の3Dタスクで最先端の結果を達成する。
論文参考訳（メタデータ） (2025-03-14T17:59:47Z)
SIRE: SE(3) Intrinsic Rigidity Embeddings [16.630400019100943]
本稿では,オブジェクトの動作発見とシーンの動的再構築のための自己教師型手法であるSIREを紹介する。本手法では,画像エンコーダを用いてシーンの剛性と形状を推定し,簡単な4次元再構成損失によって教師される。以上の結果から,SIREは映像データから強い幾何や動きの剛性を,最小限の監督で学習できることが示唆された。
論文参考訳（メタデータ） (2025-03-10T18:00:30Z)
3D-Aware Instance Segmentation and Tracking in Egocentric Videos [107.10661490652822]
エゴセントリックなビデオは、3Dシーンの理解にユニークな課題を提示する。本稿では,一対一のビデオにおけるインスタンスのセグメンテーションとトラッキングに対する新しいアプローチを提案する。空間的および時間的手がかりを取り入れることで、最先端の2D手法と比較して優れた性能が得られる。
論文参考訳（メタデータ） (2024-08-19T10:08:25Z)
Long-Term 3D Point Tracking By Cost Volume Fusion [2.3411633024711573]
テストタイムの微調整を必要とせず,新たなポイントやビデオに一般化する3Dの長期追跡のための,最初のディープラーニングフレームワークを提案する。モデルでは,複数過去の外観と動き情報をトランスフォーマーアーキテクチャで統合し,全体的なトラッキング性能を大幅に向上させる。
論文参考訳（メタデータ） (2024-07-18T09:34:47Z)
TAPVid-3D: A Benchmark for Tracking Any Point in 3D [63.060421798990845]
我々は,3Dにおける任意の点の追跡作業を評価するための新しいベンチマークTAPVid-3Dを導入する。このベンチマークは、モノクロビデオから正確な3Dの動きと表面の変形を理解する能力を改善するためのガイドポストとして機能する。
論文参考訳（メタデータ） (2024-07-08T13:28:47Z)
Instance Tracking in 3D Scenes from Egocentric Videos [18.02107257369472]
AR/VRデバイスのようなエゴセントリックなセンサーは、人間とオブジェクトのインタラクションをキャプチャし、タスクアシストを提供する。この機能は、エゴセントリックビデオ(IT3DEgo)の現実世界の3Dシーンのインスタンス追跡を必要とする RGBと深度ビデオ、フレームごとのカメラポーズ、および2Dカメラと3Dワールド座標の両方におけるインスタンスレベルのアノテーションからなる新しいベンチマークデータセットを導入する。
論文参考訳（メタデータ） (2023-12-07T08:18:35Z)
PointOdyssey: A Large-Scale Synthetic Dataset for Long-Term Point Tracking [90.29143475328506]
本稿では,大規模合成データセットとデータ生成フレームワークであるPointOdysseyを紹介する。私たちのゴールは、自然主義的な動きを持つ長いビデオに重点を置いて、最先端の技術を推し進めることです。実世界のモーションキャプチャーデータを用いて変形可能なキャラクタをアニメーション化し、モーションキャプチャー環境に合わせて3Dシーンを構築し、リアルビデオ上で構造から抽出したトラジェクトリを用いてカメラ視点を描画する。
論文参考訳（メタデータ） (2023-07-27T17:58:11Z)
Tracking by 3D Model Estimation of Unknown Objects in Videos [122.56499878291916]
この表現は限定的であり、代わりに明示的なオブジェクト表現を用いて2次元追跡をガイドし改善することを提案する。我々の表現は、全てのビデオフレームのオブジェクト上の全ての3Dポイント間の複雑な長期密度対応問題に取り組む。提案手法は, 最適3次元形状, テクスチャ, 6DoFのポーズを推定するために, 新たな損失関数を最小化する。
論文参考訳（メタデータ） (2023-04-13T11:32:36Z)
Monocular Quasi-Dense 3D Object Tracking [99.51683944057191]
周囲の物体の将来の位置を予測し、自律運転などの多くのアプリケーションで観測者の行動を計画するためには、信頼性と正確な3D追跡フレームワークが不可欠である。移動プラットフォーム上で撮影された2次元画像のシーケンスから,移動物体を時間とともに効果的に関連付け,その全3次元バウンディングボックス情報を推定するフレームワークを提案する。
論文参考訳（メタデータ） (2021-03-12T15:30:02Z)
Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文参考訳（メタデータ） (2020-04-05T12:52:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。