Fugu-MT 論文翻訳(概要): Stereo4D: Learning How Things Move in 3D from Internet Stereo Videos

論文の概要: Stereo4D: Learning How Things Move in 3D from Internet Stereo Videos

arxiv url: http://arxiv.org/abs/2412.09621v2
Date: Wed, 30 Apr 2025 17:59:59 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-02 19:15:52.176909
Title: Stereo4D: Learning How Things Move in 3D from Internet Stereo Videos
Title（参考訳）: Stereo4D:インターネットのステレオビデオから3Dの動作を学習する
Authors: Linyi Jin, Richard Tucker, Zhengqi Li, David Fouhey, Noah Snavely, Aleksander Holynski,
Abstract要約: 本稿では,インターネットの立体視,広角ビデオから高品質な4D再構成をマイニングするシステムを提案する。本研究では,この手法を用いて世界整合型擬似3次元点雲の形で大規模データを生成する。 DUSt3Rの変種をトレーニングし、実世界の画像対から構造と3次元運動を予測することで、このデータの有用性を実証する。
参考スコア（独自算出の注目度）: 76.07894127235058
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Learning to understand dynamic 3D scenes from imagery is crucial for applications ranging from robotics to scene reconstruction. Yet, unlike other problems where large-scale supervised training has enabled rapid progress, directly supervising methods for recovering 3D motion remains challenging due to the fundamental difficulty of obtaining ground truth annotations. We present a system for mining high-quality 4D reconstructions from internet stereoscopic, wide-angle videos. Our system fuses and filters the outputs of camera pose estimation, stereo depth estimation, and temporal tracking methods into high-quality dynamic 3D reconstructions. We use this method to generate large-scale data in the form of world-consistent, pseudo-metric 3D point clouds with long-term motion trajectories. We demonstrate the utility of this data by training a variant of DUSt3R to predict structure and 3D motion from real-world image pairs, showing that training on our reconstructed data enables generalization to diverse real-world scenes. Project page and data at: https://stereo4d.github.io
Abstract（参考訳）: 画像からダイナミックな3Dシーンを理解することは、ロボット工学からシーン再構築に至るまで、アプリケーションにとって不可欠である。しかし,大規模な教師付き訓練が急速に進歩した他の問題とは異なり,地上の真理アノテーションの入手が困難なため,直接的に3次元動作を復元する手法は依然として困難である。本稿では,インターネットの立体視,広角ビデオから高品質な4D再構成をマイニングするシステムを提案する。提案システムは, カメラポーズ推定, ステレオ深度推定, 時間追跡手法の出力を高速な動的3次元再構成に融合・フィルタする。我々はこの手法を用いて,長時間の運動軌跡を持つ世界一貫性の擬似3次元点雲の形で大規模データを生成する。我々は,DUSt3Rの変種をトレーニングして実世界のイメージペアから構造と3次元運動を予測することで,このデータの有用性を実証する。プロジェクトページとデータ https://stereo4d.github.io

関連論文リスト

Ross3D: Reconstructive Visual Instruction Tuning with 3D-Awareness [73.72335146374543]
本稿では,3次元視覚指導を訓練手順に組み込んだ3次元視覚指導法(Ross3D)について紹介する。 Ross3Dは様々な3Dシーン理解ベンチマークで最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-04-02T16:59:55Z)
Easi3R: Estimating Disentangled Motion from DUSt3R Without Training [48.87063562819018]
Easi3Rは,4次元再構成のための簡易かつ効率的なトレーニングフリー手法である。提案手法は,事前学習やネットワークファインチューニングの必要性を排除し,推論中の注意適応を適用した。実世界のダイナミックビデオの実験では、従来の最先端手法よりも軽量な注意適応が著しく優れていたことが示されている。
論文参考訳（メタデータ） (2025-03-31T17:59:58Z)
Wonderland: Navigating 3D Scenes from a Single Image [43.99037613068823]
本研究では,映像拡散モデルからの潜伏分を利用した大規模再構成モデルを導入し,映像の3次元ガウススプラッティングをフィードフォワードで予測する。プログレッシブ・ラーニング・ストラテジーを用いて3次元再構成モデルをトレーニングし,高品質でワイドスコープ,ジェネリックな3次元シーンの効率的な生成を可能にする。
論文参考訳（メタデータ） (2024-12-16T18:58:17Z)
DO3D: Self-supervised Learning of Decomposed Object-aware 3D Motion and Depth from Monocular Videos [76.01906393673897]
本研究では,モノクラービデオから3次元運動と深度を協調的に学習する自己教師手法を提案する。本システムでは,深度を推定する深度推定モジュールと,エゴモーションと3次元物体の動きを推定する新しい分解対象3次元運動推定モジュールを備える。我々のモデルは評価されたすべての設定において優れたパフォーマンスを提供する。
論文参考訳（メタデータ） (2024-03-09T12:22:46Z)
PonderV2: Pave the Way for 3D Foundation Model with A Universal Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。 PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文参考訳（メタデータ） (2023-10-12T17:59:57Z)
R3D3: Dense 3D Reconstruction of Dynamic Scenes from Multiple Cameras [106.52409577316389]
R3D3は高密度3次元再構成とエゴモーション推定のためのマルチカメラシステムである。提案手法は,複数のカメラからの時空間情報と単眼深度補正を利用する。この設計により、困難で動的な屋外環境の密集した一貫した3次元再構成が可能になる。
論文参考訳（メタデータ） (2023-08-28T17:13:49Z)
AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。 3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文参考訳（メタデータ） (2023-07-07T17:59:14Z)
3D Reconstruction of Objects in Hands without Real World 3D Supervision [12.70221786947807]
ハンドヘルドオブジェクトを再構築するためのモデル学習をスケールアップするために,3Dインスペクションを活用するモジュールを提案する。具体的には、ビデオから多視点2Dマスクの監視を抽出し、形状収集から3次元形状の前兆を抽出する。我々はこれらの間接的な3次元キューを用いて、単一のRGB画像から物体の3次元形状を予測する占有ネットワークを訓練する。
論文参考訳（メタデータ） (2023-05-04T17:56:48Z)
Learning 3D Scene Priors with 2D Supervision [37.79852635415233]
本研究では,3次元の地平を必要とせず,レイアウトや形状の3次元シーンを学習するための新しい手法を提案する。提案手法は, 3次元シーンを潜在ベクトルとして表現し, クラスカテゴリを特徴とするオブジェクト列に段階的に復号化することができる。 3D-FRONT と ScanNet による実験により,本手法は単一視点再構成における技術状況よりも優れていた。
論文参考訳（メタデータ） (2022-11-25T15:03:32Z)
YOLOStereo3D: A Step Back to 2D for Efficient Stereo 3D Detection [6.5702792909006735]
YOLOStereo3Dは1つのGPUでトレーニングされ、10fps以上で動作する。 LiDARデータを使わずに、最先端のステレオ3D検出フレームワークに匹敵するパフォーマンスを示す。
論文参考訳（メタデータ） (2021-03-17T03:43:54Z)
Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文参考訳（メタデータ） (2020-04-05T12:52:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。