Fugu-MT 論文翻訳(概要): Humans as a Calibration Pattern: Dynamic 3D Scene Reconstruction from Unsynchronized and Uncalibrated Videos

論文の概要: Humans as a Calibration Pattern: Dynamic 3D Scene Reconstruction from Unsynchronized and Uncalibrated Videos

arxiv url: http://arxiv.org/abs/2412.19089v1
Date: Thu, 26 Dec 2024 07:04:20 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-30 21:44:05.076718
Title: Humans as a Calibration Pattern: Dynamic 3D Scene Reconstruction from Unsynchronized and Uncalibrated Videos
Title（参考訳）: 校正パターンとしての人間:非同期・非校正映像からの動的3次元シーン再構成
Authors: Changwoon Choi, Jeongjun Kim, Geonho Cha, Minkwan Kim, Dongyoon Wee, Young Min Kim,
Abstract要約: 動的ニューラルネットワークの最近のセットアップは、既知のポーズを持つマルチビュービデオからの入力を前提としている。ビデオのキャプチャが安定すれば、未知のポーズを持つアンチロナイズドビデオが動的ニューラルネットワークを生成できることを示す。
参考スコア（独自算出の注目度）: 12.19207713016543
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent works on dynamic neural field reconstruction assume input from synchronized multi-view videos with known poses. These input constraints are often unmet in real-world setups, making the approach impractical. We demonstrate that unsynchronized videos with unknown poses can generate dynamic neural fields if the videos capture human motion. Humans are one of the most common dynamic subjects whose poses can be estimated using state-of-the-art methods. While noisy, the estimated human shape and pose parameters provide a decent initialization for the highly non-convex and under-constrained problem of training a consistent dynamic neural representation. Given the sequences of pose and shape of humans, we estimate the time offsets between videos, followed by camera pose estimations by analyzing 3D joint locations. Then, we train dynamic NeRF employing multiresolution rids while simultaneously refining both time offsets and camera poses. The setup still involves optimizing many parameters, therefore, we introduce a robust progressive learning strategy to stabilize the process. Experiments show that our approach achieves accurate spatiotemporal calibration and high-quality scene reconstruction in challenging conditions.
Abstract（参考訳）: 動的ニューラルネットワーク再構成に関する最近の研究は、既知のポーズと同期化されたマルチビュービデオからの入力を前提としている。これらの入力制約は、しばしば実世界の設定では未成熟であり、アプローチを非現実的なものにしている。未知のポーズを持つ非同期ビデオは、ビデオが人間の動きを捉えている場合、ダイナミックなニューラルフィールドを生成することを実証する。人間は、最先端の手法を用いてポーズを推定できる最も一般的な動的主題の1つである。ノイズがある一方で、推定された人間の形状とポーズパラメータは、一貫した動的神経表現を訓練する非常に非凸で制約の少ない問題に対して、適切な初期化を提供する。人間のポーズのシーケンスと形状を考慮し,ビデオ間の時間相違を推定し,次いで3次元関節位置を解析してカメラのポーズ推定を行う。そして,マルチレゾリューションによる動的NeRFのトレーニングを行い,時間オフセットとカメラポーズの両方を同時に精錬する。このセットアップは、多くのパラメーターを最適化するので、プロセスの安定化のための堅牢なプログレッシブラーニング戦略を導入します。実験により,困難条件下での正確な時空間キャリブレーションと高品質なシーン再構築を実現することができた。

関連論文リスト

JOintGS: Joint Optimization of Cameras, Bodies and 3D Gaussians for In-the-Wild Monocular Reconstruction [18.636227266388218]
JOintGSは、カメラ外在物、人間のポーズ、および3Dガウス表現を協調的に最適化する統合フレームワークである。 NeuManとEMDBデータセットの実験は、JOintGSが優れた再構築品質を達成することを示した。
論文参考訳（メタデータ） (2026-02-04T08:33:51Z)
DGGT: Feedforward 4D Reconstruction of Dynamic Driving Scenes using Unposed Images [36.562825380568384]
ポーズレス動的シーン再構築のための統合フレームワークである textbf driving Gaussian Grounded Transformer (DGGT) を紹介する。提案手法は,フレームごとの3次元ガウスマップとカメラパラメータを共同で予測し,軽量なダイナミックヘッドでダイナミックスを歪曲する。拡散ベースのレンダリング改善により、運動・補間アーティファクトがさらに減少し、スパース入力下での新規ビュー品質が向上する。
論文参考訳（メタデータ） (2025-12-02T18:29:18Z)
GaVS: 3D-Grounded Video Stabilization via Temporally-Consistent Local Reconstruction and Rendering [54.489285024494855]
ビデオの安定化は、元のユーザの動きの意図を保ちながら、望ましくないシャキネスを除去するので、ビデオ処理に欠かせない。既存のアプローチは、運用するドメインによって、ユーザエクスペリエンスを低下させるいくつかの問題に悩まされます。ビデオの安定化を時間的に一貫性のある局所的再構成とレンダリングのパラダイムとして再構成する,新しい3Dグラウンドアプローチである textbfGaVS を紹介する。
論文参考訳（メタデータ） (2025-06-30T15:24:27Z)
Large-scale visual SLAM for in-the-wild videos [28.58692815339531]
カジュアルビデオから3D再構成を改善するために,ロバストなパイプラインを導入する。我々は近年の深部視覚計測法を基礎にしているが、いくつかの点で頑健性を高めている。各種環境におけるオンラインビデオの大規模連続3Dモデルについて紹介する。
論文参考訳（メタデータ） (2025-04-29T07:37:51Z)
Joint Optimization of Neural Radiance Fields and Continuous Camera Motion from a Monocular Video [22.760823792026056]
本稿では,連続カメラの動きを時間依存性の角速度と速度としてモデル化することにより,先行依存性を除去する手法を提案する。提案手法は,最先端手法と比較して,優れたカメラポーズと深度推定,および新規ビュー合成性能を実現する。
論文参考訳（メタデータ） (2025-04-28T14:22:04Z)
MonST3R: A Simple Approach for Estimating Geometry in the Presence of Motion [118.74385965694694]
我々は動的シーンから時間ステップごとの幾何を直接推定する新しい幾何学的アプローチであるMotion DUSt3R(MonST3R)を提案する。各タイムステップのポイントマップを単純に推定することで、静的シーンにのみ使用されるDUST3Rの表現を動的シーンに効果的に適応させることができる。我々は、問題を微調整タスクとしてポーズし、いくつかの適切なデータセットを特定し、この制限されたデータ上でモデルを戦略的に訓練することで、驚くほどモデルを動的に扱えることを示す。
論文参考訳（メタデータ） (2024-10-04T18:00:07Z)
EgoGaussian: Dynamic Scene Understanding from Egocentric Video with 3D Gaussian Splatting [95.44545809256473]
エゴガウスアン(EgoGaussian)は、3Dシーンを同時に再構築し、RGBエゴセントリックな入力のみから3Dオブジェクトの動きを動的に追跡する手法である。動的オブジェクトと背景再構築の品質の両面で,最先端技術と比較して大きな改善が見られた。
論文参考訳（メタデータ） (2024-06-28T10:39:36Z)
MultiPly: Reconstruction of Multiple People from Monocular Video in the Wild [32.6521941706907]
モノクラーインザワイルドビデオから3Dで複数の人物を再構成する新しいフレームワークであるMultiPlyを提案する。まず、シーン全体の階層化されたニューラル表現を定義し、個々の人間と背景モデルで合成する。階層化可能なボリュームレンダリングを通じて,ビデオから階層化ニューラル表現を学習する。
論文参考訳（メタデータ） (2024-06-03T17:59:57Z)
SceNeRFlow: Time-Consistent Reconstruction of General Dynamic Scenes [75.9110646062442]
我々はSceNeRFlowを提案し、時間的一貫性のある方法で一般的な非剛体シーンを再構築する。提案手法は,カメラパラメータを入力として,静止カメラからのマルチビューRGBビデオと背景画像を取得する。実験により,小規模動作のみを扱う先行作業とは異なり,スタジオスケール動作の再構築が可能であることが示された。
論文参考訳（メタデータ） (2023-08-16T09:50:35Z)
BAA-NGP: Bundle-Adjusting Accelerated Neural Graphics Primitives [6.431806897364565]
ロボットは2D画像から3D環境を理解することができる。本稿では,バンドル調整型高速化ニューラルネットワークプリミティブ(BAA-NGP)というフレームワークを提案する。その結果,他の束調整型ニューラルラジアンスフィールド法と比較して10～20倍の速度向上が得られた。
論文参考訳（メタデータ） (2023-06-07T05:36:45Z)
FlowCam: Training Generalizable 3D Radiance Fields without Camera Poses via Pixel-Aligned Scene Flow [26.528667940013598]
ポーズ画像からの3次元ニューラルネットワークの再構成は、自己教師付き表現学習の有望な方法として現れている。これらの3Dシーンの学習者が大規模ビデオデータに展開するのを防ぐ重要な課題は、構造から移動までの正確なカメラポーズに依存することである。本稿では,オンラインと1つのフォワードパスでカメラポーズと3Dニューラルシーン表現を共同で再構築する手法を提案する。
論文参考訳（メタデータ） (2023-05-31T20:58:46Z)
Scene-Aware 3D Multi-Human Motion Capture from a Single Camera [83.06768487435818]
静止カメラで記録された1枚のRGBビデオから、シーン内の複数の人間の3次元位置を推定し、その身体形状と調音を推定する問題を考察する。コンピュータビジョンの最近の進歩を,2次元の人体関節,関節角度,正規化不均等マップ,人間のセグメンテーションマスクなど,様々なモダリティのための大規模事前訓練モデルを用いて活用している。特に,2次元の関節と関節角度を用いた正規化不均等予測から,シーン深度とユニークな人格尺度を推定する。
論文参考訳（メタデータ） (2023-01-12T18:01:28Z)
Learning Dynamic View Synthesis With Few RGBD Cameras [60.36357774688289]
本稿では,RGBDカメラを用いて動的屋内シーンのフリー視点映像を合成することを提案する。我々は、RGBDフレームから点雲を生成し、それをニューラル機能を介して、自由視点ビデオにレンダリングする。そこで本研究では,未完成の深度を適応的に塗布して新規なビューを描画する,シンプルなRegional Depth-Inpaintingモジュールを提案する。
論文参考訳（メタデータ） (2022-04-22T03:17:35Z)
Spatiotemporal Bundle Adjustment for Dynamic 3D Human Reconstruction in the Wild [49.672487902268706]
本稿では,カメラの時間的アライメントと3次元点三角測量を共同で推定する枠組みを提案する。複数の無同期・無同期ビデオカメラで捉えたイベントにおいて、人間の身体の3次元運動軌跡を再構成する。
論文参考訳（メタデータ） (2020-07-24T23:50:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。