論文の概要: VROOM - Visual Reconstruction over Onboard Multiview
- arxiv url: http://arxiv.org/abs/2508.17172v1
- Date: Sun, 24 Aug 2025 00:44:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.384068
- Title: VROOM - Visual Reconstruction over Onboard Multiview
- Title(参考訳): VROOM - 搭載マルチビューによる視覚再構成
- Authors: Yajat Yadav, Varun Bharadwaj, Jathin Korrapati, Tanish Baranwal,
- Abstract要約: Vroomはフォーミュラ1のサーキットの3Dモデルを、レースカーのカメラ映像のみを使って再構築するシステムである。
私たちのパイプラインでは、DROID-SLAM、AnyCam、Monst3rといったさまざまなメソッドを分析しています。
Vroomは複雑な環境下でトラックや車両の軌道を部分的に復元できることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce VROOM, a system for reconstructing 3D models of Formula 1 circuits using only onboard camera footage from racecars. Leveraging video data from the 2023 Monaco Grand Prix, we address video challenges such as high-speed motion and sharp cuts in camera frames. Our pipeline analyzes different methods such as DROID-SLAM, AnyCam, and Monst3r and combines preprocessing techniques such as different methods of masking, temporal chunking, and resolution scaling to account for dynamic motion and computational constraints. We show that Vroom is able to partially recover track and vehicle trajectories in complex environments. These findings indicate the feasibility of using onboard video for scalable 4D reconstruction in real-world settings. The project page can be found at https://varun-bharadwaj.github.io/vroom, and our code is available at https://github.com/yajatyadav/vroom.
- Abstract(参考訳): レースカーのカメラ映像のみを用いたフォーミュラ1回路の3次元モデル再構成システムであるVROOMを紹介する。
2023年のモナコグランプリのビデオデータを活用することで、高速モーションやカメラフレームのシャープカットといった課題に対処する。
我々のパイプラインは、DROID-SLAM、AnyCam、Monst3rといった様々な手法を分析し、マスキング、時間チャンキング、解像度スケーリングといった様々な前処理技術を組み合わせて、動的動きや計算制約を考慮に入れます。
Vroomは複雑な環境下でトラックや車両の軌道を部分的に復元できることを示す。
これらの結果から,実環境におけるスケーラブルな4次元再構成を実現するために,オンボードビデオの利用の可能性が示唆された。
プロジェクトのページはhttps://varun-bharadwaj.github.io/vroomにある。
関連論文リスト
- ReCamMaster: Camera-Controlled Generative Rendering from A Single Video [72.42376733537925]
ReCamMasterは、カメラ制御された生成ビデオの再レンダリングフレームワークである。
これは、新しいカメラ軌道における入力ビデオのダイナミックなシーンを再現する。
また,ビデオの安定化,超高解像度化,画質向上に有望な応用を見出した。
論文 参考訳(メタデータ) (2025-03-14T17:59:31Z) - MegaSaM: Accurate, Fast, and Robust Structure and Motion from Casual Dynamic Videos [104.1338295060383]
本研究では,ダイナミックシーンのカジュアルモノクラー映像から,カメラパラメータと奥行きマップの精度,高速,堅牢な推定を可能にするシステムを提案する。
本システムは,先行作業や同時作業と比較して,カメラポーズや深度推定において有意に精度が高く,頑健である。
論文 参考訳(メタデータ) (2024-12-05T18:59:42Z) - Generating 3D-Consistent Videos from Unposed Internet Photos [68.944029293283]
カメラパラメータなどの3Dアノテーションを使わずに,スケーラブルな3D対応ビデオモデルをトレーニングする。
その結果,映像やマルチビューインターネット写真などの2次元データのみを用いて,シーンレベルの3D学習をスケールアップできることが示唆された。
論文 参考訳(メタデータ) (2024-11-20T18:58:31Z) - Cavia: Camera-controllable Multi-view Video Diffusion with View-Integrated Attention [62.2447324481159]
Caviaはカメラ制御可能なマルチビュービデオ生成のための新しいフレームワークである。
我々のフレームワークは、空間的および時間的注意モジュールを拡張し、視点と時間的一貫性を改善します。
Caviaは、ユーザーが物体の動きを取得しながら、異なるカメラの動きを特定できる最初の製品だ。
論文 参考訳(メタデータ) (2024-10-14T17:46:32Z) - DriveScape: Towards High-Resolution Controllable Multi-View Driving Video Generation [10.296670127024045]
DriveScapeは、マルチビュー、3D条件付きビデオ生成のためのエンドツーエンドフレームワークである。
我々のBi-Directional Modulated Transformer (BiMot)は3次元構造情報の正確なアライメントを保証する。
DriveScapeはビデオ生成性能に優れ、FIDスコア8.34、FVDスコア76.39でnuScenesデータセットの最先端結果を達成する。
論文 参考訳(メタデータ) (2024-09-09T09:43:17Z) - Learning Trajectory-Aware Transformer for Video Super-Resolution [50.49396123016185]
ビデオ超解像は、高解像度(HR)フレームを低解像度(LR)フレームから復元することを目的としている。
既存のアプローチは通常、隣接する限られたフレームからビデオフレームを並べて集約する。
ビデオ超解像用トランスフォーマー(TTVSR)を提案する。
論文 参考訳(メタデータ) (2022-04-08T03:37:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。