論文の概要: OpenVO: Open-World Visual Odometry with Temporal Dynamics Awareness
- arxiv url: http://arxiv.org/abs/2602.19035v1
- Date: Sun, 22 Feb 2026 04:18:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.455673
- Title: OpenVO: Open-World Visual Odometry with Temporal Dynamics Awareness
- Title(参考訳): OpenVO: 時間的ダイナミクスを意識したオープンワールドビジュアルオドメトリー
- Authors: Phuc D. A. Nguyen, Anh N. Nhu, Ming C. Lin,
- Abstract要約: 我々はオープンワールド・ビジュアル・オドメトリー(VO)のための新しいフレームワークであるOpenVOを紹介した。
OpenVOは、モノクラーダシュカムの映像から、観測速度の異なる実世界のエゴモーションを効果的に推定する。
- 参考スコア(独自算出の注目度): 20.241033894831357
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce OpenVO, a novel framework for Open-world Visual Odometry (VO) with temporal awareness under limited input conditions. OpenVO effectively estimates real-world-scale ego-motion from monocular dashcam footage with varying observation rates and uncalibrated cameras, enabling robust trajectory dataset construction from rare driving events recorded in dashcam. Existing VO methods are trained on fixed observation frequency (e.g., 10Hz or 12Hz), completely overlooking temporal dynamics information. Many prior methods also require calibrated cameras with known intrinsic parameters. Consequently, their performance degrades when (1) deployed under unseen observation frequencies or (2) applied to uncalibrated cameras. These significantly limit their generalizability to many downstream tasks, such as extracting trajectories from dashcam footage. To address these challenges, OpenVO (1) explicitly encodes temporal dynamics information within a two-frame pose regression framework and (2) leverages 3D geometric priors derived from foundation models. We validate our method on three major autonomous-driving benchmarks - KITTI, nuScenes, and Argoverse 2 - achieving more than 20 performance improvement over state-of-the-art approaches. Under varying observation rate settings, our method is significantly more robust, achieving 46%-92% lower errors across all metrics. These results demonstrate the versatility of OpenVO for real-world 3D reconstruction and diverse downstream applications.
- Abstract(参考訳): 我々は,オープンワールド・ビジュアル・オドメトリー(VO)のための新しいフレームワークOpenVOを紹介した。
OpenVOは、モノクラーダシュカムの映像から様々な観察速度と未調整カメラで実世界のエゴ運動を効果的に推定し、ダシュカムに記録された稀な運転イベントから堅牢な軌道データセットの構築を可能にした。
既存のVO法は固定された観測周波数(例えば10Hz、12Hz)で訓練され、時間力学情報を完全に見下ろしている。
多くの従来手法では、固有のパラメータが既知のキャリブレーションカメラも必要であった。
その結果、(1)見知らぬ観測周波数で展開された場合、または(2)校正されていないカメラに適用された場合、性能は低下する。
これらは、ダッシュカムの映像から軌跡を抽出するなど、下流の多くのタスクにその一般化可能性を大幅に制限した。
これらの課題に対処するため,OpenVO (1) は2フレームポーズ回帰フレームワーク内で時間力学情報を明示的にエンコードし,(2) 基礎モデルから派生した3次元幾何学的事前情報を活用する。
我々は、KITTI、nuScenes、Argoverse 2の3つの主要な自動運転ベンチマークで、最先端のアプローチよりも20以上のパフォーマンス改善を実現しています。
様々な観測速度設定の下では,本手法はより頑健であり,全測定値に対して46%~92%の誤差が得られた。
これらの結果は、現実世界の3D再構成と多様な下流アプリケーションにおけるOpenVOの汎用性を示している。
関連論文リスト
- Infinite-Homography as Robust Conditioning for Camera-Controlled Video Generation [49.12018869332346]
InfCamは、高ポーズ忠実度でカメラ制御されたビデオ・ビデオ生成フレームワークである。
1)ビデオ拡散モデルの2次元潜在空間内で直接3次元カメラ回転を符号化する。
論文 参考訳(メタデータ) (2025-12-18T20:03:05Z) - DGGT: Feedforward 4D Reconstruction of Dynamic Driving Scenes using Unposed Images [36.562825380568384]
ポーズレス動的シーン再構築のための統合フレームワークである textbf driving Gaussian Grounded Transformer (DGGT) を紹介する。
提案手法は,フレームごとの3次元ガウスマップとカメラパラメータを共同で予測し,軽量なダイナミックヘッドでダイナミックスを歪曲する。
拡散ベースのレンダリング改善により、運動・補間アーティファクトがさらに減少し、スパース入力下での新規ビュー品質が向上する。
論文 参考訳(メタデータ) (2025-12-02T18:29:18Z) - Open-o3 Video: Grounded Video Reasoning with Explicit Spatio-Temporal Evidence [70.2803680525165]
我々は、明示的な証拠をビデオ推論に統合する非エージェントフレームワークであるOpen-o3 Videoを紹介した。
このモデルは、キーオブジェクトとバウンディングボックスをその答えとともに強調し、推論を具体的な視覚的な観察で基礎付けることができる。
V-STARベンチマークでは、Open-o3 Videoは最先端のパフォーマンスを達成し、mAMを14.4%、mLタイムスタンプを24.2%向上させた。
論文 参考訳(メタデータ) (2025-10-23T14:05:56Z) - Lightweight Multi-Frame Integration for Robust YOLO Object Detection in Videos [11.532574301455854]
マルチフレームビデオオブジェクト検出のための高効率な手法を提案する。
我々の手法は、特に軽量モデルにおいて堅牢性を改善する。
我々はBOAT360ベンチマークデータセットを寄贈し、現実のシナリオに挑戦するマルチフレームビデオオブジェクト検出における将来の研究を支援する。
論文 参考訳(メタデータ) (2025-06-25T15:49:07Z) - DiVE: Efficient Multi-View Driving Scenes Generation Based on Video Diffusion Transformer [56.98400572837792]
DiVEは高忠実で、時間的コヒーレントで、相互に一貫したマルチビュービデオを生成する。
これらの革新は総じて、最小品質の劣化を伴う2.62倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2025-04-28T09:20:50Z) - SuperFlow++: Enhanced Spatiotemporal Consistency for Cross-Modal Data Pretraining [62.433137130087445]
SuperFlow++は、連続するカメラペアを使用して事前トレーニングと下流タスクを統合する新しいフレームワークである。
SuperFlow++は様々なタスクや運転条件で最先端のメソッドよりも優れています。
強力な一般化性と計算効率により、SuperFlow++は、自動運転におけるデータ効率の高いLiDARベースの認識のための新しいベンチマークを確立する。
論文 参考訳(メタデータ) (2025-03-25T17:59:57Z) - DATAP-SfM: Dynamic-Aware Tracking Any Point for Robust Structure from Motion in the Wild [85.03973683867797]
本稿では,スムーズなカメラ軌跡を推定し,野生のカジュアルビデオのための高密度点雲を得るための,簡潔でエレガントでロバストなパイプラインを提案する。
提案手法は,複雑な動的課題シーンにおいても,カメラポーズ推定による最先端性能を実現する。
論文 参考訳(メタデータ) (2024-11-20T13:01:16Z) - Application of 2D Homography for High Resolution Traffic Data Collection
using CCTV Cameras [9.946460710450319]
本研究では,CCTVカメラから高精細なトラフィックデータを抽出するための3段階のビデオ分析フレームワークを実装した。
このフレームワークの主要な構成要素は、オブジェクト認識、視点変換、車両軌道再構成である。
その結果, カメラ推定値間の速度偏差は10%以下で, 方向トラフィック数では+/-4.5%の誤差率を示した。
論文 参考訳(メタデータ) (2024-01-14T07:33:14Z) - XVO: Generalized Visual Odometry via Cross-Modal Self-Training [11.70220331540621]
XVOは、一般化された単眼視眼視(英語版)モデル(英語版)(VO)を訓練するための半教師付き学習法である。
単一のデータセット内の既知のキャリブレーションをよく研究する標準的な単分子VOアプローチとは対照的に、XVOは現実のスケールで相対的なポーズを回復するのを効率的に学習する。
そこで我々は,YouTubeで公開されている大量の非拘束・異質なダッシュカメラビデオから,自己学習による動作推定モデルを最適化した。
論文 参考訳(メタデータ) (2023-09-28T18:09:40Z) - Benchmarking the Robustness of LiDAR-Camera Fusion for 3D Object
Detection [58.81316192862618]
自律運転における3D知覚のための2つの重要なセンサーは、カメラとLiDARである。
これら2つのモダリティを融合させることで、3次元知覚モデルの性能を大幅に向上させることができる。
我々は、最先端の核融合法を初めてベンチマークした。
論文 参考訳(メタデータ) (2022-05-30T09:35:37Z) - Feature-based Event Stereo Visual Odometry [2.7298989068857487]
本稿では,特徴検出と注意深い特徴管理の整合性に基づく,イベントカメラのための新しいステレオ・ビジュアル・オドメトリー法を提案する。
提案手法を,屋内飛行ドローンが取得したMVSECシーケンスとDSEC屋外運転シーケンスの2つの公開データセットで評価した。
論文 参考訳(メタデータ) (2021-07-10T22:36:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。