論文の概要: ZeroVO: Visual Odometry with Minimal Assumptions
- arxiv url: http://arxiv.org/abs/2506.08005v1
- Date: Mon, 09 Jun 2025 17:59:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:11.110788
- Title: ZeroVO: Visual Odometry with Minimal Assumptions
- Title(参考訳): ZeroVO: 最小消費のビジュアルオドメトリ
- Authors: Lei Lai, Zekai Yin, Eshed Ohn-Bar,
- Abstract要約: 我々は,様々なカメラや環境にまたがるゼロショットの一般化を実現する新しいビジュアル・オドメトリー(VO)アルゴリズムであるZeroVOを紹介する。
我々は,推定深度およびカメラパラメータのノイズを処理できるキャリブレーションのない幾何対応ネットワーク構造を設計する。
我々は、複雑な自律運転状況を分析し、従来の方法に対して30%以上の改善を示す。
- 参考スコア(独自算出の注目度): 5.694070924765915
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce ZeroVO, a novel visual odometry (VO) algorithm that achieves zero-shot generalization across diverse cameras and environments, overcoming limitations in existing methods that depend on predefined or static camera calibration setups. Our approach incorporates three main innovations. First, we design a calibration-free, geometry-aware network structure capable of handling noise in estimated depth and camera parameters. Second, we introduce a language-based prior that infuses semantic information to enhance robust feature extraction and generalization to previously unseen domains. Third, we develop a flexible, semi-supervised training paradigm that iteratively adapts to new scenes using unlabeled data, further boosting the models' ability to generalize across diverse real-world scenarios. We analyze complex autonomous driving contexts, demonstrating over 30% improvement against prior methods on three standard benchmarks, KITTI, nuScenes, and Argoverse 2, as well as a newly introduced, high-fidelity synthetic dataset derived from Grand Theft Auto (GTA). By not requiring fine-tuning or camera calibration, our work broadens the applicability of VO, providing a versatile solution for real-world deployment at scale.
- Abstract(参考訳): 我々は、様々なカメラや環境にまたがるゼロショットの一般化を実現する新しいビジュアルオドメトリ(VO)アルゴリズムであるZeroVOを導入し、事前定義されたカメラキャリブレーション設定や静的カメラキャリブレーション設定に依存する既存の手法の制限を克服する。
このアプローチには3つの主要なイノベーションが組み込まれています。
まず,推定深度およびカメラパラメータのノイズを処理できるキャリブレーションのない幾何対応ネットワーク構造を設計する。
第二に, 意味情報を注入し, 頑健な特徴抽出と, 以前は見つからなかった領域への一般化を促進させる言語に基づく先行手法を導入する。
第3に、ラベルのないデータを使って新しいシーンに反復的に適応するフレキシブルで半教師付きトレーニングパラダイムを開発し、さまざまな現実世界のシナリオをまたいでモデルを一般化する能力をさらに強化する。
我々は、複雑な自律運転状況を分析し、KITTI、nuScenes、Argoverse 2の3つの標準ベンチマークにおいて、従来の手法に対して30%以上の改善を示すとともに、Grand Theft Auto (GTA)から新たに導入された高忠実な合成データセットを解析した。
微調整やカメラキャリブレーションを必要とせず、VOの適用性を広げ、大規模な実世界の展開に汎用的なソリューションを提供する。
関連論文リスト
- Intern-GS: Vision Model Guided Sparse-View 3D Gaussian Splatting [95.61137026932062]
Intern-GSはスパースビューガウススプラッティングのプロセスを強化する新しいアプローチである。
Intern-GSは多様なデータセットにまたがって最先端のレンダリング品質を実現する。
論文 参考訳(メタデータ) (2025-05-27T05:17:49Z) - OPUS: Occupancy Prediction Using a Sparse Set [64.60854562502523]
学習可能なクエリの集合を用いて、占有された場所とクラスを同時に予測するフレームワークを提案する。
OPUSには、モデルパフォーマンスを高めるための非自明な戦略が組み込まれている。
最も軽量なモデルではOcc3D-nuScenesデータセットの2倍 FPS に優れたRayIoUが得られる一方、最も重いモデルは6.1 RayIoUを上回ります。
論文 参考訳(メタデータ) (2024-09-14T07:44:22Z) - Research on Personalized Compression Algorithm for Pre-trained Models Based on Homomorphic Entropy Increase [2.6513322539118582]
我々は、現在のAI分野における2つの重要な技術の課題と進化を探求する:ビジョントランスフォーマーモデルと大規模言語モデル(LLM)。
Vision Transformerは、イメージを小さな断片に分割することで、グローバルな情報をキャプチャするが、その高い参照数とモバイル機器へのオーバヘッド制限の配置を計算する。
LLMは自然言語処理に革命をもたらしたが、デプロイメントの課題にも直面している。
論文 参考訳(メタデータ) (2024-08-16T11:56:49Z) - S3O: A Dual-Phase Approach for Reconstructing Dynamic Shape and Skeleton of Articulated Objects from Single Monocular Video [13.510513575340106]
単一の単眼映像から動的に調音された物体を再構成することは困難であり、限られた視点から形状、動き、カメラパラメータを共同で推定する必要がある。
可視形状や下層の骨格を含むパラメトリックモデルを効率的に学習する新しい2相法であるS3Oを提案する。
標準ベンチマークとPlanetZooデータセットの実験により、S3Oはより正確な3D再構成と可塑性骨格を提供し、最先端技術と比較してトレーニング時間を約60%短縮することを確認した。
論文 参考訳(メタデータ) (2024-05-21T09:01:00Z) - GeoWizard: Unleashing the Diffusion Priors for 3D Geometry Estimation from a Single Image [94.56927147492738]
単一画像から幾何学的属性を推定するための新しい生成基盤モデルであるGeoWizardを紹介する。
拡散前処理の活用は,資源利用における一般化,詳細な保存,効率性を著しく向上させることが示唆された。
本稿では,様々なシーンの複雑なデータ分布を,個別のサブディストリビューションに分離する,シンプルかつ効果的な戦略を提案する。
論文 参考訳(メタデータ) (2024-03-18T17:50:41Z) - Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object
Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。
提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。
本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文 参考訳(メタデータ) (2023-12-24T08:42:37Z) - XVO: Generalized Visual Odometry via Cross-Modal Self-Training [11.70220331540621]
XVOは、一般化された単眼視眼視(英語版)モデル(英語版)(VO)を訓練するための半教師付き学習法である。
単一のデータセット内の既知のキャリブレーションをよく研究する標準的な単分子VOアプローチとは対照的に、XVOは現実のスケールで相対的なポーズを回復するのを効率的に学習する。
そこで我々は,YouTubeで公開されている大量の非拘束・異質なダッシュカメラビデオから,自己学習による動作推定モデルを最適化した。
論文 参考訳(メタデータ) (2023-09-28T18:09:40Z) - Self-Supervised Monocular Depth Estimation by Direction-aware Cumulative
Convolution Network [80.19054069988559]
自己教師付き単眼深度推定は, 方向感度と環境依存性を示す。
本稿では2つの側面において深度表現を改善する方向対応累積畳み込みネットワーク(DaCCN)を提案する。
実験の結果,提案手法は広く使用されている3つのベンチマークにおいて大幅な改善が得られた。
論文 参考訳(メタデータ) (2023-08-10T14:32:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。