論文の概要: Efficient Feature-Free Initialization for Monocular Visual-Inertial Systems Using a Feed-Forward 3D Model
- arxiv url: http://arxiv.org/abs/2605.17327v1
- Date: Sun, 17 May 2026 08:35:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:47.903122
- Title: Efficient Feature-Free Initialization for Monocular Visual-Inertial Systems Using a Feed-Forward 3D Model
- Title(参考訳): フィードフォワード3Dモデルを用いた単眼視覚慣性システムの効率的な特徴自由初期化
- Authors: Yuantai Zhang, Jiaqi Yang, Huajian Zeng, Changhao Chen, Haoang Li, Liang Li, Dezhen Song, Xingxing Zuo,
- Abstract要約: 視覚慣性ナビゲーションシステム(VINS)のための機能フリーフレームワークを提案する。
フィードフォワード3Dモデルにより予測される最大スケールの点雲を利用して、視覚的特徴追跡と推定の必要性を回避する。
公開データセットの実験では,提案手法が最も成功率が高く,90%を超えることが示されている。
- 参考スコア(独自算出の注目度): 23.41814839928409
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fast and reliable initialization is critical for monocular visual-inertial navigation systems (VINS), as it establishes the starting conditions for subsequent state estimation. Despite steady progress, most existing methods heavily rely on visual feature correspondences and require 3-4 seconds of sensory data for successful initialization, which limits their applicability and efficiency. With the advent of feed-forward 3D models that can directly predict point clouds from images, we revisit the visual-inertial initialization problem from a concise perspective. In this work, we propose a feature-free initialization framework that leverages up-to-scale point clouds predicted by a feed-forward 3D model, thereby obviating the need for visual feature tracking and estimation. This design substantially reduces system complexity and improves the reliability of initialization. Experiments on public datasets demonstrate that the proposed feature-free initialization method achieves the highest success rate, exceeding 90%, and significantly reduces the data duration required for successful initialization, typically to under 1.2 s. We further validate our method on a self-collected dataset covering various indoor and outdoor scenarios, demonstrating robust performance, particularly in visually degraded environments where existing methods often fail. The code and dataset are available at https://github.com/Yuantai-Z/FF-VIO-Init.
- Abstract(参考訳): 高速かつ信頼性の高い初期化は、その後の状態推定の開始条件を確立するため、単眼視覚慣性ナビゲーションシステム(VINS)にとって重要である。
安定した進歩にもかかわらず、既存のほとんどの手法は視覚的特徴対応に大きく依存しており、初期化を成功させるためには3-4秒の感覚データが必要である。
画像から直接点雲を予測できるフィードフォワード3Dモデルの出現により、簡潔な視点から視覚-慣性初期化問題を再考する。
本研究では,フィードフォワード3Dモデルにより予測される最大スケールの点群を利用する機能フリー初期化フレームワークを提案し,視覚的特徴追跡と推定の必要性を回避した。
この設計はシステムの複雑さを大幅に減らし、初期化の信頼性を向上させる。
公開データセットを用いた実験では,提案手法が90%を超える最大成功率を実現し,初期化を成功させるために必要なデータ期間を1.2秒未満で大幅に短縮することを示した。
さらに,既存の手法がしばしば失敗する視覚的劣化環境において,室内および屋外の様々なシナリオをカバーする自己収集データセット上で,ロバストな性能を示す。
コードとデータセットはhttps://github.com/Yuantai-Z/FF-VIO-Initで公開されている。
関連論文リスト
- Visual Autoregressive Modelling for Monocular Depth Estimation [69.01449528371916]
本稿では,視覚的自己回帰(VAR)に基づく単眼深度推定手法を提案する。
提案手法は,大規模テキスト・画像VARモデルに適応し,スケールワイド・コンディショナル・アップサンプリング機構を導入する。
本研究では,屋内ベンチマークにおける制約付きトレーニング条件下での最先端性能と,屋外データセットに適用した場合の強い性能について報告する。
論文 参考訳(メタデータ) (2025-12-27T17:08:03Z) - VLM-3D:End-to-End Vision-Language Models for Open-World 3D Perception [5.245213543721097]
本稿では,自律走行シナリオにおける3次元幾何学的認識を可能にする最初のエンドツーエンドフレームワークであるVLM-3Dを提案する。
VLM-3Dはローランド適応(LoRA)を導入し、最小計算オーバーヘッドのタスクにVLMを効率よく適応させる。
VLM-3Dにおける関節意味・幾何学的損失が12.8%の知覚精度向上につながることを示す。
論文 参考訳(メタデータ) (2025-08-12T16:25:27Z) - Intern-GS: Vision Model Guided Sparse-View 3D Gaussian Splatting [95.61137026932062]
Intern-GSはスパースビューガウススプラッティングのプロセスを強化する新しいアプローチである。
Intern-GSは多様なデータセットにまたがって最先端のレンダリング品質を実現する。
論文 参考訳(メタデータ) (2025-05-27T05:17:49Z) - Improving Monocular Visual-Inertial Initialization with Structureless Visual-Inertial Bundle Adjustment [0.36868085124383626]
そこで我々は, 従来の構造のない解をさらに洗練するために, 構造のない視覚-慣性バンドルの調整を提案する。
実世界のデータセットを用いた実験により,実時間性能を維持しつつ,VIOの初期化精度を大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-02-23T14:55:40Z) - FILP-3D: Enhancing 3D Few-shot Class-incremental Learning with Pre-trained Vision-Language Models [59.13757801286343]
クラス増分学習(class-incremental learning)は、モデルが限られたデータで漸進的にトレーニングされている場合、破滅的な忘れの問題を軽減することを目的としている。
本稿では,特徴空間の不整合のための冗長特徴除去器 (RFE) と,重要な雑音に対する空間ノイズ補償器 (SNC) の2つの新しいコンポーネントを備えたFILP-3Dフレームワークを紹介する。
論文 参考訳(メタデータ) (2023-12-28T14:52:07Z) - Self-Supervised Multi-Frame Monocular Scene Flow [61.588808225321735]
自己監督学習に基づくマルチフレーム一眼的シーンフローネットワークを導入。
自己監督学習に基づく単眼的シーンフロー法における最新の精度を観察する。
論文 参考訳(メタデータ) (2021-05-05T17:49:55Z) - Secrets of 3D Implicit Object Shape Reconstruction in the Wild [92.5554695397653]
コンピュータビジョン、ロボティクス、グラフィックスの様々な用途において、高精細な3Dオブジェクトをスパースから再構築することは重要です。
最近の神経暗黙的モデリング法は、合成データセットまたは高密度データセットで有望な結果を示す。
しかし、粗末でノイズの多い実世界のデータではパフォーマンスが悪い。
本論文では, 一般的な神経暗黙モデルの性能低下の根本原因を解析する。
論文 参考訳(メタデータ) (2021-01-18T03:24:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。