論文の概要: Keyframe-Based Feed-Forward Visual Odometry
- arxiv url: http://arxiv.org/abs/2601.16020v1
- Date: Thu, 22 Jan 2026 14:45:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.629043
- Title: Keyframe-Based Feed-Forward Visual Odometry
- Title(参考訳): キーフレームに基づくフィードフォワードビジュアルオドメトリー
- Authors: Weichen Dai, Wenhan Su, Da Kong, Yuhang Ming, Wanzeng Kong,
- Abstract要約: 現在の基礎モデルに基づく手法は、通常、生画像列を無差別に処理する。
本稿では、データ駆動方式で適応的な視覚ポリシーを導出するために強化学習を利用するフィードフォワードVO法を提案する。
実験により,提案手法は最新式フィードフォワードVO法よりも一貫した,実質的な改善が得られた。
- 参考スコア(独自算出の注目度): 13.646685343885556
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The emergence of visual foundation models has revolutionized visual odometry~(VO) and SLAM, enabling pose estimation and dense reconstruction within a single feed-forward network. However, unlike traditional pipelines that leverage keyframe methods to enhance efficiency and accuracy, current foundation model based methods, such as VGGT-Long, typically process raw image sequences indiscriminately. This leads to computational redundancy and degraded performance caused by low inter-frame parallax, which provides limited contextual stereo information. Integrating traditional geometric heuristics into these methods is non-trivial, as their performance depends on high-dimensional latent representations rather than explicit geometric metrics. To bridge this gap, we propose a novel keyframe-based feed-forward VO. Instead of relying on hand-crafted rules, our approach employs reinforcement learning to derive an adaptive keyframe policy in a data-driven manner, aligning selection with the intrinsic characteristics of the underlying foundation model. We train our agent on TartanAir dataset and conduct extensive evaluations across several real-world datasets. Experimental results demonstrate that the proposed method achieves consistent and substantial improvements over state-of-the-art feed-forward VO methods.
- Abstract(参考訳): 視覚基盤モデルの出現は、単一のフィードフォワードネットワーク内でのポーズ推定と密な再構築を可能にする、ビジュアル・オドメトリー~(VO)とSLAMに革命をもたらした。
しかしながら、キーフレーム法を利用して効率と精度を向上させる従来のパイプラインとは異なり、VGGT-Longのような現在の基礎モデルに基づく手法は、通常、生画像シーケンスを非差別的に処理する。
これにより、計算の冗長性と低フレーム間パララックスによる性能低下が生じ、コンテキストステレオ情報が制限される。
従来の幾何学的ヒューリスティックスをこれらの手法に統合するのは簡単ではない。
このギャップを埋めるために、キーフレームベースのフィードフォワードVOを提案する。
提案手法は手作りのルールに頼るのではなく,データ駆動方式で適応的なキーフレームポリシーを導出する強化学習を用いて,基礎となる基盤モデルの本質的な特性と選択を整合させる。
エージェントをTartanAirデータセットでトレーニングし、複数の実世界のデータセットにわたって広範な評価を行います。
実験により,提案手法は最新式フィードフォワードVO法よりも一貫した,実質的な改善が得られた。
関連論文リスト
- Toward Generalizable Deblurring: Leveraging Massive Blur Priors with Linear Attention for Real-World Scenarios [9.82847623835017]
GLOWDeblurは、畳み込みベースの事前再構成とドメインアライメントモジュールと軽量な拡散バックボーンを組み合わせた、一般化可能なreaL-wOrld Light Weight Deblurモデルである。
本稿では,Blur Pattern Pretraining (BPP)を提案する。
我々はさらに、高度劣化下でぼやけた前兆を強化するためにMoSeG(MoSeG)を導入し、それをGLOWDeblur(GLOWDeblur)に統合する。
論文 参考訳(メタデータ) (2026-01-10T11:01:31Z) - FoundationSLAM: Unleashing the Power of Depth Foundation Models for End-to-End Dense Visual SLAM [50.9765003472032]
FoundationSLAMは、正確でロバストな追跡とマッピングのための学習ベースの単分子高密度SLAMシステムである。
我々の中核となる考え方は、基礎深度モデルからのガイダンスを活用することによって、推論によるフロー推定をブリッジすることである。
論文 参考訳(メタデータ) (2025-12-31T17:57:45Z) - Visual Autoregressive Modelling for Monocular Depth Estimation [69.01449528371916]
本稿では,視覚的自己回帰(VAR)に基づく単眼深度推定手法を提案する。
提案手法は,大規模テキスト・画像VARモデルに適応し,スケールワイド・コンディショナル・アップサンプリング機構を導入する。
本研究では,屋内ベンチマークにおける制約付きトレーニング条件下での最先端性能と,屋外データセットに適用した場合の強い性能について報告する。
論文 参考訳(メタデータ) (2025-12-27T17:08:03Z) - Manifold Decoders: A Framework for Generative Modeling from Nonlinear Embeddings [0.0]
著名なNLDR手法のためのニューラルデコーダアーキテクチャを構築するためのシステム・アティック・フレームワークを提案する。
このフレームワークは、これらの学習された多様体空間内で直接動作する拡散ベースの生成プロセスを実装することで拡張される。
その結果,デコーダはデータの再構築に成功しているが,その品質はエンドツーエンドの最適化されたオートエンコーダに勝っていることがわかった。
論文 参考訳(メタデータ) (2025-10-15T14:50:51Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Enhancing Surface Neural Implicits with Curvature-Guided Sampling and Uncertainty-Augmented Representations [37.42624848693373]
本研究では,高忠実度3次元再構成作業において,深度画像を直接消化する手法を提案する。
高効率なトレーニングデータを生成するため,簡単なサンプリング手法を提案する。
その単純さにもかかわらず、本手法は古典的および学習的ベースラインの両方に優れる。
論文 参考訳(メタデータ) (2023-06-03T12:23:17Z) - Robust Visual Odometry Using Position-Aware Flow and Geometric Bundle
Adjustment [16.04240592057438]
まず,位置認識機構上に構築された新しい光フローネットワーク(PANet)を提案する。
そこで本研究では,エゴモーション学習のための典型的なネットワークを使わずに,深度,光学的流れ,エゴモーションを共同で推定するシステムを提案する。
実験により,提案システムは深度,流れ,VO推定の点で,他の最先端手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-11-22T12:05:27Z) - Deep Keypoint-Based Camera Pose Estimation with Geometric Constraints [80.60538408386016]
連続するフレームから相対的なカメラのポーズを推定することは、視覚計測の基本的な問題である。
本稿では,検出,特徴抽出,マッチング,外乱除去のための学習可能なモジュールで構成されるエンドツーエンドのトレーニング可能なフレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-29T21:41:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。