論文の概要: PoseFM: Relative Camera Pose Estimation Through Flow Matching
- arxiv url: http://arxiv.org/abs/2604.22350v1
- Date: Fri, 24 Apr 2026 08:36:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-27 15:36:26.401558
- Title: PoseFM: Relative Camera Pose Estimation Through Flow Matching
- Title(参考訳): PoseFM:フローマッチングによる相対的なカメラポーズ推定
- Authors: Dominik Kuczkowski, Laura Ruotsalainen,
- Abstract要約: フローマッチング(FM)を用いた単眼フレーム間VOを生成タスクとして再構成するフレームワークであるPoseFMを提案する。
FM を利用して,カメラの動きを点推定ではなく分布としてモデル化し,連続時間ODE を用いて雑音をリアルなポーズ予測に変換する。
評価において,PoseFMはTartanAir,KITTI,TUM-RGBDベンチマークに対して高い性能を示し,トラジェクトリ上では最小の絶対軌道誤差(ATE)を達成した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Monocular visual odometry (VO) is a fundamental computer vision problem with applications in autonomous navigation, augmented reality and more. While deep learning-based methods have recently shown superior accuracy compared to traditional geometric pipelines, particularly in environments where handcrafted features struggle due to poor structure or lighting conditions, most rely on deterministic regression, which lacks the uncertainty awareness required for robust applications. We propose PoseFM, the first framework to reformulate monocular frame-to-frame VO as a generative task using Flow Matching (FM). By leveraging FM, we model camera motion as a distribution rather than a point estimate, learning to transform noise into realistic pose predictions via continuous-time ODEs. This approach provides a principled mechanism for uncertainty estimation and enables robust motion inference under challenging visual conditions. In our evaluations, PoseFM achieves strong performance on TartanAir, KITTI and TUM-RGBD benchmarks, achieving the lowest absolute trajectory error (ATE) on some of the trajectories and overall being competitive with the best frame-to-frame monocular VO methods. Code and model checkpoints will be made available at https://github.com/helsinki-sda-group/posefm.
- Abstract(参考訳): モノクロビジュアル・オドメトリー(VO)は、自律ナビゲーション、拡張現実などにおける基本的なコンピュータビジョン問題である。
近年、ディープラーニングに基づく手法は従来の幾何学的パイプラインに比べて精度が優れており、特に手作りの特徴が構造や照明条件の悪さに苦しむ環境においては、多くの場合、堅牢なアプリケーションに必要な不確実性に欠ける決定論的回帰に依存している。
本稿では,フローマッチング (FM) を用いた単眼フレームからフレームまでのVOを生成タスクとして再構成する最初のフレームワークである PoseFM を提案する。
FM を利用して,カメラの動きを点推定ではなく分布としてモデル化し,連続時間ODE を用いて雑音をリアルなポーズ予測に変換する。
このアプローチは、不確実性推定の原理的なメカニズムを提供し、難解な視覚条件下でのロバストな動き推定を可能にする。
評価では,PoseFMはTartanAir,KITTI,TUM-RGBDベンチマークに対して高い性能を示し,トラジェクトリのいくつかで最小絶対軌道誤差(ATE)を達成した。
コードとモデルチェックポイントはhttps://github.com/helsinki-sda-group/posefm.comから入手できる。
関連論文リスト
- Reshaping Action Error Distributions for Reliable Vision-Language-Action Models [69.38615670891038]
ロボット操作において、視覚言語アクション(VLA)モデルは、一般化可能でスケーラブルなロボットポリシーを学ぶための有望なパラダイムとして登場した。
連続動作型VLAモデルに焦点をあて、トレーニング中の動作誤差分布を再構成することにより、従来のMSEベースの回帰を超越する。
複数の代表的VLAアーキテクチャ上で、標準、少数ショット、ノイズの多い設定にまたがるアプローチを評価します。
論文 参考訳(メタデータ) (2026-02-04T05:37:09Z) - FoundationSLAM: Unleashing the Power of Depth Foundation Models for End-to-End Dense Visual SLAM [50.9765003472032]
FoundationSLAMは、正確でロバストな追跡とマッピングのための学習ベースの単分子高密度SLAMシステムである。
我々の中核となる考え方は、基礎深度モデルからのガイダンスを活用することによって、推論によるフロー推定をブリッジすることである。
論文 参考訳(メタデータ) (2025-12-31T17:57:45Z) - Inference-Time Gaze Refinement for Micro-Expression Recognition: Enhancing Event-Based Eye Tracking with Motion-Aware Post-Processing [2.5465367830324905]
イベントベースの視線追跡は、きめ細かい認知状態の推測に重要な可能性を秘めている。
本稿では、既存の事象に基づく視線推定モデルの出力を高めるために、モデルに依存しない推論時間改善フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-14T14:48:11Z) - Solving Inverse Problems with FLAIR [68.87167940623318]
本稿では,フローベース生成モデルを逆問題に先立って活用する学習自由変分フレームワークFLAIRを提案する。
標準画像ベンチマークの結果、FLAIRは再現性やサンプルの多様性の観点から、既存の拡散法や流れ法よりも一貫して優れていることが示された。
論文 参考訳(メタデータ) (2025-06-03T09:29:47Z) - XR-VIO: High-precision Visual Inertial Odometry with Fast Initialization for XR Applications [34.2082611110639]
本稿では,視覚慣性オドメトリー(VIO)に対する新しいアプローチとして,初期化と特徴マッチングモジュールについて述べる。
ジャイロスコープの既存の方法は、運動からの視覚構造(SfM)の安定性の低下や、膨大な数のパラメータの同時解決に悩まされることが多い。
測定値の密結合により,視覚的SfMの堅牢性と精度が向上する。
特徴マッチングに関しては,光学フローとディスクリプタベースマッチングを組み合わせたハイブリッド手法を提案する。
論文 参考訳(メタデータ) (2025-02-03T12:17:51Z) - ESVO2: Direct Visual-Inertial Odometry with Stereo Event Cameras [41.992980062962495]
イベントベースビジュアル・オドメトリーは、追跡とサブプロブレムのマッピング(典型的には並列)を解決することを目的としている
直接パイプライン上に,イベントベースのステレオビジュアル慣性オドメトリーシステムを構築した。
結果として得られるシステムは、現代の高解像度のイベントカメラでうまくスケールする。
論文 参考訳(メタデータ) (2024-10-12T05:35:27Z) - MotionHint: Self-Supervised Monocular Visual Odometry with Motion
Constraints [70.76761166614511]
モノクローナルビジュアル・オドメトリー(VO)のための新しい自己教師型アルゴリズムMotionHintを提案する。
我々のMotionHintアルゴリズムは、既存のオープンソースSSM-VOシステムに容易に適用できる。
論文 参考訳(メタデータ) (2021-09-14T15:35:08Z) - Pushing the Envelope of Rotation Averaging for Visual SLAM [69.7375052440794]
視覚SLAMシステムのための新しい最適化バックボーンを提案する。
従来の単分子SLAMシステムの精度, 効率, 堅牢性を向上させるために, 平均化を活用している。
我々のアプローチは、公開ベンチマークの最先端技術に対して、同等の精度で最大10倍高速に表示することができる。
論文 参考訳(メタデータ) (2020-11-02T18:02:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。