論文の概要: CoProU-VO: Combining Projected Uncertainty for End-to-End Unsupervised Monocular Visual Odometry
- arxiv url: http://arxiv.org/abs/2508.00568v1
- Date: Fri, 01 Aug 2025 12:09:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 18:08:53.867684
- Title: CoProU-VO: Combining Projected Uncertainty for End-to-End Unsupervised Monocular Visual Odometry
- Title(参考訳): CoProU-VO: 終端終端単眼視における投影不確かさの組み合わせ
- Authors: Jingchao Xie, Oussema Dhaouadi, Weirong Chen, Johannes Meier, Jacques Kaiser, Daniel Cremers,
- Abstract要約: ビジュアルオドメトリー(VO)は、自律ナビゲーション、ロボティクス、拡張現実の基本である。
提案手法は,対象フレームの不確かさと参照フレームの不確実性を組み合わせた,新しいエンドツーエンドアプローチであるCoProU-VOを提案する。
KITTIとnuScenesデータセットの実験は、以前の教師なし単眼のエンドツーエンドの2フレームベースの手法よりも大幅に改善されている。
- 参考スコア(独自算出の注目度): 33.293024344960706
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Odometry (VO) is fundamental to autonomous navigation, robotics, and augmented reality, with unsupervised approaches eliminating the need for expensive ground-truth labels. However, these methods struggle when dynamic objects violate the static scene assumption, leading to erroneous pose estimations. We tackle this problem by uncertainty modeling, which is a commonly used technique that creates robust masks to filter out dynamic objects and occlusions without requiring explicit motion segmentation. Traditional uncertainty modeling considers only single-frame information, overlooking the uncertainties across consecutive frames. Our key insight is that uncertainty must be propagated and combined across temporal frames to effectively identify unreliable regions, particularly in dynamic scenes. To address this challenge, we introduce Combined Projected Uncertainty VO (CoProU-VO), a novel end-to-end approach that combines target frame uncertainty with projected reference frame uncertainty using a principled probabilistic formulation. Built upon vision transformer backbones, our model simultaneously learns depth, uncertainty estimation, and camera poses. Consequently, experiments on the KITTI and nuScenes datasets demonstrate significant improvements over previous unsupervised monocular end-to-end two-frame-based methods and exhibit strong performance in challenging highway scenes where other approaches often fail. Additionally, comprehensive ablation studies validate the effectiveness of cross-frame uncertainty propagation.
- Abstract(参考訳): ビジュアルオドメトリー(VO)は、自律ナビゲーション、ロボティクス、拡張現実の基本であり、高価な接地木ラベルの必要性を排除した教師なしのアプローチである。
しかし、これらの手法は動的オブジェクトが静的なシーン仮定に反した場合に苦労し、誤ったポーズ推定につながる。
本研究では, 動的物体や閉塞物を明示的な動作セグメンテーションを必要とせずにフィルタするロバストマスクを作成する手法として, 不確実性モデリングを用いてこの問題に対処する。
従来の不確実性モデリングでは、連続するフレーム間の不確実性を見越して、単一のフレーム情報のみを考慮する。
我々の重要な洞察は、不確実性は、特に動的シーンにおいて、信頼性の低い領域を効果的に識別するために、時間的フレーム間で伝播され、結合されなければならないということである。
この課題に対処するために,本論文では,目標フレームの不確かさと基準フレームの不確かさを,原理的確率的定式化を用いて組み合わせた,新しいエンドツーエンドアプローチであるCombined Projected Uncertainty VO(CoProU-VO)を紹介する。
我々のモデルは、視覚変換器のバックボーンに基づいて、深さ、不確実性の推定、カメラのポーズを同時に学習する。
結果として、KITTIとnuScenesデータセットの実験は、以前の教師なし単眼のエンドツーエンドの2フレームベースの手法よりも大幅に改善され、他のアプローチがしばしば失敗するハイウェイシーンで強いパフォーマンスを示す。
さらに、包括的アブレーション研究により、クロスフレーム不確実性伝播の有効性が検証された。
関連論文リスト
- EyeSeg: An Uncertainty-Aware Eye Segmentation Framework for AR/VR [58.33693755009173]
EyeSegは拡張現実(AR)と仮想現実(VR)のための不確実性を認識したアイセグメンテーションフレームワーク
我々は,従来のアプローチを超越したMIoU,E1,F1,ACCのセグメンテーション改善を実現していることを示す。
論文 参考訳(メタデータ) (2025-07-13T14:33:10Z) - UGG-ReID: Uncertainty-Guided Graph Model for Multi-Modal Object Re-Identification [26.770271366177603]
マルチモーダルオブジェクトReID(UGG-ReID)に対する不確実性誘導グラフモデルというロバストなアプローチを提案する。
UGG-ReIDは、ノイズ干渉を緩和し、効果的なマルチモーダル融合を促進するように設計されている。
実験結果から,提案手法は全データセットに対して優れた性能を示すことがわかった。
論文 参考訳(メタデータ) (2025-07-07T03:41:08Z) - Unsupervised Imaging Inverse Problems with Diffusion Distribution Matching [35.01013208265617]
この研究は、未ペアデータセットを用いた逆問題レンズによる画像復元タスクに対処する。
提案手法は最小限の仮定の下で動作し、小さな未ペアデータセットにのみ依存する。
これは、フォワードモデルがしばしば未知あるいは不特定である実世界のシナリオに特に適している。
論文 参考訳(メタデータ) (2025-06-17T15:06:43Z) - Benchmarking the Spatial Robustness of DNNs via Natural and Adversarial Localized Corruptions [49.546479320670464]
本稿では,セグメンテーションモデルの空間的ロバスト性を評価するための特別な指標を紹介する。
本稿では,モデルロバスト性をより深く理解する手法として,地域対応型マルチアタック・アタック・アタック・アタック・アタック・アタック・アタック・アタック・アタック・アタック・アタック・アタック・アタック・アタック分析を提案する。
その結果、モデルがこれらの2種類の脅威に異なる反応を示すことが明らかとなった。
論文 参考訳(メタデータ) (2025-04-02T11:37:39Z) - Know Where You're Uncertain When Planning with Multimodal Foundation Models: A Formal Framework [54.40508478482667]
認識と計画生成の不確実性を解消し、定量化し、緩和する包括的枠組みを提案する。
本稿では,知覚と意思決定の独特な性質に合わせた手法を提案する。
この不確実性分散フレームワークは, 変動率を最大40%削減し, タスク成功率をベースラインに比べて5%向上させることを示した。
論文 参考訳(メタデータ) (2024-11-03T17:32:00Z) - Stochasticity in Motion: An Information-Theoretic Approach to Trajectory Prediction [9.365269316773219]
本稿では、軌道予測における不確実性モデリングの課題を全体論的アプローチで解決する。
情報理論を基礎とした本手法は,不確実性を測定する理論的に原理化された方法を提供する。
従来の作業とは異なり、我々のアプローチは最先端のモーション予測器と互換性があり、より広い適用性を実現している。
論文 参考訳(メタデータ) (2024-10-02T15:02:32Z) - UAHOI: Uncertainty-aware Robust Interaction Learning for HOI Detection [18.25576487115016]
本稿では,Human-Object Interaction(HOI)検出について述べる。
与えられた画像やビデオフレーム内の人間とオブジェクト間の相互作用を識別し、理解するという課題に対処する。
本研究では,不確実性を考慮したロバストなヒューマンオブジェクトインタラクション学習であるtextscUAHOIを提案する。
論文 参考訳(メタデータ) (2024-08-14T10:06:39Z) - ProDepth: Boosting Self-Supervised Multi-Frame Monocular Depth with Probabilistic Fusion [17.448021191744285]
多フレーム単分子深度推定は、静的シーンの仮定の下で連続するフレーム間の幾何的整合性に依存する。
動的シーンにおける移動物体の存在は必然的に不整合を引き起こし、トレーニング中に複数のフレームの特徴マッチングと誤解を招く。
本稿では,確率論的アプローチを用いて動的オブジェクトによるミスマッチ問題に効果的に対処するProDepthという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-12T14:37:49Z) - Lightweight, Uncertainty-Aware Conformalized Visual Odometry [2.429910016019183]
データ駆動型ビジュアルオドメトリー(VO)は、自律エッジロボティクスにとって重要なサブルーチンである。
昆虫スケールドローンや外科ロボットのような最先端ロボットデバイスは、VOの予測の不確実性を推定する計算的に効率的な枠組みを欠いている。
本稿では,共形推論(CI)を利用してVOの不確実な帯域を抽出する,新しい,軽量で統計的に堅牢なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-03T20:37:55Z) - Robust Single Image Dehazing Based on Consistent and Contrast-Assisted
Reconstruction [95.5735805072852]
画像復調モデルのロバスト性を改善するための新しい密度変分学習フレームワークを提案する。
具体的には、デハジングネットワークは、一貫性の規則化されたフレームワークの下で最適化されている。
我々の手法は最先端のアプローチを大きく上回っている。
論文 参考訳(メタデータ) (2022-03-29T08:11:04Z) - Robust and Precise Facial Landmark Detection by Self-Calibrated Pose
Attention Network [73.56802915291917]
より堅牢で正確な顔のランドマーク検出を実現するための半教師付きフレームワークを提案する。
より効果的な顔形状制約をモデル化するために,境界対応ランドマーク強度(BALI)フィールドを提案する。
自己キャリブレーション・ポース・アテンション(SCPA)モデルは、中間的監督を強制する自己学習型目標関数を提供するように設計されている。
論文 参考訳(メタデータ) (2021-12-23T02:51:08Z) - Consistency Guided Scene Flow Estimation [159.24395181068218]
CGSFは立体映像からの3次元シーン構造と動きの同時再構成のための自己教師型フレームワークである。
提案モデルでは,課題の画像の相違やシーンフローを確実に予測できることを示す。
最先端技術よりも優れた一般化を実現し、目に見えない領域に迅速かつ堅牢に適応する。
論文 参考訳(メタデータ) (2020-06-19T17:28:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。