論文の概要: CVD-SfM: A Cross-View Deep Front-end Structure-from-Motion System for Sparse Localization in Multi-Altitude Scenes
- arxiv url: http://arxiv.org/abs/2508.01936v1
- Date: Sun, 03 Aug 2025 22:11:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.123935
- Title: CVD-SfM: A Cross-View Deep Front-end Structure-from-Motion System for Sparse Localization in Multi-Altitude Scenes
- Title(参考訳): CVD-SfM:多高度シーンにおけるスパースローカライゼーションのためのクロスビュー深部フロントエンド構造制御システム
- Authors: Yaxuan Li, Yewei Huang, Bijay Gaudel, Hamidreza Jafarnejadsani, Brendan Englot,
- Abstract要約: 本稿では,様々な高度にまたがるロバストかつ正確な位置決めの課題に対処する,新しい多高度カメラポーズ推定システムを提案する。
このシステムは, クロスビュートランス, 深い特徴, 動きからの構造を統合して, 多様な環境条件や視点変化を効果的に処理する。
- 参考スコア(独自算出の注目度): 0.7623023317942882
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present a novel multi-altitude camera pose estimation system, addressing the challenges of robust and accurate localization across varied altitudes when only considering sparse image input. The system effectively handles diverse environmental conditions and viewpoint variations by integrating the cross-view transformer, deep features, and structure-from-motion into a unified framework. To benchmark our method and foster further research, we introduce two newly collected datasets specifically tailored for multi-altitude camera pose estimation; datasets of this nature remain rare in the current literature. The proposed framework has been validated through extensive comparative analyses on these datasets, demonstrating that our system achieves superior performance in both accuracy and robustness for multi-altitude sparse pose estimation tasks compared to existing solutions, making it well suited for real-world robotic applications such as aerial navigation, search and rescue, and automated inspection.
- Abstract(参考訳): 本稿では,スパース画像入力のみを考慮すると,様々な高度にまたがるロバストかつ正確な位置決めの課題に対処する,新しい多高度カメラポーズ推定システムを提案する。
本システムは, クロスビュートランス, 深部特徴, 構造移動を統合されたフレームワークに統合することにより, 多様な環境条件や視点変化を効果的に処理する。
提案手法をベンチマークし,さらに研究を促進するために,多高度カメラのポーズ推定に適した2つの新たに収集されたデータセットを導入した。
提案したフレームワークは,これらのデータセットの広範な比較分析により,既存の手法と比較して,多高度スパースポーズ推定タスクの精度と堅牢性の両方において優れた性能を達成し,空中ナビゲーション,探索・救助,自動検査などの実世界のロボットアプリケーションに適していることを示す。
関連論文リスト
- Multi-modal Multi-platform Person Re-Identification: Benchmark and Method [58.59888754340054]
MP-ReIDは、マルチモダリティとマルチプラットフォームReIDに特化した新しいデータセットである。
このベンチマークは、RGB、赤外線、サーマルイメージングなど、さまざまなモードで1,930のIDからデータをコンパイルする。
クロスモダリティとクロスプラットフォームシナリオに適した,特定設計のプロンプトを備えたフレームワークであるUni-Prompt ReIDを紹介する。
論文 参考訳(メタデータ) (2025-03-21T12:27:49Z) - PFSD: A Multi-Modal Pedestrian-Focus Scene Dataset for Rich Tasks in Semi-Structured Environments [73.80718037070773]
本稿では, 半構造化シーンに, nuScenesの形式を付加したマルチモーダルなPedestrian-Focused Sceneデータセットを提案する。
また,密集・隠蔽シナリオにおける歩行者検出のためのHMFN(Hybrid Multi-Scale Fusion Network)を提案する。
論文 参考訳(メタデータ) (2025-02-21T09:57:53Z) - HV-BEV: Decoupling Horizontal and Vertical Feature Sampling for Multi-View 3D Object Detection [34.72603963887331]
視覚に基づく多視点環境認識システムの適用は、自律運転技術においてますます認識されている。
現在の最先端ソリューションは主に、暗黙の深度予測を通じて、各カメラビューからの画像をBEV空間にエンコードする。
我々は,textbfBEVグリッドクエリのパラダイムにおける特徴サンプリングを,textbfHorizontal特徴集約に分離する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-12-25T11:49:14Z) - GVDepth: Zero-Shot Monocular Depth Estimation for Ground Vehicles based on Probabilistic Cue Fusion [7.588468985212172]
計量単分子深度推定の一般化は、その不適切な性質のために重要な課題となる。
本稿では,様々なカメラ設定の整合性を維持する新しい標準表現を提案する。
また,物体の大きさや垂直位置の手がかりによって推定される深度を適応的かつ確率的に融合する新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-12-08T22:04:34Z) - A Novel Wide-Area Multiobject Detection System with High-Probability Region Searching [8.934161308155131]
本稿では,広角カメラ,高速サーチカメラ,ガルバノミラーを組み込んだハイブリッドシステムを提案する。
このシステムでは、広角カメラがパノラマ画像を先行情報として提供し、探索カメラが対象物の詳細な画像をキャプチャするのに役立つ。
論文 参考訳(メタデータ) (2024-05-07T18:06:40Z) - Adaptive Fusion of Single-View and Multi-View Depth for Autonomous
Driving [22.58849429006898]
現在のマルチビュー深度推定法やシングルビューおよびマルチビュー融合法は、ノイズのあるポーズ設定で失敗する。
本稿では,高信頼度なマルチビューと単一ビューの結果を適応的に統合する単一ビュー・多ビュー融合深度推定システムを提案する。
本手法は,ロバストネス試験において,最先端のマルチビュー・フュージョン法より優れる。
論文 参考訳(メタデータ) (2024-03-12T11:18:35Z) - View Consistent Purification for Accurate Cross-View Localization [59.48131378244399]
本稿では,屋外ロボットのための微細な自己局在化手法を提案する。
提案手法は,既存のクロスビューローカライゼーション手法の限界に対処する。
これは、動的環境における知覚を増強する初めての疎視のみの手法である。
論文 参考訳(メタデータ) (2023-08-16T02:51:52Z) - Multi-Frame Self-Supervised Depth Estimation with Multi-Scale Feature
Fusion in Dynamic Scenes [25.712707161201802]
マルチフレーム手法は単一フレームアプローチによる単眼深度推定を改善する。
最近の手法では、特徴マッチングと動的シーンのための複雑なアーキテクチャを提案する傾向がある。
単純な学習フレームワークと設計された機能拡張が、優れたパフォーマンスをもたらすことを示す。
論文 参考訳(メタデータ) (2023-03-26T05:26:30Z) - 6D Camera Relocalization in Visually Ambiguous Extreme Environments [79.68352435957266]
本研究では,深海や地球外地形などの極端な環境下で得られた画像の列から,カメラのポーズを確実に推定する手法を提案する。
本手法は,室内ベンチマーク (7-Scenes データセット) における最先端手法と同等の性能を20%のトレーニングデータで達成する。
論文 参考訳(メタデータ) (2022-07-13T16:40:02Z) - Self-supervised Human Detection and Segmentation via Multi-view
Consensus [116.92405645348185]
本稿では,トレーニング中に幾何学的制約を多視点一貫性という形で組み込むマルチカメラフレームワークを提案する。
本手法は,標準ベンチマークから視覚的に外れた画像に対して,最先端の自己監視的人物検出とセグメンテーション技術に勝ることを示す。
論文 参考訳(メタデータ) (2020-12-09T15:47:21Z) - AutoPose: Searching Multi-Scale Branch Aggregation for Pose Estimation [96.29533512606078]
本稿では,新しいニューラルアーキテクチャサーチ(NAS)フレームワークであるAutoPoseを紹介する。
高精度で高解像度な2次元ポーズ推定に向けて、クロススケール接続の複数の並列ブランチを自動的に検出することができる。
論文 参考訳(メタデータ) (2020-08-16T22:27:43Z) - Contextual Encoder-Decoder Network for Visual Saliency Prediction [42.047816176307066]
本稿では,大規模な画像分類タスクに基づいて事前学習した畳み込みニューラルネットワークに基づくアプローチを提案する。
得られた表現をグローバルなシーン情報と組み合わせて視覚的サリエンシを正確に予測する。
最先端技術と比較して、このネットワークは軽量な画像分類バックボーンに基づいている。
論文 参考訳(メタデータ) (2019-02-18T16:15:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。