論文の概要: Dense Prediction Transformer for Scale Estimation in Monocular Visual
Odometry
- arxiv url: http://arxiv.org/abs/2210.01723v1
- Date: Tue, 4 Oct 2022 16:29:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 13:21:38.998433
- Title: Dense Prediction Transformer for Scale Estimation in Monocular Visual
Odometry
- Title(参考訳): 単眼視眼磁図のスケール推定のためのDense Prediction Transformer
- Authors: Andr\'e O. Fran\c{c}ani and Marcos R. O. A. Maximo
- Abstract要約: 本論文は, 単眼視覚計測システムにおけるスケール推定における高密度予測変換器モデルの適用性を示す。
実験結果から, 単分子系のスケールドリフト問題は, 深度マップの正確な推定により低減できることが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Monocular visual odometry consists of the estimation of the position of an
agent through images of a single camera, and it is applied in autonomous
vehicles, medical robots, and augmented reality. However, monocular systems
suffer from the scale ambiguity problem due to the lack of depth information in
2D frames. This paper contributes by showing an application of the dense
prediction transformer model for scale estimation in monocular visual odometry
systems. Experimental results show that the scale drift problem of monocular
systems can be reduced through the accurate estimation of the depth map by this
model, achieving competitive state-of-the-art performance on a visual odometry
benchmark.
- Abstract(参考訳): 単眼視覚オドメトリ(monocular visual odometry)は、単一のカメラの画像を通してエージェントの位置を推定することであり、自動運転車、医療ロボット、拡張現実に適用される。
しかし, 単眼系では, 2次元フレームの奥行き情報の欠如により, 規模の曖昧さが問題となる。
本稿では,単眼視覚オドメトリシステムにおける高密度予測トランスモデルのスケール推定への応用について述べる。
実験結果から, このモデルによる深度マップの正確な推定により, 単分子系のスケールドリフト問題を低減し, ビジュアル・オドメトリー・ベンチマークにおいて, 競合性能を達成できることが示唆された。
関連論文リスト
- Enhanced Scale-aware Depth Estimation for Monocular Endoscopic Scenes with Geometric Modeling [42.70053750500301]
本稿では,幾何学的モデリングによる深度推定のための単眼画像のみを用いた新しいスケールアウェアフレームワークを提案する。
具体的には、まず、単分子深度推定の品質を高めるための多分解能深度融合戦略を提案する。
スケール係数と相対深度推定を結合することにより、単眼内視鏡シーンのスケール認識深度を推定できる。
論文 参考訳(メタデータ) (2024-08-14T03:18:04Z) - CodedVO: Coded Visual Odometry [11.33375308762075]
CodedVOは,広義の視差を克服する新しい単眼視覚計測法である。
室内環境の多様性を実証し,その堅牢性と適応性を示す。
論文 参考訳(メタデータ) (2024-07-25T17:54:58Z) - Transformer-based model for monocular visual odometry: a video
understanding approach [0.9790236766474201]
6-Fカメラのポーズを推定するために,映像理解タスクとして単眼視計測を取り扱う。
本稿では,ビデオクリップから特徴を抽出し,その動作をエンドツーエンドに推定する,時間的自己認識機構に基づくTS-DoVOモデルを提案する。
提案手法は,KITTIビジュアル・オドメトリー・データセットを用いた幾何学的,深層学習的手法と比較して,最先端の競合性能を実現した。
論文 参考訳(メタデータ) (2023-05-10T13:11:23Z) - Improving Monocular Visual Odometry Using Learned Depth [84.05081552443693]
単眼深度推定を応用して視力計測(VO)を改善する枠組みを提案する。
我々のフレームワークの中核は、多様なシーンに対して強力な一般化能力を持つ単眼深度推定モジュールである。
現在の学習型VO法と比較して,本手法は多様なシーンに対してより強力な一般化能力を示す。
論文 参考訳(メタデータ) (2022-04-04T06:26:46Z) - Scale-aware direct monocular odometry [4.111899441919165]
本稿では,深部ニューラルネットワークからの深度予測に基づく直接単分子オードメトリーの枠組みを提案する。
提案手法は,従来の単分子SLAMよりも5倍から9倍精度が高く,ステレオシステムに近い精度である。
論文 参考訳(メタデータ) (2021-09-21T10:30:15Z) - Single View Metrology in the Wild [94.7005246862618]
本研究では,物体の3次元の高さや地上のカメラの高さで表現されるシーンの絶対的なスケールを再現する,単一ビューメロジに対する新しいアプローチを提案する。
本手法は,被写体の高さなどの3Dエンティティによる未知のカメラとの相互作用から,弱い教師付き制約を抑えるために設計されたディープネットワークによって学習されたデータ駆動の先行情報に依存する。
いくつかのデータセットと仮想オブジェクト挿入を含むアプリケーションに対して、最先端の定性的かつ定量的な結果を示す。
論文 参考訳(メタデータ) (2020-07-18T22:31:33Z) - Kinematic-Structure-Preserved Representation for Unsupervised 3D Human
Pose Estimation [58.72192168935338]
大規模インスタディオデータセットの監視を用いて開発された人間のポーズ推定モデルの一般化可能性については疑問が残る。
本稿では,2対あるいは2対の弱い監督者によって抑制されない,新しいキネマティック構造保存型非教師付き3次元ポーズ推定フレームワークを提案する。
提案モデルでは,前方運動学,カメラ投影,空間マップ変換という3つの連続的な微分可能変換を用いる。
論文 参考訳(メタデータ) (2020-06-24T23:56:33Z) - Appearance Learning for Image-based Motion Estimation in Tomography [60.980769164955454]
トモグラフィー画像では、取得した信号に擬似逆フォワードモデルを適用することにより、解剖学的構造を再構成する。
患者の動きは、復元過程における幾何学的アライメントを損なうため、運動アーティファクトが生じる。
本研究では,スキャン対象から独立して剛性運動の構造を認識する外観学習手法を提案する。
論文 参考訳(メタデータ) (2020-06-18T09:49:11Z) - Beyond Photometric Consistency: Gradient-based Dissimilarity for
Improving Visual Odometry and Stereo Matching [46.27086269084186]
本稿では,光度誤差の考え方に基づく画像の登録のための新しい指標について検討する。
ステレオ推定とビジュアルオドメトリーシステムの両方に統合し、典型的な相違と直接画像登録タスクに明確な利点を示す。
論文 参考訳(メタデータ) (2020-04-08T16:13:25Z) - D3VO: Deep Depth, Deep Pose and Deep Uncertainty for Monocular Visual
Odometry [57.5549733585324]
D3VOは、深度、ポーズ、不確実性推定という3つのレベルでディープネットワークを利用する、単眼の視覚計測のための新しいフレームワークである。
まず,ステレオビデオを用いた自己監督型単眼深度推定ネットワークを提案する。
入力画像上の画素の光度不確かさをモデル化し、深度推定精度を向上させる。
論文 参考訳(メタデータ) (2020-03-02T17:47:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。