論文の概要: Transformer-Based Model for Monocular Visual Odometry: A Video Understanding Approach
- arxiv url: http://arxiv.org/abs/2305.06121v3
- Date: Mon, 20 Jan 2025 19:22:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:17:31.000542
- Title: Transformer-Based Model for Monocular Visual Odometry: A Video Understanding Approach
- Title(参考訳): モノクローナル視覚計測のためのトランスフォーマーベースモデル:映像理解アプローチ
- Authors: André O. Françani, Marcos R. O. A. Maximo,
- Abstract要約: カメラのポーズを1台のカメラから撮影した画像から推定することは、モバイルロボットの伝統的なタスクである。
深層学習法は、適切なトレーニングと大量のデータを用いて、一般的なものであることが示されている。
本稿では、時間的自己認識機構に基づくTSformer-VOモデルについて、クリップから特徴を抽出し、その動作をエンドツーエンドに推定する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Estimating the camera's pose given images from a single camera is a traditional task in mobile robots and autonomous vehicles. This problem is called monocular visual odometry and often relies on geometric approaches that require considerable engineering effort for a specific scenario. Deep learning methods have been shown to be generalizable after proper training and with a large amount of available data. Transformer-based architectures have dominated the state-of-the-art in natural language processing and computer vision tasks, such as image and video understanding. In this work, we deal with the monocular visual odometry as a video understanding task to estimate the 6 degrees of freedom of a camera's pose. We contribute by presenting the TSformer-VO model based on spatio-temporal self-attention mechanisms to extract features from clips and estimate the motions in an end-to-end manner. Our approach achieved competitive state-of-the-art performance compared with geometry-based and deep learning-based methods on the KITTI visual odometry dataset, outperforming the DeepVO implementation highly accepted in the visual odometry community. The code is publicly available at https://github.com/aofrancani/TSformer-VO.
- Abstract(参考訳): カメラのポーズを1台のカメラから撮影した画像から推定することは、移動ロボットや自動運転車の伝統的なタスクである。
この問題はモノクロビジュアル・オドメトリーと呼ばれ、しばしば特定のシナリオに対してかなりのエンジニアリング作業を必要とする幾何学的アプローチに依存している。
深層学習法は、適切な訓練と大量のデータを用いて一般化可能であることが示されている。
トランスフォーマーベースのアーキテクチャは、自然言語処理や画像やビデオ理解などのコンピュータビジョンタスクにおいて最先端のアーキテクチャを支配してきた。
本研究では,カメラのポーズの6自由度を推定するための映像理解タスクとして,単眼視覚計測を取り扱う。
本研究では,ビデオクリップから特徴を抽出し,その動作をエンドツーエンドに推定する時空間自己認識機構に基づくTSformer-VOモデルを提案する。
提案手法は,KITTIビジュアルオドメトリデータセットの幾何学的手法と深層学習的手法と比較して,最先端性能の競争性を実現し,ビジュアルオドメトリコミュニティで広く受け入れられているDeepVO実装よりも優れていた。
コードはhttps://github.com/aofrancani/TSformer-VOで公開されている。
関連論文リスト
- Self-supervised Pretraining and Finetuning for Monocular Depth and Visual Odometry [7.067145619709089]
我々は,我々の自己教師型モデルが「鐘と笛なしで」最先端のパフォーマンスに到達できることを実証した。
全てのデータセットに対して,本手法は,特に深度予測タスクにおいて,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2024-06-16T17:24:20Z) - Learning depth from monocular video sequences [0.0]
トレーニングプロセス中に、より多くのイメージをインクルードできる新たなトレーニング損失を提案する。
単一画像推定のための新しいネットワークアーキテクチャも設計する。
論文 参考訳(メタデータ) (2023-10-26T05:00:41Z) - State of the Art in Dense Monocular Non-Rigid 3D Reconstruction [100.9586977875698]
モノクル2D画像から変形可能なシーン(または非剛体)の3D再構成は、コンピュータビジョンとグラフィックスの長年、活発に研究されてきた領域である。
本研究は,モノクラー映像やモノクラービューの集合から,様々な変形可能な物体や複合シーンを高密度に非剛性で再現するための最先端の手法に焦点を当てる。
論文 参考訳(メタデータ) (2022-10-27T17:59:53Z) - Visual Odometry with Neuromorphic Resonator Networks [9.903137966539898]
視覚オドメトリー(英語: Visual Odometry, VO)は、視覚センサを用いた移動ロボットの自走を推定する手法である。
ニューロモルフィックハードウェアは多くのビジョンとAI問題に対する低消費電力のソリューションを提供する。
本稿では,2次元VOタスクにおける最先端性能を実現するモジュール型ニューロモルフィックアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-05T14:57:03Z) - RelPose: Predicting Probabilistic Relative Rotation for Single Objects
in the Wild [73.1276968007689]
本稿では、任意のオブジェクトの複数の画像からカメラ視点を推定するデータ駆動手法について述べる。
本手法は, 画像の鮮明さから, 最先端のSfM法とSLAM法より優れていることを示す。
論文 参考訳(メタデータ) (2022-08-11T17:59:59Z) - DONet: Learning Category-Level 6D Object Pose and Size Estimation from
Depth Observation [53.55300278592281]
単一深度画像からカテゴリレベルの6次元オブジェクト・ポースとサイズ推定(COPSE)を提案する。
筆者らのフレームワークは,深度チャネルのみの物体のリッチな幾何学的情報に基づいて推論を行う。
我々のフレームワークは、ラベル付き現実世界の画像を必要とする最先端のアプローチと競合する。
論文 参考訳(メタデータ) (2021-06-27T10:41:50Z) - DF-VO: What Should Be Learnt for Visual Odometry? [33.379888882093965]
マルチビュージオメトリと深層学習を深さと光フローで統合し、シンプルで堅牢な視覚オドメトリーシステムを設計します。
包括的アブレーション研究により,提案手法の有効性が示され,本システムの性能に関する広範な評価結果が得られた。
論文 参考訳(メタデータ) (2021-03-01T11:50:39Z) - Learning Monocular Depth in Dynamic Scenes via Instance-Aware Projection
Consistency [114.02182755620784]
本稿では,複数の動的物体の6-DoF動作,エゴモーション,深度を,監督なしで一眼レフカメラで明示的にモデル化する,エンドツーエンドのジョイントトレーニングフレームワークを提案する。
筆者らのフレームワークは,最先端の深度・動き推定法より優れていた。
論文 参考訳(メタデータ) (2021-02-04T14:26:42Z) - Wide-angle Image Rectification: A Survey [86.36118799330802]
広角画像は、基礎となるピンホールカメラモデルに反する歪みを含む。
これらの歪みを補正することを目的とした画像修正は、これらの問題を解決することができる。
本稿では、異なるアプローチで使用されるカメラモデルについて、詳細な説明と議論を行う。
次に,従来の幾何学に基づく画像修正手法と深層学習法の両方について検討する。
論文 参考訳(メタデータ) (2020-10-30T17:28:40Z) - Neural Ray Surfaces for Self-Supervised Learning of Depth and Ego-motion [51.19260542887099]
カメラモデルの事前知識を必要とせずに、自己超越を用いて正確な深度とエゴモーション推定を学習できることが示される。
Grossberg と Nayar の幾何学モデルにインスパイアされた我々は、ピクセルワイド射影線を表す畳み込みネットワークである Neural Ray Surfaces (NRS) を導入する。
本研究では,多種多様なカメラシステムを用いて得られた生ビデオから,視覚計測の自己教師付き学習と深度推定にNRSを用いることを実証する。
論文 参考訳(メタデータ) (2020-08-15T02:29:13Z) - A Geometric Perspective on Visual Imitation Learning [8.904045267033258]
人間の監督を伴わない視覚模倣学習の問題点を考察する。
VGS-IL (Visual Geometric Skill Learning) を提案する。
論文 参考訳(メタデータ) (2020-03-05T16:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。