論文の概要: Causal Transformer for Fusion and Pose Estimation in Deep Visual Inertial Odometry
- arxiv url: http://arxiv.org/abs/2409.08769v1
- Date: Fri, 13 Sep 2024 12:21:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-16 16:39:02.439233
- Title: Causal Transformer for Fusion and Pose Estimation in Deep Visual Inertial Odometry
- Title(参考訳): 深部視覚慣性オドメトリーにおける核融合とポス推定のための因果変換器
- Authors: Yunus Bilge Kurt, Ahmet Akman, A. Aydın Alatan,
- Abstract要約: 深部視覚-慣性眼振におけるポーズ推定のための因果的視覚-慣性融合変換器 (VIFT) を提案する。
提案手法はエンドツーエンドのトレーニングが可能であり,単眼カメラとIMUのみを必要とする。
- 参考スコア(独自算出の注目度): 1.2289361708127877
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, transformer-based architectures become the de facto standard for sequence modeling in deep learning frameworks. Inspired by the successful examples, we propose a causal visual-inertial fusion transformer (VIFT) for pose estimation in deep visual-inertial odometry. This study aims to improve pose estimation accuracy by leveraging the attention mechanisms in transformers, which better utilize historical data compared to the recurrent neural network (RNN) based methods seen in recent methods. Transformers typically require large-scale data for training. To address this issue, we utilize inductive biases for deep VIO networks. Since latent visual-inertial feature vectors encompass essential information for pose estimation, we employ transformers to refine pose estimates by updating latent vectors temporally. Our study also examines the impact of data imbalance and rotation learning methods in supervised end-to-end learning of visual inertial odometry by utilizing specialized gradients in backpropagation for the elements of SE$(3)$ group. The proposed method is end-to-end trainable and requires only a monocular camera and IMU during inference. Experimental results demonstrate that VIFT increases the accuracy of monocular VIO networks, achieving state-of-the-art results when compared to previous methods on the KITTI dataset. The code will be made available at https://github.com/ybkurt/VIFT.
- Abstract(参考訳): 近年、トランスフォーマーベースのアーキテクチャは、ディープラーニングフレームワークにおけるシーケンスモデリングのデファクトスタンダードとなっている。
そこで本研究では, 深部視覚-慣性眼振計測におけるポーズ推定のための視覚-慣性融合変換器 (VIFT) を提案する。
本研究では,近年のリカレントニューラルネットワーク(RNN)に基づく手法と比較して,過去のデータを利用するトランスフォーマーの注意機構を活用することにより,ポーズ推定精度を向上させることを目的とする。
トランスフォーマーは通常、トレーニングのために大規模なデータを必要とする。
この問題に対処するために、深いVIOネットワークの帰納バイアスを利用する。
潜時視覚慣性特徴ベクトルはポーズ推定に不可欠な情報を含むため、潜時ベクトルを時間的に更新することでポーズ推定を洗練するためにトランスフォーマーを用いる。
また,SE$(3)$グループの要素のバックプロパゲーションにおける特殊勾配を利用して,視覚慣性計測の教師付きエンドツーエンド学習におけるデータ不均衡と回転学習の効果について検討した。
提案手法はエンドツーエンドのトレーニングが可能であり,単眼カメラとIMUのみを必要とする。
実験により,VIFTは単分子VIOネットワークの精度を向上し,KITTIデータセットの従来の手法と比較して最先端の結果が得られることが示された。
コードはhttps://github.com/ybkurt/VIFT.comから入手できる。
関連論文リスト
- Open-Set Deepfake Detection: A Parameter-Efficient Adaptation Method with Forgery Style Mixture [58.60915132222421]
本稿では,顔偽造検出に汎用的かつパラメータ効率の高い手法を提案する。
フォージェリー・ソース・ドメインの多様性を増大させるフォージェリー・ミックス・フォーミュレーションを設計する。
設計したモデルは、トレーニング可能なパラメータを著しく減らし、最先端の一般化性を実現する。
論文 参考訳(メタデータ) (2024-08-23T01:53:36Z) - Reverse Knowledge Distillation: Training a Large Model using a Small One
for Retinal Image Matching on Limited Data [1.9521342770943706]
限られたデータで大規模モデルを訓練するための逆知識蒸留に基づく新しい手法を提案する。
我々は、より軽量なCNNモデルを用いて、視覚変換器エンコーダに基づく計算的に重いモデルを訓練する。
実験結果から,表現空間における高次元フィッティングは,最終出力に適合するトレーニングと異なり,過度な適合を防止できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-07-20T08:39:20Z) - A Study on the Generality of Neural Network Structures for Monocular
Depth Estimation [14.09373215954704]
分子深度推定の一般化に向けて,様々なバックボーンネットワークを深く研究する。
我々は、分布内と分布外の両方のデータセット上で、最先端のモデルを評価する。
我々はトランスフォーマーがCNNよりも強い形状バイアスを示すのを観察した。
論文 参考訳(メタデータ) (2023-01-09T04:58:12Z) - DepthFormer: Exploiting Long-Range Correlation and Local Information for
Accurate Monocular Depth Estimation [50.08080424613603]
高精度な単分子深度推定には長距離相関が不可欠である。
我々は,このグローバルコンテキストを効果的な注意機構でモデル化するためにTransformerを活用することを提案する。
提案したモデルであるDepthFormerは、最先端のモノクル深度推定手法をはるかに超えている。
論文 参考訳(メタデータ) (2022-03-27T05:03:56Z) - Benchmarking Detection Transfer Learning with Vision Transformers [60.97703494764904]
オブジェクト検出メソッドの複雑さは、ViT(Vision Transformer)モデルのような新しいアーキテクチャが到着するときに、ベンチマークを非簡単にする。
本研究では,これらの課題を克服し,標準的なVTモデルをMask R-CNNのバックボーンとして活用する訓練手法を提案する。
その結果,最近のマスキングに基づく教師なし学習手法は,COCOにおける説得力のあるトランスファー学習改善をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2021-11-22T18:59:15Z) - Visformer: The Vision-friendly Transformer [105.52122194322592]
我々は視覚に優しいトランスフォーマーから短縮したvisformerという新しいアーキテクチャを提案する。
同じ計算の複雑さにより、VisformerはTransformerベースのモデルとConvolutionベースのモデルの両方をImageNet分類精度で上回る。
論文 参考訳(メタデータ) (2021-04-26T13:13:03Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - On Robustness and Transferability of Convolutional Neural Networks [147.71743081671508]
現代の深層畳み込みネットワーク(CNN)は、分散シフトの下で一般化しないとしてしばしば批判される。
現代画像分類CNNにおける分布外と転送性能の相互作用を初めて検討した。
トレーニングセットとモデルサイズを増大させることで、分散シフトロバスト性が著しく向上することがわかった。
論文 参考訳(メタデータ) (2020-07-16T18:39:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。