論文の概要: Transformer Guided Geometry Model for Flow-Based Unsupervised Visual
Odometry
- arxiv url: http://arxiv.org/abs/2101.02143v1
- Date: Tue, 8 Dec 2020 19:39:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-16 21:11:13.431639
- Title: Transformer Guided Geometry Model for Flow-Based Unsupervised Visual
Odometry
- Title(参考訳): 流れに基づく教師なし視覚オドメトリーのためのトランスフォーマガイド幾何学モデル
- Authors: Xiangyu Li and Yonghong Hou and Pichao Wang and Zhimin Gao and
Mingliang Xu and Wanqing Li
- Abstract要約: 対画像からの情報を扱う2つのカメラポーズ推定器からなる手法を提案する。
画像シーケンスでは、Transformerライクな構造を採用して、局所的な時間ウィンドウ上にジオメトリモデルを構築する。
対向画像間の関係を利用するために,f2fpe(flow-to-flow pose estimator)を提案する。
- 参考スコア(独自算出の注目度): 38.20137500372927
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing unsupervised visual odometry (VO) methods either match pairwise
images or integrate the temporal information using recurrent neural networks
over a long sequence of images. They are either not accurate, time-consuming in
training or error accumulative. In this paper, we propose a method consisting
of two camera pose estimators that deal with the information from pairwise
images and a short sequence of images respectively. For image sequences, a
Transformer-like structure is adopted to build a geometry model over a local
temporal window, referred to as Transformer-based Auxiliary Pose Estimator
(TAPE). Meanwhile, a Flow-to-Flow Pose Estimator (F2FPE) is proposed to exploit
the relationship between pairwise images. The two estimators are constrained
through a simple yet effective consistency loss in training. Empirical
evaluation has shown that the proposed method outperforms the state-of-the-art
unsupervised learning-based methods by a large margin and performs comparably
to supervised and traditional ones on the KITTI and Malaga dataset.
- Abstract(参考訳): 既存の教師なしビジュアルオドメトリー(VO)手法は、ペア画像にマッチするか、長い画像列上の繰り返しニューラルネットワークを使用して時間情報を統合する。
正確でないか、トレーニングに時間がかかるか、あるいは累積的なエラーである。
本稿では,2つのカメラポーズ推定器を用いて,ペア画像からの情報と短い画像列をそれぞれ処理する手法を提案する。
画像シーケンスでは、Transformer-based Auxiliary Pose Estimator (TAPE) と呼ばれる局所時間ウィンドウ上に幾何学モデルを構築するためにTransformer-like構造を採用する。
一方,F2FPE (Flow-to-Flow Pose Estimator) は対画像間の関係を利用する。
2つの推定値は、トレーニングにおける単純かつ効果的な一貫性損失によって制約される。
実証的評価により,提案手法は最先端の教師なし学習ベース手法を高いマージンで上回り,kitti と malaga データセット上で教師付き学習と従来の学習を両立できることを示した。
関連論文リスト
- Transformer-based Clipped Contrastive Quantization Learning for
Unsupervised Image Retrieval [15.982022297570108]
教師なし画像検索は、与えられたクエリ画像の類似画像を取得するために、任意のレベルなしに重要な視覚的特徴を学習することを目的としている。
本稿では,パッチベースの処理により局所的なコンテキストを持つTransformerを用いて,画像のグローバルコンテキストを符号化するTransClippedCLRモデルを提案する。
提案したクリップ付きコントラスト学習の結果は、バニラコントラスト学習と同一のバックボーンネットワークと比較して、すべてのデータセットで大幅に改善されている。
論文 参考訳(メタデータ) (2024-01-27T09:39:11Z) - Forgery-aware Adaptive Transformer for Generalizable Synthetic Image
Detection [106.39544368711427]
本研究では,様々な生成手法から偽画像を検出することを目的とした,一般化可能な合成画像検出の課題について検討する。
本稿では,FatFormerという新しいフォージェリー適応トランスフォーマー手法を提案する。
提案手法は, 平均98%の精度でGANを観測し, 95%の精度で拡散モデルを解析した。
論文 参考訳(メタデータ) (2023-12-27T17:36:32Z) - Generative Modeling in Sinogram Domain for Sparse-view CT Reconstruction [12.932897771104825]
CT検査では投射回数を直感的に減らすことで放射線線量を大幅に減少させることができる。
疎視データを用いた従来のディープラーニング技術では、教師付き方法でネットワークをトレーニングするためにスパースビュー/フルビューCTイメージペアが必要である。
スパース・ビューCT再構成のための非教師なしスコアベース生成モデルについて検討した。
論文 参考訳(メタデータ) (2022-11-25T06:49:18Z) - Paired Image-to-Image Translation Quality Assessment Using Multi-Method
Fusion [0.0]
本稿では,画像品質の信号のペア化と変換を併用して,後者の類似性と仮説的基底真理を推定する手法を提案する。
我々は,深部画像構造とテクスチャ類似性(DISTS)を予測するために,勾配型回帰器のアンサンブルを用いたマルチメソッドフュージョン(MMF)モデルを訓練した。
分析の結果,測定時間と予測精度の間にトレードオフが生じ,特徴制約を課すことが判明した。
論文 参考訳(メタデータ) (2022-05-09T11:05:15Z) - A Hierarchical Transformation-Discriminating Generative Model for Few
Shot Anomaly Detection [93.38607559281601]
各トレーニングイメージのマルチスケールパッチ分布をキャプチャする階層的生成モデルを開発した。
この異常スコアは、スケール及び画像領域にわたる正しい変換のパッチベースの投票を集約して得られる。
論文 参考訳(メタデータ) (2021-04-29T17:49:48Z) - Deep Online Correction for Monocular Visual Odometry [23.124372375670887]
本研究では,単眼視能測定のための深層オンライン補正(DOC)フレームワークを提案する。
深度マップと初期ポーズは、自己教師された方法で訓練された畳み込みニューラルネットワーク(CNN)から得られる。
本手法は、KITTI Odometryベンチマークにおける相対変換誤差(RTE)=2.0%で優れた性能を発揮します。
09.
論文 参考訳(メタデータ) (2021-03-18T05:55:51Z) - LEARN++: Recurrent Dual-Domain Reconstruction Network for Compressed
Sensing CT [17.168584459606272]
LEARN++モデルは、2つの並列およびインタラクティブワークを統合して、画像と投影ドメインの両方で画像復元とシングラムインペインティング操作を同時に実行します。
その結果,learn++モデルは,アーティファクトの削減と細部保存の両面で,いくつかの最先端手法と比較して,競争力のある質的,定量的な結果が得られることがわかった。
論文 参考訳(メタデータ) (2020-12-13T07:00:50Z) - Deep Variational Network Toward Blind Image Restoration [60.45350399661175]
ブラインド画像復元はコンピュータビジョンでは一般的だが難しい問題である。
両利点を両立させることを目的として,新しいブラインド画像復元手法を提案する。
画像デノイングと超解像という2つの典型的なブラインド赤外線タスクの実験により,提案手法が現状よりも優れた性能を達成できることが実証された。
論文 参考訳(メタデータ) (2020-08-25T03:30:53Z) - MetricUNet: Synergistic Image- and Voxel-Level Learning for Precise CT
Prostate Segmentation via Online Sampling [66.01558025094333]
本稿では,前立腺領域を高速に局在させる第1段階と,前立腺領域を正確に区分する第2段階の2段階のフレームワークを提案する。
マルチタスクネットワークにおけるボクセルワイドサンプリングによる新しいオンラインメトリック学習モジュールを提案する。
本手法は,従来のクロスエントロピー学習法やDice損失学習法と比較して,より代表的なボクセルレベルの特徴を効果的に学習することができる。
論文 参考訳(メタデータ) (2020-05-15T10:37:02Z) - Learning Deformable Image Registration from Optimization: Perspective,
Modules, Bilevel Training and Beyond [62.730497582218284]
マルチスケールの伝搬により微分同相モデルを最適化する,新しいディープラーニングベースのフレームワークを開発した。
我々は,脳MRIデータにおける画像-アトラス登録,肝CTデータにおける画像-画像登録を含む,3次元ボリュームデータセットにおける画像登録実験の2つのグループを実行する。
論文 参考訳(メタデータ) (2020-04-30T03:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。