論文の概要: TransCamP: Graph Transformer for 6-DoF Camera Pose Estimation
- arxiv url: http://arxiv.org/abs/2105.14065v1
- Date: Fri, 28 May 2021 19:08:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-06 02:37:52.078632
- Title: TransCamP: Graph Transformer for 6-DoF Camera Pose Estimation
- Title(参考訳): TransCamP: 6-DoFカメラポース推定用グラフ変換器
- Authors: Xinyi Li, Haibin Ling
- Abstract要約: 本稿では、カメラ再配置問題に対処するため、グラフトランスフォーマーバックボーン、すなわちTransCamPを用いたニューラルネットワークアプローチを提案する。
TransCamPは、画像の特徴、カメラポーズ情報、フレーム間の相対的なカメラモーションを、エンコードされたグラフ属性に効果的に融合する。
- 参考スコア(独自算出の注目度): 77.09542018140823
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Camera pose estimation or camera relocalization is the centerpiece in
numerous computer vision tasks such as visual odometry, structure from motion
(SfM) and SLAM. In this paper we propose a neural network approach with a graph
transformer backbone, namely TransCamP, to address the camera relocalization
problem. In contrast with prior work where the pose regression is mainly guided
by photometric consistency, TransCamP effectively fuses the image features,
camera pose information and inter-frame relative camera motions into encoded
graph attributes and is trained towards the graph consistency and accuracy
instead, yielding significantly higher computational efficiency. By leveraging
graph transformer layers with edge features and enabling tensorized adjacency
matrix, TransCamP dynamically captures the global attention and thus endows the
pose graph with evolving structures to achieve improved robustness and
accuracy. In addition, optional temporal transformer layers actively enhance
the spatiotemporal inter-frame relation for sequential inputs. Evaluation of
the proposed network on various public benchmarks demonstrates that TransCamP
outperforms state-of-the-art approaches.
- Abstract(参考訳): カメラのポーズ推定やカメラの再ローカライズは、視覚のオドメトリ、運動による構造(sfm)、スラムなど多くのコンピュータビジョンタスクの中心である。
本稿では,カメラ再配置問題に対処するために,グラフトランスフォーマーバックボーン,すなわちTransCamPを用いたニューラルネットワークアプローチを提案する。
ポーズ回帰が主に測光一貫性によって導かれる以前の作業とは対照的に、TransCamPは画像特徴、カメラポーズ情報、フレーム間カメラモーションを符号化されたグラフ属性に効果的に融合し、代わりにグラフの一貫性と精度に向けて訓練し、計算効率を大幅に向上させる。
グラフトランスフォーマー層をエッジ特性で利用し、テンソル化した隣接行列を有効にすることにより、TransCamPはグローバルな注目を動的に捕捉し、ポーズグラフに進化する構造を付与し、堅牢性と精度の向上を実現する。
さらに、任意の時間変換器層は、逐次入力の時空間間関係を積極的に強化する。
提案したネットワークの評価は,TransCamPが最先端のアプローチより優れていることを示す。
関連論文リスト
- Transformer-based Fusion of 2D-pose and Spatio-temporal Embeddings for
Distracted Driver Action Recognition [8.841708075914353]
運転行動の時間的局所化は、先進的な運転支援システムと自然主義運転研究にとって重要である。
本研究では,映像行動認識と2次元人文推定ネットワークを1つのモデルに適用することにより,時間的局所化と分類精度の向上を目指す。
このモデルは、2023年のNVIDIA AI City ChallengeというA2テストセットで、自然な運転行動認識のためにうまく機能する。
論文 参考訳(メタデータ) (2024-03-11T10:26:38Z) - Automated Camera Calibration via Homography Estimation with GNNs [8.786192891436686]
政府や地方自治体は、道路の安全と交通条件の最適化のために、カメラから収集したデータにますます依存している。
カメラの正確な校正と自動校正を確実にすることが不可欠である。
本稿では,交差点のトポロジ的構造を利用して,この課題に対処する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-05T08:45:26Z) - Alignment-free HDR Deghosting with Semantics Consistent Transformer [76.91669741684173]
高ダイナミックレンジイメージングは、複数の低ダイナミックレンジ入力から情報を取得し、リアルな出力を生成することを目的としている。
既存の手法では、前景やカメラの動きによって引き起こされる入力フレーム間の空間的ずれに焦点を当てることが多い。
本研究では,SCTNet(Semantics Consistent Transformer)を用いたアライメントフリーネットワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:03:23Z) - HVC-Net: Unifying Homography, Visibility, and Confidence Learning for
Planar Object Tracking [5.236567998857959]
我々は、ホモグラフィ、可視性、信頼性を共同で検討する統合畳み込みニューラルネットワーク(CNN)モデルを提案する。
提案手法は,パブリックPOTおよびTMTデータセットの最先端手法よりも優れている。
論文 参考訳(メタデータ) (2022-09-19T11:11:56Z) - ParticleSfM: Exploiting Dense Point Trajectories for Localizing Moving
Cameras in the Wild [57.37891682117178]
本稿では,一対の光流からの高密度対応に基づく動画の高密度間接構造抽出手法を提案する。
不規則点軌道データを処理するために,新しいニューラルネットワークアーキテクチャを提案する。
MPIシンテルデータセットを用いた実験により,我々のシステムはより正確なカメラ軌道を生成することがわかった。
論文 参考訳(メタデータ) (2022-07-19T09:19:45Z) - Cross-Attention Transformer for Video Interpolation [3.5317804902980527]
TAIN (Transformers and Attention for video Interpolation) は、2つの連続した画像フレームが配置された中間フレームを補間することを目的としている。
最初に、予測フレームと類似した外観の入力画像特徴をグローバルに集約するために、CS(Cross-Similarity)と呼ばれる新しいビジュアルトランスフォーマーモジュールを提示する。
CS特徴の排他性を考慮し,一方のフレームから他方のフレーム上のCS特徴に焦点を合わせるためのイメージアテンション(IA)モジュールを提案する。
論文 参考訳(メタデータ) (2022-07-08T21:38:54Z) - Vision Transformer with Convolutions Architecture Search [72.70461709267497]
本稿では,畳み込み型アーキテクチャサーチ(VTCAS)を用いたアーキテクチャ探索手法を提案する。
VTCASによって探索された高性能バックボーンネットワークは、畳み込みニューラルネットワークの望ましい特徴をトランスフォーマーアーキテクチャに導入する。
これは、特に低照度屋内シーンにおいて、物体認識のためのニューラルネットワークの堅牢性を高める。
論文 参考訳(メタデータ) (2022-03-20T02:59:51Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - Homography Decomposition Networks for Planar Object Tracking [11.558401177707312]
平面オブジェクトトラッキングは、ロボット工学、ビジュアルサーボ、ビジュアルSLAMといったAIアプリケーションにおいて重要な役割を果たす。
本稿では, ホログラフィ変換を2つのグループに分解することで, 条件数を大幅に削減し, 安定化する新しいホモグラフィ分解ネットワークを提案する。
論文 参考訳(メタデータ) (2021-12-15T06:13:32Z) - XCiT: Cross-Covariance Image Transformers [73.33400159139708]
本稿では,トークンではなく機能チャネルをまたいで機能する自己注意の「伝達」バージョンを提案する。
その結果、XCAはトークン数に線形複雑さを持ち、高解像度画像の効率的な処理を可能にする。
論文 参考訳(メタデータ) (2021-06-17T17:33:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。