論文の概要: TransCamP: Graph Transformer for 6-DoF Camera Pose Estimation
- arxiv url: http://arxiv.org/abs/2105.14065v1
- Date: Fri, 28 May 2021 19:08:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-06 02:37:52.078632
- Title: TransCamP: Graph Transformer for 6-DoF Camera Pose Estimation
- Title(参考訳): TransCamP: 6-DoFカメラポース推定用グラフ変換器
- Authors: Xinyi Li, Haibin Ling
- Abstract要約: 本稿では、カメラ再配置問題に対処するため、グラフトランスフォーマーバックボーン、すなわちTransCamPを用いたニューラルネットワークアプローチを提案する。
TransCamPは、画像の特徴、カメラポーズ情報、フレーム間の相対的なカメラモーションを、エンコードされたグラフ属性に効果的に融合する。
- 参考スコア(独自算出の注目度): 77.09542018140823
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Camera pose estimation or camera relocalization is the centerpiece in
numerous computer vision tasks such as visual odometry, structure from motion
(SfM) and SLAM. In this paper we propose a neural network approach with a graph
transformer backbone, namely TransCamP, to address the camera relocalization
problem. In contrast with prior work where the pose regression is mainly guided
by photometric consistency, TransCamP effectively fuses the image features,
camera pose information and inter-frame relative camera motions into encoded
graph attributes and is trained towards the graph consistency and accuracy
instead, yielding significantly higher computational efficiency. By leveraging
graph transformer layers with edge features and enabling tensorized adjacency
matrix, TransCamP dynamically captures the global attention and thus endows the
pose graph with evolving structures to achieve improved robustness and
accuracy. In addition, optional temporal transformer layers actively enhance
the spatiotemporal inter-frame relation for sequential inputs. Evaluation of
the proposed network on various public benchmarks demonstrates that TransCamP
outperforms state-of-the-art approaches.
- Abstract(参考訳): カメラのポーズ推定やカメラの再ローカライズは、視覚のオドメトリ、運動による構造(sfm)、スラムなど多くのコンピュータビジョンタスクの中心である。
本稿では,カメラ再配置問題に対処するために,グラフトランスフォーマーバックボーン,すなわちTransCamPを用いたニューラルネットワークアプローチを提案する。
ポーズ回帰が主に測光一貫性によって導かれる以前の作業とは対照的に、TransCamPは画像特徴、カメラポーズ情報、フレーム間カメラモーションを符号化されたグラフ属性に効果的に融合し、代わりにグラフの一貫性と精度に向けて訓練し、計算効率を大幅に向上させる。
グラフトランスフォーマー層をエッジ特性で利用し、テンソル化した隣接行列を有効にすることにより、TransCamPはグローバルな注目を動的に捕捉し、ポーズグラフに進化する構造を付与し、堅牢性と精度の向上を実現する。
さらに、任意の時間変換器層は、逐次入力の時空間間関係を積極的に強化する。
提案したネットワークの評価は,TransCamPが最先端のアプローチより優れていることを示す。
関連論文リスト
- ESVO2: Direct Visual-Inertial Odometry with Stereo Event Cameras [33.81592783496106]
イベントベースのビジュアルオドメトリーは、トラッキングとサブプロブレムを並列にマッピングすることを目的としている。
イベントベースのステレオビジュアル慣性オドメトリーシステムを構築した。
論文 参考訳(メタデータ) (2024-10-12T05:35:27Z) - GTransPDM: A Graph-embedded Transformer with Positional Decoupling for Pedestrian Crossing Intention Prediction [6.327758022051579]
GTransPDMは多モード特徴を利用した歩行者横断意図予測のために開発された。
PIEデータセットでは92%の精度で、JAADデータセットでは87%の精度で処理速度は0.05msである。
論文 参考訳(メタデータ) (2024-09-30T12:02:17Z) - VICAN: Very Efficient Calibration Algorithm for Large Camera Networks [49.17165360280794]
ポースグラフ最適化手法を拡張する新しい手法を提案する。
我々は、カメラを含む二部グラフ、オブジェクトの動的進化、各ステップにおけるカメラオブジェクト間の相対変換について考察する。
我々のフレームワークは従来のPGOソルバとの互換性を維持しているが、その有効性はカスタマイズされた最適化方式の恩恵を受けている。
論文 参考訳(メタデータ) (2024-03-25T17:47:03Z) - Automated Camera Calibration via Homography Estimation with GNNs [8.786192891436686]
政府や地方自治体は、道路の安全と交通条件の最適化のために、カメラから収集したデータにますます依存している。
カメラの正確な校正と自動校正を確実にすることが不可欠である。
本稿では,交差点のトポロジ的構造を利用して,この課題に対処する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-05T08:45:26Z) - Alignment-free HDR Deghosting with Semantics Consistent Transformer [76.91669741684173]
高ダイナミックレンジイメージングは、複数の低ダイナミックレンジ入力から情報を取得し、リアルな出力を生成することを目的としている。
既存の手法では、前景やカメラの動きによって引き起こされる入力フレーム間の空間的ずれに焦点を当てることが多い。
本研究では,SCTNet(Semantics Consistent Transformer)を用いたアライメントフリーネットワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:03:23Z) - Vision Transformer with Convolutions Architecture Search [72.70461709267497]
本稿では,畳み込み型アーキテクチャサーチ(VTCAS)を用いたアーキテクチャ探索手法を提案する。
VTCASによって探索された高性能バックボーンネットワークは、畳み込みニューラルネットワークの望ましい特徴をトランスフォーマーアーキテクチャに導入する。
これは、特に低照度屋内シーンにおいて、物体認識のためのニューラルネットワークの堅牢性を高める。
論文 参考訳(メタデータ) (2022-03-20T02:59:51Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - Homography Decomposition Networks for Planar Object Tracking [11.558401177707312]
平面オブジェクトトラッキングは、ロボット工学、ビジュアルサーボ、ビジュアルSLAMといったAIアプリケーションにおいて重要な役割を果たす。
本稿では, ホログラフィ変換を2つのグループに分解することで, 条件数を大幅に削減し, 安定化する新しいホモグラフィ分解ネットワークを提案する。
論文 参考訳(メタデータ) (2021-12-15T06:13:32Z) - XCiT: Cross-Covariance Image Transformers [73.33400159139708]
本稿では,トークンではなく機能チャネルをまたいで機能する自己注意の「伝達」バージョンを提案する。
その結果、XCAはトークン数に線形複雑さを持ち、高解像度画像の効率的な処理を可能にする。
論文 参考訳(メタデータ) (2021-06-17T17:33:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。